决策生成智能旨在在复杂和不确定的环境中选择最佳行动以实现特定目标或优化性能指标。它需要对环境进行建模,理解状态、动作和它们之间的相互作用关系,并使用不同的决策生成算法(如策略选代、Monte Carlo树搜索等)来生成最佳的决策策略。因此,决策生成智能涉及强化学习、统计学、优化等领域。
4.1 决策的数学内涵
决策可被视为一个优化问题,在给定约束条件下选择一组决策变量以最大化或最小化一个或多个目标函数。决策变量是可调参数,约束条件是其取值需满足的条件,如资源限制。目标函数是衡量决策结果的标准。当存在多目标时,需要进行权衡和优化。决策过程中通常存在不确定性,来自外部环境、数据不完备等,需考虑稳健性。决策者需评估和管理风险,分析可能的风险情景,并设计合适的风险管理策略,以降低不利结果的发生概率或影响程度。
决策的数学理论主要研究在不确定条件下通过数学方法和工具来优化决策方案。其主要内容包括:决策模型,如决策树、Markov决策过程、Bayes网络等,用于描述决策过程中状态、行动和结果之间的关系,以便评估和比较不同决策方案;决策准则,如最大化效用、最小化损失、最大化期望收益、最小化风险等,用于指导在不确定条件下做出最优的决策选择;不确定性建模,包括概率论、统计学和模糊逻辑等方法,用于量化不确定性和评估决策的风险;评估和选择最佳解决方案,通过比较解决方案的效用或利弊来实现,常用方法包括多目标优化技术和决策分析方法,如Pareto最优解的选择、权衡法和分级排序等。
决策常涉及多目标决策,如在对抗环境中的攻击对象选择等情境。在这种情况下,决策者需要在不同目标之间进行权衡和平衡,以找到最佳解决方案,满足多个目标的要求和限制。多目标决策需要综合运用多目标优化、决策分析和权衡方法,以实现最终的决策目标。决策者会根据自身偏好和重要性为不同目标排序并赋予权重,以反映不同目标对决策结果的相对重要性。在多目标决策中,存在一组解被称为非支配解, 即在所有目标上至少有一个目标比其他解更好,而在其他目标上至少有一个目标与其他解一样好。这些解构成了一个Pareto最优解集合,可从中选择解决方案。
决策通常需要借助运筹规划理论来优化资源分配和制定决策方案。运筹优化理论提供了一系列强大的工具和技术,帮助决策者在复杂环境中做出最佳决策,包括资源利用优化、成本降低和效率提高等方面。常用的理论有:线性规划,用于解决线性约束条件下的最优化问题,目标是最大化或最小化一个线性目标函数,广泛应用于资源分配、生产计划和运输等领域;整数规划,是线性规划的扩展,限制决策变量为整数值,常用于需要离散决策的问题,如生产调度和设施选址;非线性规划,用于解决目标函数或约束条件为非线性的最优化问题,在工程设计、经济学和金融等领域广泛应用;动态规划,解决具有重叠子问题和最优子结构性质的问题,常用于处理阶段性决策问题,例如库存管理和生产计划。这些方法为决策者提供了强大的工具,帮助他们在面对复杂问题时做出明智的决策,并有效地利用资源以实现预期的目标。
在数学上,决策论与博奕论相关,均研究在不确定环境下决策者或居中人的最优选择和策略互动。在决策理论中,个体或组织在面对不确定性时寻找最佳决策,而博奕理论则侧重于多个决策者相互作用的情境。决策理论关注单个决策者的最优选择,而博奕理论考虑各方相互影响,追求利益最大化。博奕理论涉及博奕类型、均衡概念和策略选择,旨在解决决策者之间的相互作用和冲突,寻求最优解决方案。
4.2 智能决策与强化学习
强化学习是一种通过与环境进行交互来学习如何做出决策的机器学习方法,与智能决策密切相关。强化学习的基本元素包括:智能体,可以学习和做出决策的实体,如机器人、游戏角色等;环境,智能体与之互动的对象,可以是物理世界、虚拟世界等;动作,智能体可以执行的操作,如移动、跳跃、攻击等;状态,智能体在环境中的当前状态,如位置、速度、生命值等;奖励,智能体在执行动作后接收的反绩;策略,智能体在状态下选择动作的规则。
强化学习的核心思想是:智能体在一个环境里面根据观测信息作出决策,并根据环境给的反馈(奖励)提升决策能力,使得自己能够在后续交互中拿到更多的奖励。因此,强化学习为智能决策提供了理论框架和方法论,使智能体能够通过与环境的交互学习改进其策略,实现智能和有效的行为。在这种框架下,智能体不断尝试和调整行为,以最大化未来可能获得的奖励。这种灵活方法使得智能体能够在复杂和不确定的情境中做出最优选择,逐步优化其决策策略,实现更智能化的行为。
自2015年起,强化学习与深度学习结合在多个控制领域展现出超越人类专家的决策水平,包括 Atari 游戏、下棋和机器人控制。在离散控制领域,从最早的Deep Q-Network(DQN)到采用分布式架构的A3C(Asynchronous Advantage Actor-Critic)/ IMPALA/Ape-X 再到R2D2(Recurrent Replay Distributed DQN),强化学习在Atari游戏中的表现逐渐超越了人类水平。在连续控制领域,从DDPG(Deep Deterministic Policy Gradient )到 TD3(Twin Delayed Deep Deterministic policy gradient algorithm)/SAC(Soft Actor-Critic)再到OAC(Optimistic Actor-Critic),算法的探索能力和稳定性也显著提升。
强化学习领域可细分为多个方向:多智能体强化学习涉及多智能体之间的协作、对抗性对话和竞争等,为人工智能系统与环境及其他智能体之间的互动提供新思路;逆强化学习和模仿学习旨在从专家行为中学习,并通过观察行为推断奖励函数,进而优化行为策略;多模态强化学习则涉及整合多种感知模态,如图像、语音和文本等;迁移学习、元学习等框架与强化学习的结合等。
强化学习方法主要分为两类:离线(offline)强化学习和在线(online)强化学习。离线学习策略旨在通过对已有数据进行训练,而无需实时与环境进行交互。首先,需要收集与问题相关的历史数据,包括强化学习试验、仿真环境中的模拟数据或现实世界中的操作记录等。这些数据用于离线训练智能体的策略模型,采用常见的强化学习算法如Q-learning、DQN等。完成离线训练后,需要对模型进行评估和优化,通常使用保留的数据集进行测试。然而,离线数据集并非完备,因此只依靠历史数据可能无法训练出最优智能体。在线强化学习则通过实时与环境交互来不断获得数据,但由于在线探索的难度较大,通常需要大量的探索样本。
强化学习和元学习(Meta-Learning)密切相关,都旨在提高机器学习模型的泛化能力和适应性,以应对不同任务和环境,从而使得智能体能够在复杂和未知的环境中进行快速而有效的学习和决策。元学习是一种“学习如何学习”的方法,其目标是让模型能够在面对新任务或环境时快速有效地学习。通常包括内层学习(在给定任务上学习任务特定的参数或策略)和外层学习(学习如何进行任务间的学习)两个层次。元学习可以视为强化学习的一种形式,其智能体通过与任务的交互学习优化策略,这里的任务可以被视为强化学习中的环境。元学习方法可以改进强化学习系统的性能和泛化能力,例如使用元学习来通过调整算法的超参数或选择合适的学习率。
4.3 强化学习与生成式人工智能
强化学习专注于通过与环境的交互学习最佳行为策略,而GenAI则致力于生成新的数据样本。将这两个领域结合起来可以产生协同效应,使得整体性能超过各自单独的效果。AIGC模型生成的内容可以通过强化学习模型的反绩不断改进。强化学习模型可以在AIGC模型生成的环境与任务上进行训练, 以提升其泛化能力,使其在更广泛的情境下表现更优秀。这种结合使得智能体能够从不断的生成与学习中获得更全面、更有效的知识,并在不同的任务和环境中更灵活地适应和表现。
在GenAI模型中,损失函数通常被设定为交叉嫡等能够描述生成分布与目标数据分布之间距离的函数。然而,在某些情况下,人们并不希望模型仅仅按照损失函数的最小化来生成内容。以条件文本生成为例,对于一个文本生成器,人们不仅希望它在训练数据集中已有的文本上表现良好,还期望它能够输出满足其他期望属性的文本,比如多样性、连贯性和新颖性等。这种评判标准与训练目标之间的差异可能会降低GenAI生成内容的质量。模型的泛化性也与损失函数相关。在一些生成式人工智能的应用中,人们希望模型能够处理超出数据分布范围的输入,即处理分布外任务(out-of-distribution task)。例如,在新型分子设计中,学习过程的目标是探索和生成未见过的分子,而不仅仅是生成已有数据集中的分子。代码摘要或生成器预期为新任务生成良好设计的代码,而不是简单地重复数据集中已有的代码。
对于分布外问题,与基于目标数据与生成数据分布差异的损失函数相比,利用强化学习的奖惩函数作为反绩提供了一种解决方案。强化学习能够通过不可微分的模块传播梯度,使得模型架构中可以包含离散模块,从而扩展了基于深度神经网络的GenAI的能力。从优化的角度来看,强化学习是一种优化不可微分目标期望函数输出的算法,其中策略梯度方法是一种基本方法,其思想是提升高回报输出的概率,减小低回报输出的概率,直到搜索到最优策略。因此,通过结合强化学习,设计奖惩函数作为GenAI模型额外的训练目标是可行且实用的,可以将奖惩信号体现到生成过程中。
GenAI对强化学习的支持主要体现在其离线训练过程中。在强化学习中,智能体需要在利用已有知识和探索未知情况之间找到平衡。为了最大化预期奖励,智能体必须利用之前获得的最佳行动经验。然而,为了获取更多潜在的最佳学习行动,它必须广泛探索所有可能的情况,以收集足够的数据来进行学习,这种探索过程并不适合离线学习。GenAI能够快速生成大量环境和任务样本,从而加速智能体的训练过程。
通过GenAI模型动态生成新颖、多样的环境和任务,智能体可以通过离线学习更全面地探索环境和理解任务,进而更容易发现有效策略,提高在真实世界中的泛化能力。GenAI还可以根据特定的任务和环境生成相应的数据,使得智能体的训练更加有针对性和有效,更好地引导智能体学习与任务相关的知识和策略。此外,生成式模型本身可能成为智能体的一部分,通过内在的生成机制生成行为或响应,与外部环境进行交互并实现某种目标。
许多生成问题可以定义为决策问题,从而使得强化学习可以用于内容或者决策的生成。对于顺序决策问题, 由于动作空间非常庞大,因此探索变得困难。因此,可以利用基于GenAI的预训练结合基于强化学习的微调所构成的模型架构来缓解这个问题。以RationaleRL为例,该模型用于药物设计的生成过程,首先利用GenAI模型中的VAE进行预训练,然后使用强化学习的策略梯度进行微调。与AlphaGo类似,该模型采用Monte Carlo树搜索来寻找重要的动作空间, 以提高基于强化学习的生成器的性能。此外,GenAI还在解决强化学习中的奖惩稀疏等问题上进行了探索。