决策智能利用推理和优化算法来评估不同决策方案的效果,并选择最佳的决策路径(图4),可用于自动化决策过程,为组织决策制定提供最佳实践框架,并提供将人工智能技术(如预测式智能、自然语言处理等内容生成式智能技术、自动推理)应用于规模化流程的方法。决策致力于分析行动与结果之间的因果链,通过分析制定策略,可使用机器学习进行因果链建模。因此,决策智能被视为人工智能的“多链接”扩展。机器学习要解决的是条件概率问题,“如果知道/看到/听到,可得出什么结论?”,而决策智能则是“如果采取行动,结果会是什么?”。后者涉及多轮由观察、调整、决定与行动组成的OODA循环(Observe, Orient, Decide, Act),涉及复杂系统、机器学习以及运筹优化中的决策分析。

图片
图4 决策智能的要素。一般包括:任务感知、规范输入数据、方案设计、数据对齐、执行监督、临机调整等

5.1 决策生成式智能

GenAI 不仅在自然语言处理和计算机视觉领域发挥作用,在决策过程中也扮演着重要角色。它可以帮助人们更快速、更准确地分析和理解大量复杂数据,从而支持各种决策过程,例如,棋类竞技、交通拥堵、医疗诊断等。此类智能可称为决策生成式智能(Artificial Intelligence Generated Action, AIGA)。通过对大数据的分析和优化,决策生成式大模型,即AIGA大模型, 能够生成有效的解决方案,从而提高社会资源的利用效率和社会治理水平。

决策智能技术与生成式智能技术可以结合以提高决策过程的效率和准确性。生成式智能技术可以用于生成合成数据,从而增加决策模型的训练数据量。这些合成数据可以帮助提高决策模型的泛化能力和准确度。生成式智能技术可以用于生成决策辅助信息,如可视化数据、预测结果的概率分布等。这些信息可以帮助决策者更好地理解数据和模型的预测结果,从而做出更准确的决策。特别的,生成式智能技术可以用于创造性地生成潜在的决策方案或解决方案的变体。这些方案可以作为决策者的参考,帮助其思考和评估不同的决策选项。可以构建智能决策系统,自动分析数据、生成决策方案,并根据反绩不断优化和改进决策过程,即AIGA技术。

基于上述快速学习能力上的优势,AIGA在开放场景中的决策中有巨大的潜力。它可以模拟场景并为快速决策提供数据,模拟不同的任务或环境。这有助于快速做出决策,可以用于自动驾驶汽车、供应链管理和医疗诊断等与国防民生息息相关的领域。相较于GPT等内容生成式大模型对科技社会所产生的深远影响,基于决策生成式智能的决策大模型尚未展现出相关能力, 因此成为了智能领域的新赛道。本节对其实际研究和应用的潜在影响进行梳理。

5.2 领域决策大模型

在围棋领域,AIGA大模型AlphaGo和AlphaZero是人工智能领域的重要成果。这些项目代表了深度强化学习技术在围棋等棋类游戏中的突破性进展。它们通过学习大量的棋谱和自我对奕来不断提高性能,并且在与人类顶尖棋手对弈中取得了惊人的表现。其成功证明了深度强化学习在复杂决策问题上的巨大潜力,为人工智能在游戏领域和其他领域的应用打开了新的可能性。

AlphaGo是DeepMind于2016年发布的首个围棋程序,采用了深度强化学习和Monte Carlo Tree Search相结合的方法。其核心是基于神经网络的价值网络和策略网络。价值网络用于评估局面的价值,而策略网络则用于预测每个动作的概率分布。这两个网络都通过大规模的强化学习训练而来。AlphaGo在与世界围棋冠军李世石的比赛中取得了胜利,引发了广泛关注,并被视为人工智能在复杂智力游戏上的一个重要里程碑。

AlphaZero是DeepMind于2017年发布的进化版本,将AlphaGo的方法推广到了其他棋类游戏,如国际象棋和将棋。与AlphaGo不同,AlphaZero不再依赖于人类专家的数据,而是完全基于自我对奕学习。它通过与自己玩游戏来提升自己,利用神经网络学习评估局面的价值和选择最佳动作。AlphaZero不仅在围棋领域取得了比AlphaGo更好的成绩,而且在国际象棋和将棋等其他棋类游戏上也取得了非常出色的表现,表明了其通用性和强大的学习能力。

在交通领域,百度基于“文心”大模型5(5 https://wenxin.baidu.com/wenxin/cv)发布了数字人“简璐璐”,提出全域信控缓堵解决方案,提升了交警部门对交通事故的发现、处置和恢复全流程效率。相较传统智慧交通道路事故处理,大模型可实时定位事故位置,自动切换现场仿真环境,评估事故程度和原因, 自动生成应急预案和事故报告,缩短相关执法人员、医护人员到达现场时间和现场交通拥堵时间。交通大模型可结合除历史交通道路特征和各类型信号灯信息以外的如社交网络、新闻媒体等渠道信息,提供更为广域、实时精准的交通流轨迹预测能力。

交通大模型可为交通参与者提供交通安全咨询和个性化出行服务,如与用户交互车次推荐,车票预定,航班查询,线路推荐,排队时间预测,目的地酒店和景点推荐等。一些城市和交通管理机构正在探索利用大型数据集和大模型来改善交通流量和管理。这些系统可以根据实时交通数据和历史数据做出决策,例如优化信号灯控制、路线规划和交通管理策略, 以改善交通流畅性和减少拥堵,提高道路监管效率。

深度学习技术在自动驾驶领域的感知层、决策层与控制层的广泛运用,以及不断提高的感知、检测、决策与控制的准确率,使驾驶变得更加安全和便利。而交通大模型能够提升高等级自动驾驶建图、训练和路侧感知设备运维能力,可为自动驾驶车辆提供鸟瞰图建图辅助与推理补充,通过结合路侧感知设备网构建的拥有丰富语义信息的实时动态交通环境与车辆轨迹信息,可增强车辆鸟瞰图建图效果,提高单车自动驾驶系统感知的鲁棒性与推理精度。

在生物领域,AlphaFold是由DeepMind开发的蛋白质结构预测的深度学习系统。该系统利用来自蛋白质序列和结构公共存储库的超过17万种蛋白质数据进行训练。AlphaFold采用了基于注意力机制的深度学习模型,这种模型能够有效地学习和理解蛋白质序列之间的复杂关系,并准确预测其三维结构。通过大规模的数据训练和注意力机制的应用,AlphaFold在蛋白质结构预测领域取得了令人嘱目的成就,为生物学研究提供了强大的工具和方法。

在制药领域,华为盘古药物分子大模型于2021年发布,是由华为云与中国科学院上海药物研究所共同训练而成的6(6 https://www.huaweicloud.com/product/pangu/scientiic-computing.html)。该模型能够实现针对小分子药物全流程的人工智能辅助药物设计。通过利用盘古药物分子大模型,研究人员可以更加准确地预测药物的成药性,其预测准确率比传统方式提高了20%。此外,使用该模型进行药物研发还可以显著降低成本,据称可以降低70%的先导药物研发成本。这一技术有望加速新药物的发现和研发过程。

在医疗领域,腾讯医疗大模型是基于腾讯混元大模型的一个重要应用7(7 https://healthcare.tencent.com/production/5)。该模型整合了超过285万个医疗实体、1250万个医学关系以及超过98%的医学知识构建的知识图谱和医学文献。经过对超过3000万个包含患者、 医生、药厂等场景及医疗流程的问答对话进行多任务微调,以及利用36万份专家医生标注数据进行强化学习,能够根据患者的个体特征、病史以及医学知识,提供个性化的诊断建议和治疗方案,从而为医疗工作者提供更可靠、更有效的决策支持。

5.3 通用大模型

DeepMind 的通用大模型作品Gato是一项令人嘱目的成就8(8 https://deepmind.google/discover/blog/a-generalist-agent/),该模型采用同一架构成功完成了604个不同的任务。这些任务涵盖了离散控制领域,例如 Atari 游戏和推箱子游戏,以及连续控制领域,如机器人控制和机械臂控制。此外,Gato还应用于自然语言处理领域,执行对话任务,并在计算机视觉领域生成描述。这些任务涉及的模式和行为规则各不相同,需要模型具备高度的灵活性和智能。令人惊叹的是,Gato不仅在450个任务中的表现超过了专家水平的50%,而且在23个Atari游戏中的表现甚至超过了人类的平均水平。

Gato采用了Prompt机制来区分不同类型的任务。该机制在输入序列的前面添加了一段当前任务的成功示范数据,并声明了模型正在解决的任务。通过Prompt机制,模型能够直接获得任务上下文,并在输入序列中添加适当的语境,以便直接输出所需的结果。这种方法为利用大型预训练模型解决特定任务提供了另一种选择。以前通常使用预训练模型的主要方法是微调。例如,在文本分类任务中,首先准备一个文本分类数据集,在此数据集上进行微调,然后再使用微调后的模型进行预测。

Gato的训练方式采用监督学习,类似于训练语言模型的方式。首先,将各个任务的数据处理成Token ID的序列数据,然后通过Transformer模型学习序列的出现分布。与语言模型相同,损失函数旨在最大化模型解码生成给定序列的概率。在解码过程中,会屏蔽掉非文本/动作的token,并输出相应的动作以控制智能体,或者输出文字来生成对话。训练数据包括控制类数据和图像/文本数据。其中,控制类数据占比85.3%,为目前最好的强化学习模型的训练过程中的数据。图像/文本数据来自公开数据集。

多模态数据被处理成Token ID数据,其中文本数据中每个词对应一个Token ID,离散数据类型直接映射到对应的Token ID,而浮点数类型则经过类激活函数归一化到[–1, 1]后离散化到1024部分,每个部分对应一个Token ID。对于图像类型数据,通过不重叠的卷积窗口切割原图像并分别通过训练好的残差网络编码成浮点数向量,再按照浮点数类型进行处理。操纵机器人时的传感器信号和关节力矩等连续值数据也通过采样和编码处理成序列数据。

PaLM(Pathways Language Model)是由谷歌开发的基于Transformer架构的大型语言模型,拥有5400亿参数,同时也训练了规模较小的版本,包括8亿参数和620亿参数的模型,以研究模型规模对性能的影响。PaLM执行的任务涵盖常识推理、算术推理、代码生成和翻译等多个领域。结合思维链提示时,PaLM在需要多步推理的数据集上表现出显著更好的性能,如文字问题和基于逻辑的问题等。这一模型于2022年4月首次公开,2023年3月,谷歌正式发布了PaLM及其 API。

PaLM2是谷歌最新的机器学习和负责任人工智能研究成果,在高级推理任务上表现更突出,涵盖了代码和数学、分类和问答、翻译和多语言能力以及自然语言生成等多个领域。这一成就得益于PaLM2独特的构建方式,融合了计算资源的优化、数据集的组合优化和模型架构的改进。PaLM2还被应用于其他先进的模型,如针对安全用例进行了微调的 Sec-PaLM。

5.4 决策大模型单点增强技术

2020年以来,随着深度学习方法固有的偏执、解释性、可理解性和稳定性问题变得更加明显,将符号人工智能和神经网络方法的优点结合起来,有望解决这两种方法都难以处理的领域,如常识推理。决策大模型的单点增强技术是指在设计、训练、评估和应用大规模深度学习模型时使用的各种方法和策略。这些技术的目标是提高大模型的性能、效率、鲁棒性和可解释性。以下是关于大模型增强的研究方向。

模型压缩技术,旨在在资源受限的环境下(如移动设备或边缘设备),减小大型模型的存储空间和计算成本,以便进行部署。目前的主要技术有:剪枝技术,去除大型模型中不必要的连接、神经元或层,显著减少模型的参数数量和存储空间,降低计算成本;将大型模型中的参数和激活值从浮点数表示转换为低位宽的定点数或整数表示,以降低存储和计算的需求,减少模型的存储空间和内存占用,并加快模型的推理速度;知识蒸馏,利用教师模型的知识来训练学生模型,通过传递教师模型的知识,如模型的输出分布、中间表示等,帮助学生模型学习到教师模型的决策逻辑和表示能力,从而使学生模型在保持性能的同时变得更小更轻量,实现模型的压缩和精简。

模型解释技术,旨在解释深度学习模型的决策过程,增强用户对模型预测结果的信任度和可信度。目前的主要技术有:特征重要性分析,评估模型中各个输入特征对输出结果的影响程度,解释模型的决策过程;局部可解释性方法,解释模型对特定输入样本的决策过程,使用局部敏感度分析或局部线性拟合等方法来近似模型在某个特定输入样本附近的行为;模型内部可解释性方法,利用深度学习模型的中间层激活值、权重分布或梯度信息等来解释模型对输入数据的处理过程;可视化方法,使用热力图、决策树可视化或神经网络结构可视化等方法展示模型的内部结构和决策逻辑;对抗性示例分析,通过生成具有特定特征的输入样本,测试模型的鲁棒性和可解释性,帮助用户理解模型的弱点和局限性。

人机协同技术,用于大型模型的数据准备、训练和使用过程中。人类专家通过与模型的交互,传授领域知识和经验,引导模型进行更有效和智能的学习,提高其泛化能力和适应性。目前主要用于:数据标注与清洗,加速训练数据准备过程,提高数据质量;模型调优与优化,通过人类专家的直观判断和领域知识,指导模型的调优和优化过程,加速模型的收敛速度;实时反绩与监督,帮助模型及时调整和优化,提高训练效果;利用交互式的可视化工具和解释性方法,帮助人类理解模型的决策过程和内部特征,增强对模型的信任度和可解释性。

安全和隐私,对大模型在敏感任务上的部署使用至关重要。采用隐私计算、多方安全计算、联邦学习等技术,结合加密、差分隐私和访问控制等安全措施,可以实现数据的安全共享,打破“数据孤岛”,实现“数据可用不可见”,从而解决数据合作中可能存在的安全风险和隐私泄露问题。FATE发布的联邦学习大模型FATE-LLM9(9 https://github.com/FederatedAI/FATE-LLM),采用联邦学习技术对预训练的大型语言模型进行微调和优化,以满足不同应用场景和任务的需求。联邦大模型确保了数据的隐私和安全性。同时,针对大型模型生成内容的监测问题,业内也在积极研究相关的安全监测工具,以满足用户对可信任人工智能系统的需求,并促进全球范围内人工智能监管框架的互联互通。

不确定推理,对环境等不确定性进行有效地表示、建模和推理的过程,使智能系统能够在不确定和动态的环境中做出明智的决策、降低风险,并提高整体性能。关键概念和技术包括使用概率理论来表示和推理不确定性,常用技术包括Bayes推理和PGMs;另外,使用模糊集和模糊规则表示模糊或不确定信息,提供了处理语言变量和模糊关系引起的不确定性的框架;可能性理论则用于在确定精确概率困难时表示和推理不确定性。此外,不确定性量化方法,如置信区间、不确定性传播和敏感性分析等也是重要的技术手段。

优化器设计,旨在解决大规模模型训练时所面临的诸多挑战,包括内存消耗、计算效率和收敛速度等方面的问题。一个优秀的优化器需要关注内存效率、分布式训练支持、批量处理和并行计算、自适应学习率调整、以及稳健性和鲁棒性等几个方面。Adam、Sophia等优化器被广泛应用,能够有效地帮助模型实现快速收敛。此外,朱军等提出的 DPM-Solver 系列通过提升 Stable Diffusion 模型的快速采样算法,为模型训练带来了显著的改进。

采样器设计,用于准备训练数据、环境和任务,以供深度学习模型进行训练。Stackelberg 博奕作为一种重要的数据采样方法,在深度学习中发挥着关键作。Stackelberg 博奕常被用于描述领导者与追随者之间的博奕关系。在深度学习中,该博奕被引入数据采样过程中,以提高模型的训练效果和性能。领导者(即数据采样器)会根据当前模型的状态和性能选择一批样本进行训练,然后将这些样本提供给模型进行训练。模型根据领导者提供的样本进行学习,并生成相应的预测结果。领导者根据模型的预测结果对样本进行反绩,调整下一批样本的选择, 以进一步优化模型的性能。

最后修改:2024 年 10 月 23 日
如果觉得我的文章对你有用,请随意赞赏