1 引言
人工智能已成为全球竞争的焦点,被视为引领未来的战略性技术。2018年6月,美国前国务卿Kissinger首次公开表示,人类社会并未准备好迎接人工智能的崛起。到了2021年9月,Kissinger等再次强调了人工智能对全球安全和世界秩序的深远影响,警告其潜在破坏力可能超过核武器。尽管核武器具有毁灭性,但它们不具备人工智能所具有的自主启动、 自主选择目标的能力。Kissinger建议美中启动高科技安全对话,并建立机构,负责及时通报危险并降低风险。

随着大模型的涌现,人工智能的战略重要性进一步提升。我国于2017年发布了《新一代人工智能发展规划》, 明确到2030年,要将我国人工智能推向世界领先水平。2022年,科技部等六部门发布了《关于促进经济高质量发展的人工智能应用指导意见》, 随后又公布了《关于支持建设新一代人工智能示范应用场景的通知》。2023年, 国家信息中心发布《智能计算中心创新发展指南》,指出智算中心要围绕“算力生产、算力聚合、算力调度、算力释放”核心业务功能,为各行业领域人工智能应用提供稳定的技术支撑,打造可持续发展的算力生态。同年,国家 自然科学基金委员会发布“集成芯片前沿技术科学基础”重大研究计划,集中关注集成芯片前沿技术的科学基础,包括芯粒的数学描述和组合优化理论、大规模芯粒并行架构设计自动化、 以及芯粒尺度的多物理场耦合机制与界面理论。

2 符号人工智能与机器学习
感知、学习、推理、协作是典型的智能行为,涵盖了数据分析、机器学习、 自动推理、智能决策等核心领域,与人工智能的起源、成就与发展相辅相成。人工智能的起源可追溯至20世纪50年代, 当时计算机科学家开始探索让计算机具备类似人类思考能力的可能性:能否通过数据自动学习规则,而无需程序员制定规则?人工智能旨在自动化执行通常由人类执行的智力任务。这一领域涵盖了符号人工智能和机器学习等方法, 同时也包括一系列不涉及深度学习的高效技术(图1)。
图1
图1 本文所介绍的人工智能领域与模型的关系脉络

2.1 符号人工智能
在人工智能领域,符号人工智能(Symbolic Artificial Intelligence)是指所有基于问题、逻辑和搜索的高级符号(人类可读)表示的方法的集合。符号人工智能使用了诸如逻辑编程、产生式规则、语义网络和框架等工具 ,并发展了诸如基于知识的系统(特别是专家系统)、符号数学、 自动定理证明器、本体论、语义网以及自动规划和调度系统等应用。符号人工智能范式产生了在搜索、符号编程语言、代理程序、多代理系统、语义网以及形式知识和推理系统的优势和局限性方面的重要思想。

计算机先驱Babbage提出了差分机与分析机的设计概念,并部分实现。尽管当时还未出现通用计算的概念,这些设计被认为是一种使用机械操作来执行计算的方法,而非现代意义上的计算机。诗人、数学家Lovelace发表了分析机的第一段算法,因此被公认为史上第一位程序员。她将分析机称为机械式通用计算机,并认为其具有无限潜力,但不可能有真正的智能。Turing提出了图灵测试和塑造人工智能关键概念,质疑Lovelace的论断。计算机是否能够超越人类的指令,进行自主学习?Turing认为能。这个问题推动了机器学习的发展,从经典的规则驱动的编程转变为数据驱动的编程,开启了人工智能新时代的大门。

从20世纪50年代到80年代末,许多专家倾向于通过让程序员手工制定一组庞大的明确规则来实现人类水平的人工智能。这种方法被称为符号人工智能,是当时人工智能的主导范式,尤其在20世纪80年代的专家系统热潮中达到巅峰。1959年,数理逻辑学家王浩设计了一个程序,利用计算机证明了Russell和Whitehead的巨著《数学原理》中的数百个命题逻辑定理,标志着用计算机进行定理证明的可能性。

机器证明是指利用计算机自动推理,来完成数学或逻辑定理证明。它将待证明的定理或命题表示为形式化的数学语言或逻辑表达式,并利用计算机执行一系列逻辑推理和推导步骤,从给定的事实、规则或前提出发,自动地得出新的结论或推断。它是一种基于逻辑或数学规则的推理过程,旨在模拟人类的推理能力。

数学家吴文俊从中国古代数学历史中总结出了算法的思想,将几何定理证明通过建立多项式方程变成代数运算,再用计算机来处理代数运算。1977年,吴先生研究了初等几何判定问题的机器证明,进而建立了多项式组特征列的概念,提出了多项式组的“三角化整序法”,实现了高效的机器几何定理证明,在国际数学界被称为“吴方法”,推动了机械化证明的发展,被应用到机器人学、计算机图形学、工程设计等领域。

2.1 机器学习
尽管符号人工智能在解决明确定义的逻辑问题(如国际象棋)方面取得成功,但面对更复杂和模糊的问题,如图像分类、语音识别和语言翻译时,通过手工制定明确规则变得非常困难。于是,一种新的方法崭露头角,取代了符号人工智能的主导地位,那就是机器学习。这种方法不再依赖手工编码的规则,而是通过从数据中学习和提取模式来适应各种任务,这种转变使其能够处理更加复杂的问题,推动了人工智能的快速发展。

机器学习通过训练而非显式编程来执行任务,接收大量与任务相关的示例数据,并通过这些数据找到统计结构,最终实现自动化执行任务的能力。机器学习模型有三个要素:输入数据,预期输出的示例以及衡量模型表现的方法。输入数据是训练和测试机器学习模型的数据,预期输出示例是指与输入数据相对应的期望输出,在图像任务中,输出可以是图片的标签。衡量模型表现则是通过测量结果与预期输出之间的差异来体现。通过模型参数调整来最小化差异,该过程即为模型的学习过程。

表示学习(Representation Learning)是机器学习领域的一个重要概念,指的是通过学习将数据转换为有效的内部表征或特征表示的过程。这种转换能够帮助模型更好地理解数据,并使得数据更适合用于后续的任务,如分类、 回归、聚类等。表示学习的目标是找到一种能够最大程度地保留数据特征和结构的表示方式,从而提高模型的性能和泛化能力。表示学习方法可以是监督式或无监督式的,也可以是半监督式的,具体取决于所使用的数据和任务类型。

浅层学习是机器学习中的一大类方法,通常指的是使用相对较少的层或参数的机器学习模型。这些模型通常由少量的隐藏层组成,层之间的连接较简单,参数数量有限。浅层神经网络或者经典的机器学习模型,如线性回归、逻辑回归、支持向量机和简单的人工神经网络等。浅层学习经常与特征工程相结合,被广泛应用于回归、聚类等任务。朴素Bayes算法等概率建模方法属于经典的机器学习方法。在20世纪90年代,浅层神经网络开始受到研究人员的重视, 随后核方法、随机森林等高效方法也相继被提出。由于其简单的结构和较少的参数,浅层学习模型通常易于理解和解释,并且在数据量较小或特征维度较低的情况下表现良好。然而,对于复杂的、非线性的问题,浅层学习模型的性能可能受到限制,因为它们缺乏对复杂数据模式的学习能力。

朴素Bayes 模型(Naive Bayes Model)是基于 Bayes 定理与特征条件独立假设的分类方法。该算法假设输入模型的特征都是独立的, 因此称为“朴素”。Bayes定理及相关统计学基础可以追溯到18世纪,而朴素Bayes模型的应用早在计算机出现之前几十年就已存在。Logistic回归是另一个相关的分类算法,被视为现代机器学习的入门算法,至今仍然是数据分类任务的常用选择。Logistic回归是判别式模型,估计的是条件概率分布。朴素Bayes模型是生成式模型,估计的是联合概率分布,然后再得到后验概率,再利用它进行分类。

神经网络是一种符号之外的方法。20世纪50年代就开始了小规模的神经网络研究,尝试训练大型神经网络一直是挑战。但在20世纪80年代中期,反向传播算法的重新发现改变了这一局面。1989年, 贝尔实验室的Yann LeCun成功应用了卷积神经网络和反向传播算法于手写数字分类,创造了LeNet网络,在20世纪90年代被美国邮政局用来自动读取邮件信封上的邮政编码。然而,直到大数据变得普遍之前,与其他方法相比,神经网络的性能并不好。

核方法利用核函数计算特征空间中所有数据之间的内积,避免了线性学习算法学习非线性函数或决策边界所需的显式映射,称为“核技巧”。其中,支持向量机(Support Vector Machine,SVM)最为著名,旨在通过找到良好的决策边界将训练数据分隔成两个类别。SVM 以最大化边距为目标,通过将数据映射到高维空间并尝试最大化超平面与每个类中最近的数据点之间的距离来计算决策边界,使得边界能够很好地推广到训练数据集之外的新样本。Vapnik和Chervonenkis早在1964年就用最大间隔超平面构造了一个线性分类器。而现代版本的SVM由Cortes和Vapnik于20世纪90年代初在Bell实验室开发,使用了核技巧。

随机森林和梯度提升机是处理非感知数据的顶尖算法。决策树是一种类似流程图的结构,易于可视化和解释。自2000年代开始,决策树受到广泛关注,到了2010年代比核方法更受青睐。随机森林(Random Forest)引入了稳健、实用的决策树学习方法,通过集成大量决策树输出解决各种问题。梯度提升机(Gradient Boosting Machine)是基于集成弱预测模型的机器学习技术,使用梯度提升改进模型表现,大多数情况下严格优于随机森林, 同时具有相似的属性,常用于Kaggle竞赛。

浅层学习模型层数较少,参数较少,难以直接处理复杂、高维度的原始感知数据。因此,通常需要进行特征工程, 即转换或提取原始感知数据以适应特定任务。然而,特征工程耗时且效果依赖于任务和数据质量,导致模型泛化能力下降。特征工程可能会引入人为偏见,导致模型在其他数据集上的泛化能力下降。相比之下,深度神经网络通过更深、更复杂的网络结构能够学习到更抽象和复杂的特征表示, 因此在处理大规模数据和复杂任务时往往表现更好。深度神经网络能够自动学习特征表示,减少对特征工程的需求,从而提高在感知问题中的泛化能力和适应性

图片2

图2 浅层学习与深度学习的区别。浅层学习模型层数与参数较少,通常需要进行特征工程,转换原始感知数据。深度神经网络通过更深、更复杂的网络结设计,减少对特征工程的需求,提高了对感知任务的泛化能力和适应性

最后修改:2024 年 10 月 23 日
如果觉得我的文章对你有用,请随意赞赏