来源:《能源评论》 时间:2023-09-06 16:49
2月11日,斯坦福大学商学院的计算机科学家米哈尔·科辛斯基在预印本平台arXiv提交了一篇论文《心智理论可能从大语言模型中自发涌现》。论文描述了他给GPT-3.5在内的9个GPT模型所做的两个经典测试。结果显示,GPT-3.5(ChatGPT的同源模型)可以完成93%的心智理论任务。换句话说,其心智水平已经相当于一个9岁儿童。
心智,即一个人各项思维能力的总和,用以感受、观察、理解、判断、选择、记忆、想象、假设、推理,并据此指导其行为。也有专家将其解释为“一个人理解他人或自己心理状态的能力,包括同理心、情绪、意图等”。定义虽不同,但有一个观点是公认的:心智是人类独有的能力。
根据这项研究,心智已经出现在ChatGPT等人工智能应用上。这让不少人质疑,人工智能是否真正具有了人类的认知,将来能达到什么样的水平?要弄清这些问题,我们需要了解“什么是认知”“认知和人工智能的相互关系”,进而才能阐明人工智能是否具有心智、能否和人进行心灵交流等问题。
“暴力计算”成就ChatGPT
1956年7月13日,美国计算机科学家、认知科学家约翰·麦卡锡在美国新罕布什尔的汉诺威市达特茅斯学院组织召开了一场会议(以下简称“达特茅斯会议”)。会议把“精确地描述人的学习能力和智慧,并利用机器将这种能力与智慧加以模拟”确认为人工智能的发展方向。“人工智能”这个概念自此诞生。
达特茅斯会议之后,人工智能研究者们逐渐形成了符号主义、联结主义、行为主义等学派。其中的联结主义学派强调以自下而上的方式,模仿人类的神经元,希望用神经网络的连接机制实现人工智能。联结主义人工智能经过了60年的研究,在2006年终于提出了深度学习的概念,并从人类的视觉和自然语言智能的特性中获得启发,设计了多种多样的深度神经网络架构。其中的Transformer神经网络引入了类似人脑的自注意力机制,它出自谷歌2017年发表的论文《注意力是你所需要的》,使用了注意力机制来计算输入序列和输出序列之间的关系,被广泛用于自然语言处理(NLP)领域。Transformer神经网络催生了预训练大模型的发展,ChatGPT就是基于Transformer神经网络架构而建立的。
人脑的自然神经网络是具有千亿级别神经元的超级复杂系统,其核心具备关键性质——涌现。涌现的概念出自诺贝尔奖得主、美国理论物理学家菲利普·安德森的文章《多者异也》。这种性质的关键在于“物理系统在每一个复杂度上都会出现全新的性质”。当下,以ChatGPT为代表的大型语言模型中也出现了“涌现”这种能力,即当模型大到超过特定的临界值时,就会出现很多小模型根本不具备的能力。大规模语言模型一旦具备这种涌现性质,只需给这些模型提供语言提示,就实现小样本和零样本学习,迅速泛化和掌握新的语言能力,执行相关语言认知任务。
ChatGPT出现涌现的基础是“暴力计算”——通过海量的数据和不断增加的模型的参数规模,耗费更多的算力来训练,大大提高模型可以学习的信息量。据统计,从GPT、GPT-2到GPT-3,其模型参数量从1.17亿个快速增加到1750亿个,预训练数据量则从5吉字节增加到45万亿字节。据OpenAI团队发表于2020年的论文,训练一次1746亿参数的GPT-3模型需要的算力约为3640 算力单位。
可以说,这种“暴力计算”模式成就了ChatGPT,但从本质上看,这来自算力的提高和模型工程化方法的极致优化。归根到底,算力的提升让ChatGPT这类大语言模型的规模超过阈值,其语言能力就有质的飞跃,即实现了“相变”。但是由于深度学习基础理论研究的滞后,使得人们对其背后的涌现机理仍然缺乏严格的理论分析。
我们知道,人类自我意识等所有心理活动都是亿万个神经元通过脉冲放电方式,进行复杂交互涌现的结果。这里面涉及微观、介观和宏观三个层面:“微观”指从单个脑神经元的运行模式,“宏观”指整个大脑皮层各脑区及其协同的过程,而宏观与微观二者间的“介观”指皮层区域内神经元群体、网络或功能柱中的动态活动。目前神经科学、认知科学的研究对宏观和微观做得比较深入,但是对于大脑介观层面的研究,虽然也有很多研究进步,仍然还存在大量的未解之谜。
像ChatGPT这样的超大规模的人工神经网络,其规模从某种意义上看已经接近人脑的神经元规模。虽然其内在结构和运行方式与大脑是完全不同的,但是微观、介观和宏观三个层面的分析方法仍然适用。在宏观层面,通过模仿人的认知行为,人们构造出可以做题、下棋、驾驶的深度神经网络模型;在微观层面,人们会研究如何通过反向传播,训练更新神经网络模型的每个参数;但是在介观层面,即对人工神经网络的每一层、每个功能区域,如何有效地揭示微观的海量参数,如何涌现宏观能力的内在机理,尚缺乏足够的认识和研究。尤其是针对百亿级别以上的预训练语言模型,其内部一定是形成了中间层表示结构,以刻画语言遵循的语法规则、语义概念、上下文语境等,从而展现出一定的语言认知能力。
需要指出的是,“暴力计算”虽然赋予ChatGPT相当惊艳的能力,甚至能够通过情境学习,模拟出一些有心智的行为,但是它仍然存在先天的局限,产生的黑箱模型难以解释,出现的逻辑错误难以及时纠正,更不可能让ChatGPT等语言模型产生和人一样的自我意识。只有对超大规模的介观结构和机理进行更深入的研究,才能进一步提升模型现有的认知能力和推理能力,实现更高层次的智能。
突破需要双重引导
“人模人样但不是人”是一些人对ChatGPT的吐槽,尽管其生成的内容条理清晰、概括全面,但其不具备严谨的逻辑推理能力,无论是在事实性问题的分析,还是解数学题等方面,还会时常出现各种错误,产生所谓认知错觉(Hallucination)问题。要想提高人工智能产品的推理能力,减少或避免认知错觉,需要从多方面进行引导。
首先是理论方法层面的创新,可以探索将不同的Transformer架构技术路线融入算法模型,从而提高其认知能力。目前Transformer架构两个比较常见的预训练模型家族是GPT和BERT。它们都遵循了预训练和微调的过程,但是在训练目标和模型结构和使用上存在差异:GPT采用的是单向的Transformer,通过预测下一个词来学习语言模型,类似对话中的“接龙”;而BERT采用的是双向的Transformer,即通过预测句子中丢失的词来学习语言模型,类似语文考试中的“完形填空”。GPT对于文本生成更为敏感,而BERT对于文本理解更为敏感。因此,一般而言基于GPT模型的ChatGPT更适合文本生成,而BERT模型家族更擅长语言理解。GPT模型家族在文本生成方面大放异彩,成为NLP领域最受瞩目的模型。同时BERT模型也得到非常广泛的应用,产出了不少基于BERT的超大规模模型。或许在未来,我们可以看到BERT大模型的性能得到进一步的改进提升,从而实现更强大的语言理解能力。
还有一条重要的理论途径,就是把符号主义和联结主义实现深度融合,使得大模型在文本生成的过程中,加入更严密的逻辑分析、反省、验证、纠错等步骤,提高模型的逻辑推理能力。人工智能的符号主义学派从创立肇始,就基于严格的数理逻辑理论框架之上,著名的美国人工智能专家司马贺(Herbert Alexander Simon)开发了通用问题求解器,以实现自动化的数学定理证明。这些先驱式的研究工作,不但引出了后面的知识库、专家系统和知识图谱的成果,还对认知计算模型的创立有着深刻的影响。可以想见,如果能够实现符号与神经网络的紧密互动,就能从根本上构建基于现有大模型的新型认知智能系统,把具有相当随机性文本生成与严格的长步骤逻辑推理结合起来,或为解决常识等挑战问题开辟新的可行途径。
其次从模型工程的角度看,综合现有MLOps的成熟技术手段,在大模型训练和部署的生命周期中,进一步引导和听说大模型涌现的语言认知行为。例如编写提示语就是引导大模型的重要方式。在由海量语料自监督训练而成的GPT3.5后,人们需要以其为基础,编写很多包含任务场景的提示语,以引导ChatGPT学会具体的任务技能。因而,人们输入的提示语的品质,直接决定了激发生成性人工智能的潜力,即按照人们的需要输出正确的结果。除此之外,人们可以对ChatGPT的输出行为进行评分排序,以便更好地引导它输出符合人类价值观和社会规范的内容。这种人类反馈强化学习模式,也可以和内置的知识规则相结合,通过自我约束、自我过滤,让模型输出的结果更好,让交互越来越自然。
“大道至简”与电力创新
有人把现阶段深度神经网络的研究过程形象比作“炼丹”,其中,数据是金木水火土等自然元素,算法框架是用来“炼丹”的炉子,算力就是炼丹炉下的“三昧真火”。 深度神经网络的研究者就好比炼丹师,通过调参数、改数据炼出一个个新的模型。但这种比喻隐藏着另一层意思,即“炼丹”式的人工智能研究更适合于学术界的实验室环境,但是这种炼丹作坊需要很高的成本,才能实现与业务场景的对接落地,非常不适用于大规模的工程应用。
2006年,深度学习的概念被提出后,如何针对视觉、自然语言处理、自动驾驶等不同领域,设计各种最优架构的深度神经网络,一直是当前人工智能领域的研究主流。在经过多年“炼丹”探索之后,Transformer成为当下自然语言处理领域的主流模型,基于Transformer的预训练大语言模型更是成为主导性的架构,并正在向视觉、自动驾驶等领域扩散。
随着未来更成熟的大模型出现,人工智能或将更广泛地应用于工业化时代的各个领域,以Transformer为基础模型架构的新产业生态,有可能彻底把“炼丹式”的人工智能研究变成一个工业化时代的AI应用推广。毫无疑问,我们站在了一个人工智能发展的十字路口上,正在从过去极尽复杂迈向“大道至简”,也让更多专用领域可以更容易地实现与人工智能的融合应用。
电力就是其中之一。众所周知,电力系统是一个复杂人工系统,涉及很多系统交互的内容。人工智能在电力系统应用中,除了纯粹的神经网络数据驱动方法以外,还可以将物理方程有效地嵌入进来。当然,这需要电力专家参与到神经网络的模型设计当中,结合最新技术和实际数据进行研究,寻找混合型解决方案。
此外,还要探索创新性思路,让人工智能利用自身强大的数据归纳和分析能力去学习电力系统的规律和原理,得出面向模型生态的新研究范式。比如,有了基座大模型以后,怎样自动地根据领域需求派生出各种小的定制化的小模型?模型与模型间如何进行参数共享和迁移?再比如,在大模型预训练方式上,不采取现在的绝对集中方式,而是走集中和分布相结合的路线,依靠不同行业的专业信息,将小模型自主聚合成大模型?如何确保大模型的安全性和可信度,避免可能存在的安全隐患和漏洞传播到整个模型生态中?
这些都是大模型时代智能模型生态构建和产业落地的重要问题。我们应该拥抱大模型带来的全新机遇,加快国产自主可控大模型的研发进程,推动相关产业生态的发展,迎接新一轮人工智能热潮的挑战。(国家人工智能标准化总体组副组长、北京航空航天大学人工智能研究院教授 吴文峻)
责任编辑:杨娜
校对:高慧君