张慧敏 | 技术前沿:AI大模型的创新应用与社会变革

作者 | 张慧敏  山西大学理论物理硕士,日本富山大学工学博士


来,咱们也聊一聊AI 


这两年,AI的研究和开发如火如荼,每天都有新进展,相关报道也层出不穷,各类贩卖AI焦虑的消息更是让人避无可避。如今,即使是IT圈外的人,不懂点AI也不好意思跟人打招呼了。但圈内的人忙着干大事,没时间科普。我本人不才,也算是圈外人一枚。考虑到外行最懂外行的困惑,知道外行最想了解什么,我早一步学了点AI的皮毛,今天就斗胆和大家聊聊这个炙手可热的话题,希望能增加大家对AI的现状和未来发展的了解。


这一波的AI狂欢是由OpenAI于2022年11月30日推出的ChatGPT 3.5激发的。ChatGPT的Chat就是聊天或者对话,后面的GPT就是Generative Pre-trained Transformer,直译成中文就是“生成型预训练变换器”。这个对话模型能够生成自然流畅的文本内容,回答用户提出的问题,是由OpenAI公司基于神经网络的transformer架构,把大模型、大算力和大数据结合起来,训练出来的。


我们称这个模型为大模型,意思是神经网络的构架层数、神经元数以及连接这些神经元的参数都非常大,早期版本的ChatGPT 3就有96层Transformer结构,总神经元数量可能在3584万左右,共有1750亿个参数,后面的模型总神经元数量和参数会更多。训练这样超大规模的模型需要极其庞大的计算资源,包括动辄10万数量级的GPU集群或TPU阵列,这个需求直接把黄仁勋的辉达(NVIDIA)的市值推上了3万亿美元的高台。预训练阶段使用数十亿乃至数百亿字节级别的大规模语料库,数据来源包括网页抓取数据、书籍、百科全书、论坛讨论等各类文本数据。这三个要素相互配合,共同支撑了LLM的强大能力。


大模型训练可以被视为一种压缩知识的过程。通过学习海量数据,大模型能够提取和概括出广泛的知识,并将其压缩到模型参数中。Transformer等架构通过参数共享,用相对有限的参数表示复杂的语言模式和知识。另一方面,大模型训练本质上也是从海量数据中蒸馏知识的过程,学习数据中的本质模式,而非简单记忆。大模型通过更紧凑和高效的方式表示复杂概念和关系,这种信息压缩不仅减小了存储需求,还提高了知识的可用性和泛化能力。总的来说,大模型训练将分散在海量数据中的知识压缩到有限的参数空间中,实现了对知识的高效表示和利用。


大模型的训练过程生动地证明了“大力出奇迹”的道理。在大模型训练中,有一个神秘而有趣的现象叫“涌现”。“涌现”现象指的是,当模型规模和训练参数达到某个阈值时,模型的性能和泛化能力会突然显著提升,例如能够理解上下文深层次的含义,生成连贯的文本等。


大模型训练过程中存在一个叫Scaling Law的规律,翻成中文是“规模定律”。简单来说,它的意思是计算量、模型参数量和训练数据量越大,训练得到的大模型性能越强。最早意识到这一规律的是前OpenAI首席科学家Ilya Sutskever。自ChatGPT推出以来,这两年中越来越大的模型规模、GPU集群和语料库被用来训练越来越强大的语言大模型。财大气粗的马斯克甚至表示,要为他的xAI构建一个由100万张GPU组成的计算中心来训练大模型。


关于"涌现"现象背后的原因,研究者提出了几种可能的解释,但尚未有明确定论。训练过程中大模型内部究竟发生了什么,也还无人知晓。人们可以读出上千亿神经元节组成的大模型中每个点上的参数,但对这些参数的意义一无所知。大模型内部工作原理和决策过程的这种不透明性带来了多个挑战和问题,大模型成为一个黑箱,一个人造的未知物。现如今解开黑箱之谜已成为一个热门的研究领域, 叫"黑箱白盒化",研究者们试图揭示这些模型的内部工作原理,提高大模型的可解释性和透明度,增强对AI决策过程的理解和信任。


有时,人们为了更形象地描述类似ChatGPT这样的生成式语言模型生成文本的过程,常用“文字接龙”这一通俗易懂的比喻。这种比喻确有其道理,ChatGPT是基于自回归语言模型构建的大型语言模型,自回归算法是其核心工作原理之一。简单来说,自回归算法就是根据前面已有的词来预测和生成后面的词,的确很像文字接龙。但是,它不是简简单单地生成一个能接上的词就行。ChatGPT的核心是基于Transformer架构的语言模型,而多头注意力机制是Transformer架构的关键组成部分。多头注意力机制的概念可能有些复杂,但可以用一种简明的方式来描述。通俗地说,ChatGPT在遣词造句时,不仅要关注刚刚生成的那个词,还会考虑输入的整个文本以及之前所有的词。而且,这些词对当前生成的词影响的权重是不同的,这种差异化的关注使得模型能够生成更自然、更连贯和有意义的文本。


ChatGPT在取得巨大成功的同时,也存在一些不足之处。它有时会生成看似合理但实际上不准确的信息,被称为幻觉,或者更通俗地说是一本正经地胡说八道。它的知识截止到训练完成时,缺乏最新的信息,并且在深层理解和常识推理方面仍有局限。此外,它可能会反映出训练数据中的偏见,仅限于文本交互,缺乏可靠的引用,影响了回答的可信度。为了解决这些问题,OpenAI希望通过更大的模型、更强的算力和更多的数据来改善,充分利用Scaling Law的力量。


当OpenAI成功趟出这条路后,其他公司纷纷跟进,投入了大量资本和优秀人才,训练出数百种大大小小的大模型,包括语言模型、图像模型、音频模型、视频模型以及多模态模型等。其他模型所用的架构和语言大模型的Transformer架构有所不同。例如,在图像生成领域,大模型通常使用的是扩散模型(Diffusion Model),而不是Transformer架构。扩散模型通过逐步将噪声图像转化为清晰图像,展现出高质量的生成能力。不过这篇文章中我们还是主要以ChatGPT为例简单介绍Transformer架构和语言大模型(LLM)及其用到的一些算法和应用。


上面粗略介绍了ChatGPT这样的AI大模型的架构、算法和训练方式,接下来看看这些大模型的实际应用和未来发展。


ChatGPT一经问世便引起了巨大轰动,人们纷纷尝试其令人惊艳的功能,如自然语言对话、代码生成、自动文本撰写等。当时,“Prompt”(提示词)成为了最热门的词汇。李彦宏甚至预言,十年后,全世界有50%的工作将涉及提示词工程,不会写提示词的人将面临淘汰。于是,学习编写提示词的热潮席卷全球,网上充斥着各种提示词工程的课程广告。


2023年3月1日,OpenAI正式发布了ChatGPT API,这是一套简单易用的接口。通过调用ChatGPT API,开发者可以轻松创建智能客服、自动问答系统、语言翻译等应用,提高用户体验并节省人力成本。ChatGPT API对AI行业产生了重大影响,使开发者和企业更容易将ChatGPT的能力集成到应用中,极大地加速了AI应用的开发和落地。初创公司纷纷利用这项技术,快速开发各种基于ChatGPT的应用,掀起了AI创业潮。


同时,API的发布扩大了AI的影响力,使ChatGPT的能力能够应用到客户服务、内容创作等多个领域。然而,随着API的广泛使用,对安全和隐私问题的担忧也随之增加。这可以看作大模型应用的第一阶段。


大模型应用的第二阶段大致始于2023年11月6日,OpenAI在其首届开发者大会(OpenAI DevDay)上正式推出了GPTs。此次发布标志着一个重要的里程碑,OpenAI允许用户将自己的知识库与ChatGPT大模型结合起来,创建定制版本的ChatGPT,即GPTs。这一创新使用户能够根据特定领域的需求,开发出具有专门知识的聊天机器人。例如,将中医知识融入模型中,就可以创建一个能够回答中医相关问题的中医GPTs。这种灵活性不仅大大扩展了ChatGPT的应用范围,还让用户能够更精准地满足个性化需求和行业特定的应用场景。


这一举措不仅促进了AI在专业领域的深度应用,也推动了AI技术在更广泛的场景中的落地和推广。通过这种方式,OpenAI为更多用户打开了创新和发展的新大门,让AI技术更贴近实际生活和工作需求。GPTs的推出为AI大模型的应用带来了前所未有的可能性和机遇。


2024年,大模型的应用进入了一个新的阶段——AI Agent,即智能体的时代。智能体从程序员的角度来看,就像一个灵活的程序,可以在需要时调用大模型,这个过程类似于调用一个函数。给它一些输入,它处理后生成输出,返回给调用者。输入和输出可以是文本、图像、音频、视频等多种形式。这种方式比单纯使用ChatGPT或专用GPTs功能更加强大。


想象一下,当你在处理复杂任务时,智能体可以随时调用特定大模型来应对各种需求。这不仅提高了效率,还扩展了应用范围,让各行各业都能享受到人工智能带来的便利与创新。例如,在医疗领域,智能体可以根据不同的病人情况调用医疗大模型,为医生提供诊断和治疗建议;在金融领域,智能体可以分析市场数据,提供投资策略和风险评估。AI Agent的开发和应用场景十分丰富,吸引了大量的投资和人才。各大科技公司、初创企业以及个人开发者都在这个领域中竞相角逐,努力推出更智能、更实用的产品。


这个赛道不仅充满了竞争,也蕴含着巨大的商机,是一个非常有“钱”途的领域。总的来说,智能体的发展正在迅速改变着我们工作的方式和生活的面貌。


为了进一步了解智能体,这里介绍一些背景知识。人工智能的领域有三大门派,分别是符号主义、连接主义和行为主义。符号主义认为智能是通过符号操作实现的,智能系统应依赖明确的规则和逻辑推理。这种观点认为人类思维可以通过符号和逻辑来建模。代表性的应用包括各类专家系统以及车间里的专用工业机器人。


连接主义认为智能是通过神经网络的连接实现的,模拟人脑的工作方式。神经网络由大量的节点(或“神经元”)组成,通过调整节点之间的连接权重来进行学习和推理,ChatGPT和特斯拉的自动驾驶系统都是其代表。


行为主义认为智能体通过与环境的互动进行学习和适应。强化学习是行为主义的重要实现方式,通过试错和奖励机制来优化行为策略。这一流派的硬件构成也可以是神经网络,它强调持续学习和不断进步,击败人类围棋冠军李世石的AlphaGo就是行为主义的典型例子。


话再说回来,现在烈火烹油、鲜花着锦般发展的AI Agent,其实就是在连接主义大突破之后,回到了将三个流派的武功融合起来应用的更高境界。需要用明确的规则和逻辑推理进行控制时,智能体(程序)就用明确的规则来控制;需要用ChatGPT之类的大模型时,就调用大模型,想调用哪个大模型就调用哪个,想什么时候调用就什么时候调用,想调用多少次就调用多少次。还可以调用不同的大模型让它们互博,交叉验证。智能体也得不断学习,不断进步,比如上网查找最新的消息。现在流行的RAG(Retrieval-Augmented Generation,即检索增强生成)技术,旨在通过引入信息检索系统来增强大型语言模型(LLM)的能力。这种技术允许模型在生成回应时引用外部的权威知识库,从而提高生成信息的准确性和相关性。总而言之,就是不拘一格地把我们会的功夫都用起来,以实现我们的目标。


需要提及的是,虽然训练大模型需要花费巨额资金和巨大的算力资源,但一旦训练完成,结果就是包含其神经网络架构和参数的文件。这些文件可以部署在比训练时所用的巨大机群小得多的硬件设备上,使用大模型的过程在业内称为推理。虽然推理阶段的硬件需求确实小于训练阶段,但仍需相当可观的计算资源。据说,ChatGPT每日需要30,382个A100 GPU和3,798个服务器来进行推理,每天的电费就高达30万美元。


从应用的角度来看,最重要的是,通过模型压缩、量化和蒸馏等方法,可以将大模型转化为更精简高效的小模型。这些小模型可以部署在计算能力较低的硬件上,如家用电脑和手机。这一转化过程不仅使AI技术能够走进小公司和寻常百姓家,还极大地拓宽了AI Agent的应用领域。正是由于这些高效的小模型,AI技术变得更加普及,为创新提供了无限可能。这是AI Agent能够广泛应用于各行各业的关键原因之一,让我们能够享受技术进步带来的便利和变革。


当前,AI Agent的研究、开发和应用如一场巨浪席卷全球,各地纷纷投入了前所未有的资本和顶尖人才,形成了令人瞠目的激烈竞争局面。各大科技公司、研究机构以及无数初创企业,犹如江湖中的豪杰,争先恐后地推出新模型和新应用,市场上的创新产品层出不穷,仿佛雨后春笋般涌现。这场竞争不仅是资本和技术的较量,更是智慧和创意的比拼。各类新技术和应用迅速覆盖了从医疗健康到金融服务,从智能制造到个性化教育等广泛领域。无论是无人驾驶的自动化道路,还是智能助理的贴心服务,都让人们对未来充满了无限的期待。当然,这一切的狂热和喧嚣,大家早已耳熟能详,此处不必赘述。


总之,AI Agent的发展以惊人的速度改变着我们的生活和工作方式,其迅猛的发展速度超出了许多人的想象,潜力巨大,不容小觑。即使基础大模型不再进步,仅凭现有的这些大模型基础上开发的AI Agent,也足以在三、五年内将世界搅个天翻地覆。智能体将在各个领域发挥重要作用,从日常生活中的智能助理到复杂任务中的决策支持,都会带来深远的变革。这种技术的广泛应用不仅显著提高了生产力,还彻底改变了我们与技术的互动方式,使我们进入一个更加智能化的时代。从家用设备到工业自动化,AI Agent的应用无处不在,深刻影响着各行各业。


然而,AI带来的好处是否会被科技巨头、大公司和富人占有,使财富和资源更加集中于少数人手中,引发了广泛的讨论。有人担心,AI技术可能加剧社会的不平等现象,即便实施全民基本收入(UBI),恐怕也难以完全解决这一问题。杰弗里·辛顿(Geoffrey Hinton)警告说,AI可能导致数百万人失业,并呼吁实施UBI。穆斯塔法·苏莱曼(Mustafa Suleyman)预测未来5到10年内白领工作将发生重大变化,并建议政府提供援助。萨姆·奥尔特曼(Sam Altman)指出,AI可能导致权力从劳动力转移到资本,需要新的税收体系以共享利益。埃隆·马斯克(Elon Musk)则呼吁暂停高级AI研发,担心其发展过快会带来系统性风险。


智能体的发展可能会推动我们的价值观、财富分配制度发生改变,甚至引发社会制度的重大变革。我们需要重新审视人与科技之间的关系,确保技术进步能够造福全人类。这不仅是一个技术问题,更是一个伦理和社会问题,要求我们全社会共同努力,找到一个平衡点。总的来说,AI Agent的发展前景令人振奋,但同时也充满挑战和不确定性。我们必须在拥抱创新的同时,保持警惕,以确保这一过程能够造福全人类,而不仅仅是少数人的特权。说实话,对于这一问题,我个人比较悲观,但仍然希望通过我们的共同努力,实现技术与社会的和谐共进。


让我们回头再聊聊基础大模型。在以AI Agent为代表的各类大模型应用高速发展并日益普及的同时,基础大模型也在以令人眼花缭乱的速度演进。现在的AI大模型主要基于Transformer架构,结合了大算力和大数据进行训练,这些技术已经取得了显著的进步。在过去的两年里,大算力的发展有目共睹,人人皆知。然而,许多人可能没有注意到,训练方法和大数据也在不断改进和发展。Scaling Law一直引领着人工智能的研究,推动着这一领域向前发展。


最近,科技圈内关于Scaling Law是否已达到极限并失效的讨论异常热烈。支持这一观点的人常常引用Ilya Sutskever的言论作为依据。Sutskever在NeurIPS 2024会议上表示,预训练的时代即将结束(Pre-training as we know it will end),因为人类现有的知识资源已经被用尽。这一言论引发了广泛的争议和讨论,甚至触发了NVIDIA的股票下跌。人们开始思考AI发展的下一步究竟会如何。许多人对基础AI的研究和发展感到悲观,认为通用人工智能(AGI)还遥遥无期。我必须承认,不久前,我也持有相同的观点。但最近,我的看法发生了变化。我现在认为,Scaling Law并未到达尽头,AGI的曙光已经出现。接下来,我将分享一下我对这个问题的观察和思考。


前面提到,ChatGPT中的GPT代表Generative Pre-trained Transformer,即生成式预训练变换器。虽然OpenAI给产品起名时常被诟病,但“预训练”这一术语却准确地揭示了大模型的本质特征。预训练的过程是将海量的知识输入神经网络进行学习,训练完成后,模型就可以部署到推理系统中进行推理操作。这种预训练方法赋予了大模型强大的理解能力。训练后的模型不仅能够准确理解用户的输入,还能生成流畅的文本,进行多种语言之间的翻译,总结长篇文章,甚至编写程序。但是,人们还是对大模型的推理能力抱有怀疑,因为大模型有时候会出现一本正经胡说八道式的幻觉。


OpenAI最近发布的o3模型展现了惊人的推理能力,尤其在复杂数学和科学问题上表现尤为突出。那么,OpenAI是如何做到的呢?答案是在预训练得到的大模型基础上,进一步利用思维链(Chain of Thought,CoT)和将强化学习与人类反馈相结合的人工智能训练方法(Reinforcement Learning from Human Feedback,RLHF)进行后训练(Post-Training)。通过这些方法,模型得以优化,推理能力得以显著提升。


人们给大模型在预训练时提供的知识库中,大都是省略很多思考和推理步骤的语料。比如说四选一的问题,我们只给一个正确的答案,并不提供得到这个答案的思维过程。上课时,老师会用口头语言解释解答这种题目的思维过程,最后留在黑板上的就是一个最终答案。如果没有解释,只给答案,再好的学生也学不会。大模型早期预训练中使用的就是这样的语料,这就是为什么得到的大模型虽然可以理解问题,也可以遣词造句,但推理能力差的主要原因,因为它根本就没有学到隐藏的解题思路。我们来看一个关于数学题目的思维链(Chain of Thought, CoT)例子。


题目: 一个火车从A城出发,经过30分钟后到达B城。如果火车的平均速度为60公里/小时,那么A城到B城的距离是多少公里?


思维链:

理解问题: 题目问的是A城到B城的距离,给出的条件是火车的行驶时间和速度。


列出已知条件:

行驶时间:30分钟

平均速度:60公里/小时


将时间转换为小时:

30分钟 = 0.5小时


使用距离公式: 距离 = 速度 × 时间


代入已知条件:

距离 = 60公里/小时 × 0.5小时


计算结果:

距离 = 30公里


得出结论: A城到B城的距离是30公里。


这个例子展示了如何一步步地思考和解决问题,通过分解问题、列出已知条件、应用相关公式,最终得出正确的答案。  


在大模型的预训练过程中,通过处理和分析海量数据,大模型学习语言的结构、语义和上下文关系,而非简单记忆。训练后的模型具有泛化能力,能够理解和生成未见过的内容。随着模型规模的增大,一些新的能力会自然涌现,这种现象难以用简单记忆来解释。经过训练的模型能够适应各种任务和场景,这种灵活性表明它学到了更深层次的知识表示。


类似地,在对大模型的后训练过程中,通过提供大量包含(类似上述例子中的)思维链的语料库对大模型进行训练,模型可以涌现出推理能力,更好地理解和解决复杂问题。这种推理能力能够泛化,解决训练中未涉及的知识领域的问题。“涌现”现象并不止发生一次,而是随着大算力和大数据的持续训练中不断出现的。


事实上,一些公司确实在雇佣人编写带有详细思维链的知识库,但这种方法不仅缓慢且价格昂贵。另外,一些公司也在尝试利用现有的大模型生成类似的带有思维链的知识库来训练未来的大模型。然而,这种近亲繁殖式的方法有可能导致幻觉累积,最终生成奇怪且无用的知识库。算法方面,强化学习与人类反馈相结合(RLHF)的训练方法展示了巨大潜力, 但还需更多研究和实践来优化这些算法,仍需探索新算法。总体来说,虽然还有很多问题需要解决,但在技术上,通往AGI的道路应该已经被打通。


所以,我认为有些人是误解了Ilya。他说预训练时代即将结束,真正想表达的并不是Scaling Law到头了,而是它换个马甲又要回来了,又要回到后训练(Post-Training)中,继续引领和推动AI的发展。有数据表明,后训练过程中所需要的计算量甚至要超过预训练的计算量。


接下来,我们再聊聊通用人工智能(AGI,Artificial General Intelligence)。AGI是指具有与人类相当的通用智能能力的人工智能系统,能够完成所有人类能够完成的智力任务。关于其定义,普遍共识是AGI具备广泛的认知能力,能够适应各种不同的任务和环境,进行推理、规划和问题解决,使用常识知识,学习新技能,并能以自然语言进行交流。然而,AGI的定义和本质仍存在许多争议,例如它是否具有意识,能否自我反省和自我进化等问题,这些涉及到认知科学、心理学、语言学和哲学等领域,不是我们能回答的。


再进一步,关于AGI是否会失控,是否会反客为主出现科幻小说中机器统治人类,甚至奴役或消灭人类的前景,这些问题引发了广泛的担忧和争论。作为AGI的对立面,我们是否需要反省:如果AGI能够替我们思考,人类是否还有存在的必要性?这些问题不仅涉及技术和伦理,还触及了更深层次的哲学和存在意义的讨论。这些更大且更具争议性的话题,超出了我们目前聊天的范围。尽管它们引人深思,涉及的领域广泛,我们在此不作深入讨论。


最后,了解了人工智能大模型训练方法的历史和现状,并看到了OpenAI最新推出的o3大模型的惊人推理能力,我们可以说,通往AGI的道路上已经没有难以突破的技术瓶颈了。只要继续在人力、物力和财力这三大关键要素上加大投入,AGI的实现就不再遥远了。









张慧敏,山西大学理论物理硕士,日本富山大学工学博士,美国圣路易斯华盛顿大学博士后。主要从事广义相对论方面的数值摸拟,包括黑洞,中子星碰撞过程及由此辐射引力波等方面的研究。