探索智能纪元：大模型的起源、现状与未来

中科院物理所

2024-10-13 11:56发布于北京中科院物理所官方账号

全文8650字，阅读约需25分钟，帮我划重点

划重点

01大模型在自然语言处理等领域取得了显著成就，刷新多项性能基准，同时也在图像处理、音频处理等数据模态中展现出巨大优势。

02然而，大模型技术仍面临挑战，如偏见、隐私泄露等问题，需要研究者积极面对和解决。

03未来大模型发展将更加注重可解释性与可信度，以提高模型在各个领域中的应用效果。

04为此，研究者正在探索新的方法和技术，如稀疏专家模型、多模态融合等，以提升大模型的性能和效率。

以上内容由腾讯混元大模型生成，仅供参考

在人工智能(artificial intelligence, AI)的宏伟画卷上，大模型如同绚烂的星辰，照亮了技术的未来，不仅重塑了人们对技术的认知，更在无数行业中悄然引发变革。然而，这些智能技术并非完美，也存在风险和挑战。在此，我们将揭开大模型的神秘面纱，分享其技术与特点，剖析其发展与挑战，一窥AI时代的风采。

大模型例如生成式预训练(generative pre-trained transformer, GPT)系列在自然语言处理(natural language processing, NLP)领域取得了显著成就，在诸多语言处理任务上刷新了多项性能基准。除语言之外，大模型在图像处理、音频处理、生理信号等其他数据模态中也显示出巨大优势。在教育、医疗、金融等领域也得到快速应用，特别是在内容生成方面技惊四座。现如今，大模型依然有诸多前沿技术亟待发展，同时带来的一系列如偏见、隐私泄露等问题也亟待解决。本文分析大模型的前世今生，探讨前沿问题，以及未来的发展方向，辅助大众快速了解大模型技术及其发展，融入AI时代的发展洪流。

大模型的由来

2022年11月，美国著名AI研究公司OpenAI发布旗下基于大语言模型GPT-3.5的AI聊天机器人程序ChatGPT，其以流畅的语言表达能力、强大的问题处理能力以及庞大的数据库在全世界引发广泛关注。在上线后不足两个月的时间里，ChatGPT的月活突破1亿，成为历史上用户增长速度最快的消费级应用程序^[1]。由此，各行各业都感受到了大模型的强大影响。与此同时，国内外大模型的研究热潮也正式掀起。

大模型的由来可以追溯到20世纪的AI研究初期，当时的研究主要集中在逻辑推理和专家系统上。然而，这些方法受限于硬编码的知识和规则，难以处理自然语言的复杂性和多样性^[2]。随着机器学习、深度学习技术的出现和硬件能力的飞速提升，大规模数据集和复杂神经网络模型的训练成为可能，从而催生了大模型的时代。

2017年，谷歌推出的Transformer模型结构通过引入自注意力机制(self-attention)，极大地提升了序列建模的能力，特别是在处理长距离依赖关系时的效率和准确性方面^[3]。此后，预训练语言模型(pre-trained language model, PLM)的理念逐渐成为主流。PLM在大规模文本数据集上进行预训练，捕捉语言的通用模式，然后针对特定任务进行微调来适应特定的下游任务。

大模型的演变路径

OpenAI的GPT系列模型是生成式预训练模型的典范，它们代表了生成式预训练模型的先锋。从GPT-1到GPT-3.5，每一代模型都在规模、复杂性和性能上有了显著提升。2022年年底，ChatGPT以聊天机器人的身份横空出世，它不仅能够回答问题，还能创作文章、编程，甚至模仿人类的对话风格，其几乎无所不能的回答能力使得人们对大语言模型的通用能力有了全新的认识^[4]。这极大地推动了NLP领域的发展。

然而，大模型的发展并不仅限于文本。随着技术的进步，多模态大模型开始崭露头角，它们能够同时理解和生成包括文本、图像、音频等多种类型的数据。2023年3月，OpenAI官方宣布的多模态大模型GPT-4，新增了图像功能，同时具备更精准的语言理解能力，这标志着大模型从单一模态向多模态的重要转变^[5]。这种跨模态数据间的本质差异，对大模型的设计和训练提出了新的、更为复杂的要求，同时也带来了前所未有的挑战。

大模型的特性

大模型，通常指的是拥有巨大参数量的机器学习模型，尤其是在NLP、计算机视觉(computer vision，CV)以及多模态领域的应用中。这些模型基于预训练方式，通过NLP理解和学习人类语言，以人机对话方式，完成信息检索、机器翻译、文本摘要、代码编写等内容生成任务。

大模型的参数量

大模型的参数量通常超过10亿，这意味着模型内部有超过10亿的可学习权重。这些参数是模型学习和理解数据的基础，它们通过训练不断调整，以更好地映射输入数据到输出结果。参数量的增加直接关联到模型的学习能力和复杂性，使得模型有能力捕捉更加细微和深层的数据特征。

大模型的类型

大模型可以根据其应用领域和功能进行分类：

①大语言模型：专注于处理和理解自然语言文本，常用于文本生成、情感分析、问答系统等;②视觉大模型：专门用来处理和理解视觉信息(如图像和视频)，用于图像识别、视频分析、图像生成等视觉领域的任务;③多模态大模型：能够处理并理解两种或两种以上不同类型的输入数据 (例如文本、图像、音频等) ，通过融合来自不同模态的信息，能够执行比单一模态更为复杂和全面的任务;④基础大模型：通常指那些可以广泛应用于多种不同任务的模型，它们在预训练阶段没有特定的应用方向，而是学习大量通用知识^[6]。

大模型的能力

大模型的能力在于其能够理解和处理高度复杂的数据模式：

①泛化能力：通过在大量数据上进行预训练，大模型学会了语言的普适性规律，在面对新任务时能够展现出强大的泛化能力;②深层次学习：庞大的参数规模和深层次的网络结构使得大模型能够建立起复杂的抽象表示，理解数据背后的深层次语义和关系;③上下文理解：在语言模型中，大模型能够捕捉长距离依赖关系，从而更好地理解上下文，这对于理解语言中的细微差别至关重要;④知识整合：大模型能够整合和利用其在预训练过程中学到的知识，甚至在某些情况下能够展现一定程度的常识推理和问题解决能力;⑤适应性：尽管大模型在预训练阶段学习的是通用知识，但它们可以通过微调适应特定的任务，显示出极高的灵活性和适应性^[7]。

大模型的技术

现在的大模型是一种集成了处理多种类型数据能力的机器学习模型。这些大模型中的基础技术旨在理解和生成跨越不同感官模式的信息，从而执行诸如图像描述、视觉问答或跨模态翻译等任务。以下是大模型的几个关键基础技术。

Transformer架构

现有的大模型大多建立在Transformer模型(或仅仅是Transformer的解码器)基础之上，该架构通过自注意力机制捕捉输入数据的全局依赖关系，并且还能够捕捉不同模态元素间的复杂关系。例如，一个多模态Transformer可以同时处理图像的像素和文本的单词，通过自注意力层来学习它们之间的关联。这使得大模型能够理解文本与图像等各种模态，并生成长文本序列，同时保持上下文的连贯性。

有监督微调

有监督微调(supervised fine-tuning, SFT)是一个传统的微调方法，它使用带有标签的数据集来继续训练预训练的大模型。值得注意的是，在大模型的训练中，SFT阶段一般使用的是高质量的数据集。此外，SFT涉及对模型的参数进行调整，以使其在特定任务上表现得更好。例如，如果想要让模型在法律咨询上表现得更好，可以使用一个包含法律问题和专业律师回答的数据集来进行SFT。在SFT中，模型通常会尝试最小化预测输出与真实标签之间的差异，这通常通过损失函数 (如交叉熵损失)来实现。这种方法的优点是直接和简单，可以迅速适应新任务。然而，它也有局限，因为它依赖于高质量的标注数据，并且可能导致模型在训练数据上过拟合。

人类反馈强化学习

人类反馈强化学习(reinforcement learning from human feedback, RLHF)是一种更复杂的训练方法，它结合了监督学习和强化学习的元素。首先在大量未标记的文本上预训练模型，这与SFT之前的步骤相同。然后，人类评估者会与模型互动，或者评估模型的输出，为模型提供关于其表现的反馈，使用人类反馈数据训练一个奖励模型，该模型能够预测人类评价者可能给予的分数。最后，使用奖励模型作为奖励信号，通过强化学习的方法来优化原始模型的参数。这个过程中，模型会尝试最大化它所获得的预期奖励。RLHF的优点在于它可以帮助模型学习更复杂的行为，特别是当任务难以通过简单的正确或错误标签来定义时。此外，RLHF可以帮助模型更好地适应人类的偏好和价值观。

大模型的应用

大模型通过其庞大的参数量、深层次的网络结构和广泛的预训练能力，能够捕捉复杂的数据模式，在多个领域中表现出卓越的性能。它们不仅能够理解和生成自然语言，还能够处理复杂的视觉和多模态信息，适应各种多变的应用场景。

大的大模型的生态架构

NLP领域

大模型在NLP领域的应用尤为广泛。例如，OpenAI的GPT系列模型能够生成连贯、自然的文本，应用于聊天机器人、自动写作、语言翻译，比较著名的产品如众所周知的ChatGPT。在金融科技领域，大模型常被用于风险评估、交易算法和信用评分等。模型能够分析大量的金融数据，预测市场趋势，帮助金融机构做出更好的投资决策。大模型在法律和合规领域中，可以用于文档审核、合同分析、案例研究等。通过NLP技术，模型能够理解和分析法律文件，提高法律专业人士的工作效率。推荐系统是大模型的又一应用领域。通过将用户的行为数据序列化为文本，大模型可以预测用户的兴趣，并推荐相关的商品、电影、音乐等内容。在游戏领域，大模型可以利用其代码能力生成复杂的游戏环境，可以驱动非玩家控制角色(non-player character, NPC)根据玩家的不同设定产生不同的对话等，以此提供更加逼真的游戏体验。

图像理解生成领域

目前的大模型不仅仅只具有对文本的理解能力，其拥有的多模态的理解能力也为其在图像领域的应用打下基础，如自动生成绘画、视频等。这些模型能够模仿艺术家的风格，创作出新的艺术作品，为人类的创造力提供辅助。如OpenAI于2024年2月发布的Sora，可以利用用户输入的文本，直接产生一段符合要求的视频，这为电影制作领域提供了更方便的工具^[4]。在图像处理领域，大模型如SegGPT等被用于图像识别、分类和生成等。模型通过学习大量图像数据与文本对，可以识别出图像中的物体、人脸、场景等，并在医学影像分析、自动驾驶车辆、视频监控等方面发挥作用。此外，在医学和生物学领域，多模态的大模型可用于疾病诊断、药物发现、基因编辑等，大模型能够从复杂的生物医学数据中提取有用的信息，辅助医生做出更准确的诊断，或者帮助研究人员设计新的药物。

语音识别领域

大模型也在语音识别领域发挥着重要作用。通过深度学习技术，模型能够将语音转换为文本，支持语音助手、实时语音转写、自动字幕生成等应用，手机上的语音助手就是典型例子。这些模型通过对大量语音样本的学习，能够应对不同口音、语调和噪声的干扰。

另外，大模型可以用于教育、医疗、农业、金融等不同行业。例如在教育领域，大模型可用于个性化学习、自动评分、智能辅导等，模型可以根据学生的学习情况提供定制化的教学内容，帮助学生更高效地学习。总而言之，大模型通过其强大的数据处理和学习能力，在各个领域都展现出了巨大的潜力。随着技术的不断进步，可以预见大模型将在未来的发展中扮演更加重要的角色。

大模型的发展

在当前的AI领域，大模型已成为一种不可忽视的趋势。随着深度学习技术的不断进步，尤其是在NLP和CV领域，大模型以其强大的数据处理和模式识别能力，正推动着前沿技术的不断突破。

大模型在技术层面的发展得益于几个关键因素。首先是算法的创新，特别是自Transformer架构的提出，后续模型的发展被迅速地推动，包括BERT、GPT系列、T5等。这些模型通过预训练(pre-training)和微调(fine-tuning)的策略，在多项NLP任务上取得了领先的性能。其次是计算能力的提升，特别是图形处理器 (graphics processing unit, GPU)和张量处理器(tensor processing unit, TPU)等硬件的进步，使得训练数十亿甚至数百亿参数的模型成为可能。此外，云计算平台的兴起为大模型的训练提供了必要的计算资源。与此同时，大规模的数据集也为模型训练提供了充足的“营养”。这些数据集通常包含了丰富的语言表达、场景信息和用户交互，为模型捕捉复杂的数据分布和语言规律提供了可能。

大模型在应用层面的发展有大语言模型和多模态大模型两个主要方向。在大语言模型方面，GPT-3作为一个里程碑，其参数量达到了1750亿个，显示出令人惊叹的语言理解和生成能力。紧随其后，Meta AI发布的LLaMA系列模型，以其优异的性能和相对较小的模型大小，成为学术研究领域和工业界的新宠。这些模型不仅在标准的NLP任务上表现出色，而且在小样本学习、迁移学习等方面也展现了巨大的潜力。

多模态大模型则是在此基础上的延伸，它们能够处理并理解多种类型的输入，如文本、图像和音频。OpenAI的DALL-E和CLIP就是这个方向上的代表作，它们能够理解和生成与文本描述相符的图像，或者通过图像来理解文本内容。谷歌的SimCLR则是在CV领域的一次重要探索，通过对比学习(contrastive learning)有效提取图像特征。此后，谷歌的Gemini在原生多模态领域迈出了重要步伐，其不仅在不同模态上进行预训练，而且可以处理更加复杂的输入和输出，如图像和音频。OpenAI的Sora则进一步拓宽了大模型的应用范围，它能够根据输入文本自动生成视频内容，这在一定程度上模拟了物理世界和数字世界中的人物与环境互动。

大模型的发展历程概述，标黄的为多模态模型。

国内科技企业在大模型领域的探索也不甘落后。百度的“文心一言”、阿里巴巴的“通义千问”、华为的“盘古”、科大讯飞的“讯飞星火”等模型相继亮相，它们不仅在通用语言理解和生成任务上表现出色，而且在特定的垂直领域如医疗、法律、旅游等中，展现了专业的应用能力。例如携程的“携程问道”专注于旅游领域的问答，网易有道的“子曰”则应用于教育领域，而京东健康的“京医千询”则致力于提供医疗咨询服务。

大模型的挑战

在AI领域，大模型正以其强大的处理能力和广泛的应用前景成为学术研究领域和工业界的热点。然而，随着这些模型的不断扩展，研究前沿所面临的问题也日益复杂。

模型大小

模型大小与数据规模的权衡成了一个显著挑战。虽然模型性能往往随着参数量的增加而提升，但这种规模的增长带来了巨大的计算成本和对数据质量的高要求^[7]。研究者正在寻找在有限计算资源下实现模型大小与数据规模最优平衡的方法，同时也在探索数据增强、迁移学习和模型压缩等技术以减小模型尺寸而不牺牲性能，尽最大的努力将大模型运行的成本降到最低。

网络架构

网络架构的创新同样关键。现有的大模型几乎都基于Transformer架构，尽管Transformer架构在处理序列数据上表现出色，但其计算效率低和参数利用率低的问题会带来计算资源的浪费。目前Transformer的局限性已经促使研究者设计新的网络架构，这些架构旨在通过改进注意力机制、引入稀疏性和自适应计算等方式提高效率和泛化能力。而2023年12月提出的Mamba等基于状态空间的模型引入了选择机制，在很大程度上解决了现有Transformer架构计算效率等问题，有望成为下一代的大模型底层架构。

提示工程

在处理不平衡数据集时，提示学习作为一种新兴范式提供了一种解决途径。通过在输入数据中嵌入特定的提示，提示学习有助于改善模型在少数类上的性能^[8]。然而，如何设计有效的提示，以及确定设计的提示的鲁棒性(在不同类型的大模型上均有效)，成为一门学问——提示工程。如何将提示工程设计好的提示与其他大模型技术相结合，仍需进一步研究。

上下文推理

同时，随着模型尺寸的增长，涌现出上下文推理等一些未经训练而具备的能力，这些涌现能力的出现表明大模型可能内化了某些更接近人类的认知和学习机制。这些涌现能力的本质、触发条件和可控性是当前研究的热点，需要更多地从认知科学和神经科学的角度进行探索，并给出更加合理的解释，帮助人们理解这种能力涌现的原理。

知识更新

知识的持续更新是大模型面临的另一个重要问题。随着知识的不断进步，模型中的信息可能迅速过时。研究者正在探索如何使模型持续学习并整合新知识，同时避免灾难性遗忘，以保持模型的知识库处于最新状态。

可解释性

尽管大模型在各种NLP和机器学习任务中表现出色，但随着模型参数量的增加以及网络结构的深化，模型的决策过程变得越来越难以解释。大模型的黑盒性质使得用户难以理解大模型对输入数据的处理方式及其产生的输出结果。这导致了一种被动的理解状态，即人们仅了解模型输出的结果，对于模型为何做出这样的决策却一无所知。

隐私安全性

大模型的训练数据可能涵盖个人身份信息、敏感数据或商业机密。如果这些数据未受到充分保护，模型的训练过程可能会带来隐私泄露或被滥用的风险[9]。同时，大模型本身可能包含敏感信息，例如通过在敏感数据上训练而获得的记忆，这使得模型本身就具有潜在的隐私风险。

数据偏见和误导性信息

大语言模型可能会输出具有偏见或误导性的内容，这可能源于数据收集方式、标注者的主观偏好以及社会文化等多种因素。当模型使用这些含有偏见的数据进行训练时，它们可能会错误地学习或放大这些偏见，导致在实际应用中出现不公平或歧视性的结果。

解决这些问题对于推动大模型技术的进步和扩大其应用范围至关重要。每一个挑战的解决都可能促进AI在现实世界中的更有效应用，为人类社会带来深远的影响。

大模型的未来

随着AI技术的不断发展和大模型技术应用场景的不断拓展，大模型技术的未来趋势也呈现出一些新的特点和发展方向。

模型规模与效率的平衡

由于大模型技术往往需要庞大的计算资源和存储空间，因此未来的发展趋势将集中于保持模型规模的同时提高效率，以满足实际应用的需求。目前，稀疏专家模型作为一种全新的模型架构方法，正在逐渐引起关注。相较于传统的密集模型，稀疏专家模型通过仅激活与输入的数据相关的模型参数，降低了计算需求，从而提高了计算效率。2023年谷歌开发的稀疏专家模型GlaM的参数比GPT-3多7倍，但却减少了训练过程中的能源消耗和推理所需的计算资源，并在多种NLP任务上优于传统模型。

知识的深度融合

知识融合旨在通过整合来自不同数据源和知识领域的信息，以丰富模型的表示能力和决策能力。首先，目前的大模型主要针对单一领域或单一模态的数据进行训练和应用，例如NLP领域的BERT模型和CV领域的ViT模型等。然而在现实世界中，文本、图像、音频等多种信息往往是相互关联的，单一模态的信息很难满足复杂场景的需求^[10]。因此，伴随CV、语音识别等技术的不断发展，未来的大模型将会更加注重多模态融合，即处理不同模态的数据，实现多模态信息的融合和交互。这种多模态融合的能力使得大模型能够更好地理解和处理复杂的信息。此外，可考虑将大模型技术与外部知识库相结合，以进一步提升模型的理解能力和应用广度。这意味着模型不仅可以利用其内部的语言模式和统计信息，还可以结合外部的结构化知识来进行推理和决策，从而更好地应对现实世界中的复杂问题。更重要的是，外部知识还可以增强大模型的泛化能力。

具身智能的探索

具身智能是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为。大模型的普及，大大加快了具身智能的研发和落地速度。大语言模型正在成为帮助机器人更好地理解和运用高级语义知识的关键工具。通过自动化分析任务并将其拆分为具体动作，大模型技术使得机器人与人类和物理环境的互动变得更加自然，从而提升了机器人的智能表现。比如不同任务通过不同的大模型来实现。通过将语言大模型用于学习对话、视觉大模型用于识别地图，以及多模态大模型用于完成肢体驱动等，机器人可以更加高效地学习概念并指挥行动，同时将所有指令分解执行，通过大模型技术完成自动化调度和协作。这种综合利用不同模型的方法将为机器人的智能化发展带来新的机遇和挑战。

可解释性与可信度

随着模型规模的增加，其内部结构变得越来越复杂，这使得模型的可解释性和可信度成为关注焦点。首先，为了提高模型的可解释性，研究人员将致力于开发新的方法和技术，使大模型能够清晰地解释其决策过程和生成结果的依据。这可能涉及引入更加透明的模型结构如透明神经网络或可解释的注意力机制，以及开发解释性的算法和工具，以帮助用户理解模型的输出结果。

其次，为了提高模型的可信度，将采取一系列措施来减少模型产生错误或误导性信息的可能性。其中一个重要的方向是引入外部信息源，并为模型提供访问和引用这些信息源的能力。这样一来，模型将能够访问到最准确和最新的信息，从而提高其输出结果的准确性和可信度。

同时，为了增加透明度和信任度，模型还将提供与外部信息源相关的引用，使用户能够对信息源进行审核，从而决定信息的可靠性。值得注意的是，虽然当前已经出现了一些具有外部信息访问和引用功能的大模型，如谷歌的REALM和脸书的RAG，但这仅仅是这一领域发展的开始，未来将会有更多的创新和进步。例如，像OpenAI的WebGPT和DeepMind的Sparrow等新模型将进一步推动这一领域的发展，为大模型技术的未来应用打下更加坚实的基础。未来大模型技术的发展将更加注重可解释性与可信度，这不仅是技术发展的必然趋势，也是社会对于科技应用的合理要求。只有在不断提升模型的可解释性和可信度的基础上，大模型技术才能够更好地应用于各个领域，为人类社会的发展带来更大的推动力量。

本文全面梳理了大模型在多个领域的突破和应用，其不仅在语言处理上刷新了性能基准，而且在图像、音频处理和生理信号等其他数据模态中展现出了巨大的潜力。同时也指出了其面临的挑战，如隐私保护问题等。展望未来，大模型的发展仍然充满无限可能。既要充分利用它们所提供的巨大机遇积极推动社会各领域各产业智能化，又要积极面对和解决伴随而来的问题，共同推动人工智能技术健康、可持续地发展，为人类社会带来更多福祉。

参考文献：

[2]王明皓, 殷涛, 杨洪杰, 等. 知识图谱和大模型技术发展与应用. 网络安全与数据治理, 2023, 42(S1): 126-131.

[3]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems, 2017, 30.

[4]赵朝阳, 朱贵波, 王金桥. ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路. 数据分析与知识发现, 2023, 7(03): 26-35.

[5]车万翔, 窦志成, 冯岩松, 等. 大模型时代的自然语言处理: 挑战、机遇与发展. 中国科学: 信息科学, 2023, 53(09): 1645-1687.

[6]邬贺铨. 大模型融入云平台, 信息化走向数智化.重庆邮电大学学报(自然科学版), 2024, 36(01): 1-8.

[7]孙柏林. 大模型评述. 计算机仿真, 2024, 41(01): 1-7+24.

[8]罗锦钊, 孙玉龙, 钱增志, 等. 人工智能大模型综述及展望. 无线电工程, 2023, 53(11): 2461-2472.

[9]刘学博, 户保田, 陈科海, 等. 大模型关键技术与未来发展方向——从ChatGPT谈起. 中国科学基金, 2023, 37(5): 758-766.

[10]徐月梅, 胡玲, 赵佳艺, 等. 大语言模型的技术应用前景与风险挑战. 计算机应用, 2023: 43(S2): 1-8.

关键词：人工智能深度学习预训练模型大模型多模态

来源：科学杂志1915

编辑：潇潇雨歇

转载内容仅代表作者观点

不代表中科院物理所立场

查看原图 80K