在人工智能(artificial intelligence, AI)的宏伟画卷上,大模型如同绚烂的星辰,照亮了技术的未来,不仅重塑了人们对技术的认知,更在无数行业中悄然引发变革。然而,这些智能技术并非完美,也存在风险和挑战。在此,我们将揭开大模型的神秘面纱,分享其技术与特点,剖析其发展与挑战,一窥AI时代的风采。
大模型的由来
大模型的由来可以追溯到20世纪的AI研究初期,当时的研究主要集中在逻辑推理和专家系统上。然而,这些方法受限于硬编码的知识和规则,难以处理自然语言的复杂性和多样性[2]。随着机器学习、深度学习技术的出现和硬件能力的飞速提升,大规模数据集和复杂神经网络模型的训练成为可能,从而催生了大模型的时代。
2017年,谷歌推出的Transformer模型结构通过引入自注意力机制(self-attention),极大地提升了序列建模的能力,特别是在处理长距离依赖关系时的效率和准确性方面[3]。此后,预训练语言模型(pre-trained language model, PLM)的理念逐渐成为主流。PLM在大规模文本数据集上进行预训练,捕捉语言的通用模式,然后针对特定任务进行微调来适应特定的下游任务。
大模型的演变路径
OpenAI的GPT系列模型是生成式预训练模型的典范,它们代表了生成式预训练模型的先锋。从GPT-1到GPT-3.5,每一代模型都在规模、复杂性和性能上有了显著提升。2022年年底,ChatGPT以聊天机器人的身份横空出世,它不仅能够回答问题,还能创作文章、编程,甚至模仿人类的对话风格,其几乎无所不能的回答能力使得人们对大语言模型的通用能力有了全新的认识[4]。这极大地推动了NLP领域的发展。
大模型的特性
大模型的类型
大模型可以根据其应用领域和功能进行分类:
①大语言模型:专注于处理和理解自然语言文本,常用于文本生成、情感分析、问答系统等;②视觉大模型:专门用来处理和理解视觉信息(如图像和视频),用于图像识别、视频分析、图像生成等视觉领域的任务;③多模态大模型:能够处理并理解两种或两种以上不同类型的输入数据 (例如文本、图像、音频等) ,通过融合来自不同模态的信息,能够执行比单一模态更为复杂和全面的任务;④基础大模型:通常指那些可以广泛应用于多种不同任务的模型,它们在预训练阶段没有特定的应用方向,而是学习大量通用知识[6]。
大模型的能力
大模型的能力在于其能够理解和处理高度复杂的数据模式:
大模型的技术
Transformer架构
现有的大模型大多建立在Transformer模型(或仅仅是Transformer的解码器)基础之上,该架构通过自注意力机制捕捉输入数据的全局依赖关系,并且还能够捕捉不同模态元素间的复杂关系。例如,一个多模态Transformer可以同时处理图像的像素和文本的单词,通过自注意力层来学习它们之间的关联。这使得大模型能够理解文本与图像等各种模态,并生成长文本序列,同时保持上下文的连贯性。
有监督微调
有监督微调(supervised fine-tuning, SFT)是一个传统的微调方法,它使用带有标签的数据集来继续训练预训练的大模型。值得注意的是,在大模型的训练中,SFT阶段一般使用的是高质量的数据集。此外,SFT涉及对模型的参数进行调整,以使其在特定任务上表现得更好。例如,如果想要让模型在法律咨询上表现得更好,可以使用一个包含法律问题和专业律师回答的数据集来进行SFT。在SFT中,模型通常会尝试最小化预测输出与真实标签之间的差异,这通常通过损失函数 (如交叉熵损失)来实现。这种方法的优点是直接和简单,可以迅速适应新任务。然而,它也有局限,因为它依赖于高质量的标注数据,并且可能导致模型在训练数据上过拟合。
人类反馈强化学习
大模型的应用
大的大模型的生态架构
NLP领域
大模型在NLP领域的应用尤为广泛。例如,OpenAI的GPT系列模型能够生成连贯、自然的文本,应用于聊天机器人、自动写作、语言翻译,比较著名的产品如众所周知的ChatGPT。在金融科技领域,大模型常被用于风险评估、交易算法和信用评分等。模型能够分析大量的金融数据,预测市场趋势,帮助金融机构做出更好的投资决策。大模型在法律和合规领域中,可以用于文档审核、合同分析、案例研究等。通过NLP技术,模型能够理解和分析法律文件,提高法律专业人士的工作效率。推荐系统是大模型的又一应用领域。通过将用户的行为数据序列化为文本,大模型可以预测用户的兴趣,并推荐相关的商品、电影、音乐等内容。在游戏领域,大模型可以利用其代码能力生成复杂的游戏环境,可以驱动非玩家控制角色(non-player character, NPC)根据玩家的不同设定产生不同的对话等,以此提供更加逼真的游戏体验。
图像理解生成领域
目前的大模型不仅仅只具有对文本的理解能力,其拥有的多模态的理解能力也为其在图像领域的应用打下基础,如自动生成绘画、视频等。这些模型能够模仿艺术家的风格,创作出新的艺术作品,为人类的创造力提供辅助。如OpenAI于2024年2月发布的Sora,可以利用用户输入的文本,直接产生一段符合要求的视频,这为电影制作领域提供了更方便的工具[4]。在图像处理领域,大模型如SegGPT等被用于图像识别、分类和生成等。模型通过学习大量图像数据与文本对,可以识别出图像中的物体、人脸、场景等,并在医学影像分析、自动驾驶车辆、视频监控等方面发挥作用。此外,在医学和生物学领域,多模态的大模型可用于疾病诊断、药物发现、基因编辑等,大模型能够从复杂的生物医学数据中提取有用的信息,辅助医生做出更准确的诊断,或者帮助研究人员设计新的药物。
语音识别领域
大模型也在语音识别领域发挥着重要作用。通过深度学习技术,模型能够将语音转换为文本,支持语音助手、实时语音转写、自动字幕生成等应用,手机上的语音助手就是典型例子。这些模型通过对大量语音样本的学习,能够应对不同口音、语调和噪声的干扰。
另外,大模型可以用于教育、医疗、农业、金融等不同行业。例如在教育领域,大模型可用于个性化学习、自动评分、智能辅导等,模型可以根据学生的学习情况提供定制化的教学内容,帮助学生更高效地学习。总而言之,大模型通过其强大的数据处理和学习能力,在各个领域都展现出了巨大的潜力。随着技术的不断进步,可以预见大模型将在未来的发展中扮演更加重要的角色。
大模型的发展
大模型在应用层面的发展有大语言模型和多模态大模型两个主要方向。在大语言模型方面,GPT-3作为一个里程碑,其参数量达到了1750亿个,显示出令人惊叹的语言理解和生成能力。紧随其后,Meta AI发布的LLaMA系列模型,以其优异的性能和相对较小的模型大小,成为学术研究领域和工业界的新宠。这些模型不仅在标准的NLP任务上表现出色,而且在小样本学习、迁移学习等方面也展现了巨大的潜力。
多模态大模型则是在此基础上的延伸,它们能够处理并理解多种类型的输入,如文本、图像和音频。OpenAI的DALL-E和CLIP就是这个方向上的代表作,它们能够理解和生成与文本描述相符的图像,或者通过图像来理解文本内容。谷歌的SimCLR则是在CV领域的一次重要探索,通过对比学习(contrastive learning)有效提取图像特征。此后,谷歌的Gemini在原生多模态领域迈出了重要步伐,其不仅在不同模态上进行预训练,而且可以处理更加复杂的输入和输出,如图像和音频。OpenAI的Sora则进一步拓宽了大模型的应用范围,它能够根据输入文本自动生成视频内容,这在一定程度上模拟了物理世界和数字世界中的人物与环境互动。
大模型的发展历程概述,标黄的为多模态模型。
国内科技企业在大模型领域的探索也不甘落后。百度的“文心一言”、阿里巴巴的“通义千问”、华为的“盘古”、科大讯飞的“讯飞星火”等模型相继亮相,它们不仅在通用语言理解和生成任务上表现出色,而且在特定的垂直领域如医疗、法律、旅游等中,展现了专业的应用能力。例如携程的“携程问道”专注于旅游领域的问答,网易有道的“子曰”则应用于教育领域,而京东健康的“京医千询”则致力于提供医疗咨询服务。
大模型的挑战
模型大小与数据规模的权衡成了一个显著挑战。虽然模型性能往往随着参数量的增加而提升,但这种规模的增长带来了巨大的计算成本和对数据质量的高要求[7]。研究者正在寻找在有限计算资源下实现模型大小与数据规模最优平衡的方法,同时也在探索数据增强、迁移学习和模型压缩等技术以减小模型尺寸而不牺牲性能,尽最大的努力将大模型运行的成本降到最低。
网络架构
网络架构的创新同样关键。现有的大模型几乎都基于Transformer架构,尽管Transformer架构在处理序列数据上表现出色,但其计算效率低和参数利用率低的问题会带来计算资源的浪费。目前Transformer的局限性已经促使研究者设计新的网络架构,这些架构旨在通过改进注意力机制、引入稀疏性和自适应计算等方式提高效率和泛化能力。而2023年12月提出的Mamba等基于状态空间的模型引入了选择机制,在很大程度上解决了现有Transformer架构计算效率等问题,有望成为下一代的大模型底层架构。
上下文推理
同时,随着模型尺寸的增长,涌现出上下文推理等一些未经训练而具备的能力,这些涌现能力的出现表明大模型可能内化了某些更接近人类的认知和学习机制。这些涌现能力的本质、触发条件和可控性是当前研究的热点,需要更多地从认知科学和神经科学的角度进行探索,并给出更加合理的解释,帮助人们理解这种能力涌现的原理。
知识更新
知识的持续更新是大模型面临的另一个重要问题。随着知识的不断进步,模型中的信息可能迅速过时。研究者正在探索如何使模型持续学习并整合新知识,同时避免灾难性遗忘,以保持模型的知识库处于最新状态。
可解释性
尽管大模型在各种NLP和机器学习任务中表现出色,但随着模型参数量的增加以及网络结构的深化,模型的决策过程变得越来越难以解释。大模型的黑盒性质使得用户难以理解大模型对输入数据的处理方式及其产生的输出结果。这导致了一种被动的理解状态,即人们仅了解模型输出的结果,对于模型为何做出这样的决策却一无所知。
隐私安全性
大模型的训练数据可能涵盖个人身份信息、敏感数据或商业机密。如果这些数据未受到充分保护,模型的训练过程可能会带来隐私泄露或被滥用的风险[9]。同时,大模型本身可能包含敏感信息,例如通过在敏感数据上训练而获得的记忆,这使得模型本身就具有潜在的隐私风险。
数据偏见和误导性信息
大语言模型可能会输出具有偏见或误导性的内容,这可能源于数据收集方式、标注者的主观偏好以及社会文化等多种因素。当模型使用这些含有偏见的数据进行训练时,它们可能会错误地学习或放大这些偏见,导致在实际应用中出现不公平或歧视性的结果。
大模型的未来
模型规模与效率的平衡
由于大模型技术往往需要庞大的计算资源和存储空间,因此未来的发展趋势将集中于保持模型规模的同时提高效率,以满足实际应用的需求。目前,稀疏专家模型作为一种全新的模型架构方法,正在逐渐引起关注。相较于传统的密集模型,稀疏专家模型通过仅激活与输入的数据相关的模型参数,降低了计算需求,从而提高了计算效率。2023年谷歌开发的稀疏专家模型GlaM的参数比GPT-3多7倍,但却减少了训练过程中的能源消耗和推理所需的计算资源,并在多种NLP任务上优于传统模型。
知识的深度融合
知识融合旨在通过整合来自不同数据源和知识领域的信息,以丰富模型的表示能力和决策能力。首先,目前的大模型主要针对单一领域或单一模态的数据进行训练和应用,例如NLP领域的BERT模型和CV领域的ViT模型等。然而在现实世界中,文本、图像、音频等多种信息往往是相互关联的,单一模态的信息很难满足复杂场景的需求[10]。因此,伴随CV、语音识别等技术的不断发展,未来的大模型将会更加注重多模态融合,即处理不同模态的数据,实现多模态信息的融合和交互。这种多模态融合的能力使得大模型能够更好地理解和处理复杂的信息。此外,可考虑将大模型技术与外部知识库相结合,以进一步提升模型的理解能力和应用广度。这意味着模型不仅可以利用其内部的语言模式和统计信息,还可以结合外部的结构化知识来进行推理和决策,从而更好地应对现实世界中的复杂问题。更重要的是,外部知识还可以增强大模型的泛化能力。
具身智能的探索
具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为。大模型的普及,大大加快了具身智能的研发和落地速度。大语言模型正在成为帮助机器人更好地理解和运用高级语义知识的关键工具。通过自动化分析任务并将其拆分为具体动作,大模型技术使得机器人与人类和物理环境的互动变得更加自然,从而提升了机器人的智能表现。比如不同任务通过不同的大模型来实现。通过将语言大模型用于学习对话、视觉大模型用于识别地图,以及多模态大模型用于完成肢体驱动等,机器人可以更加高效地学习概念并指挥行动,同时将所有指令分解执行,通过大模型技术完成自动化调度和协作。这种综合利用不同模型的方法将为机器人的智能化发展带来新的机遇和挑战。
可解释性与可信度
随着模型规模的增加,其内部结构变得越来越复杂,这使得模型的可解释性和可信度成为关注焦点。首先,为了提高模型的可解释性,研究人员将致力于开发新的方法和技术,使大模型能够清晰地解释其决策过程和生成结果的依据。这可能涉及引入更加透明的模型结构如透明神经网络或可解释的注意力机制,以及开发解释性的算法和工具,以帮助用户理解模型的输出结果。
其次,为了提高模型的可信度,将采取一系列措施来减少模型产生错误或误导性信息的可能性。其中一个重要的方向是引入外部信息源,并为模型提供访问和引用这些信息源的能力。这样一来,模型将能够访问到最准确和最新的信息,从而提高其输出结果的准确性和可信度。
同时,为了增加透明度和信任度,模型还将提供与外部信息源相关的引用,使用户能够对信息源进行审核,从而决定信息的可靠性。值得注意的是,虽然当前已经出现了一些具有外部信息访问和引用功能的大模型,如谷歌的REALM和脸书的RAG,但这仅仅是这一领域发展的开始,未来将会有更多的创新和进步。例如,像OpenAI的WebGPT和DeepMind的Sparrow等新模型将进一步推动这一领域的发展,为大模型技术的未来应用打下更加坚实的基础。未来大模型技术的发展将更加注重可解释性与可信度,这不仅是技术发展的必然趋势,也是社会对于科技应用的合理要求。只有在不断提升模型的可解释性和可信度的基础上,大模型技术才能够更好地应用于各个领域,为人类社会的发展带来更大的推动力量。
本文全面梳理了大模型在多个领域的突破和应用,其不仅在语言处理上刷新了性能基准,而且在图像、音频处理和生理信号等其他数据模态中展现出了巨大的潜力。同时也指出了其面临的挑战,如隐私保护问题等。展望未来,大模型的发展仍然充满无限可能。既要充分利用它们所提供的巨大机遇积极推动社会各领域各产业智能化,又要积极面对和解决伴随而来的问题,共同推动人工智能技术健康、可持续地发展,为人类社会带来更多福祉。
来源:科学杂志1915
编辑:潇潇雨歇
转载内容仅代表作者观点
不代表中科院物理所立场