大模型在不同行业中的实际落地,涵盖了多个关键环节,包括数据集的构建、行业大模型的训练、评测、应用系统的构建以及最终的行业落地应用等。这些环节不仅是大模型成功应用的基础,也决定了其在各个行业中的表现和效果。
12 月 14 日,在 AICon 全球人工智能开发与应用大会2024 北京站 【大模型行业落地实践】专题圆桌交流中,快手电商运营平台研发负责人袁首超担任主持人,与孩子王 AI 大模型负责人陈剑、摯文集团生态技术负责人李波、蚂蚁集团安全助理技术负责人岳汉,共同探讨大模型落地的相关问题。
部分精彩观点如下:
行业是否具备结构化知识体系,是决定该行业是否适合大模型应用的关键。
构建高质量数据集,可以类比为在奔跑时还要系鞋带。
建议选择两到三个具有特长的模型基座,并结合自己的训练进行微调。
以下内容基于现场速记整理,经 InfoQ 删减。
袁首超: 从快手的角度来看,我们目前在推进两个主要的业务场景。第一个场景是内容生产。快手始终定位于一个内容平台,因此我们在内容生产方面已经建立了三个重要的基座模型。第二个业务场景是电商领域,特别是在执行单一指令的过程中,涉及到多个业务领域和领域知识。一个典型的例子是小二助手,小二指的是我们电商行业的运营人员,他们执行单一指令,比如在大促期间组织一场直播。这一过程中需要涉及到相应的人员、产品能力以及整个直播流程的规则。通过大模型的支持,单一指令可以自动执行,并最终完成任务并反馈结果。
陈剑: 目前,大模型在文科领域的表现较强,特别是在创意性任务如作图、对话生成等方面。然而,在数学领域,尽管技术进步,短期内大模型在高精度要求的复杂计算场景中仍存在局限性。随着技术发展,智能化、自动化和重复性工作的场景值得进一步挖掘。
李波: 要理解大模型应用的突破性变化,首先要明确它在哪些领域具备优势;当前,在语言理解、逻辑推理、知识应用、数学和编程等方面相比过去的传统模型,大模型在这些领域的能力是显著提升的。因此,我们可以沿着这些方向挖掘出可能的应用突破方向。
其中,教育培训领域是目前最为典型的应用场景之一。大模型在知识赋能上具有强大优势,尤其在数学教学和英语对话等领域表现突出,已成为一个发展迅速的行业。另一方面,语言相关能力的应用也非常广泛,如智能客服、智能外呼以及知识问答等领域,这些传统业务也正在被大模型快速颠覆和改造。
岳汉: 从我们实际应用大模型的经验来看,可以从几个角度来分析。首先,从对内和对外的应用角度来看,对内的应用——特别是员工辅助工具的应用——通常更容易落地。因为员工对大模型工具的容忍度较高,尤其是在大模型的一些问题(如幻觉现象)尚未完全解决时,作为提效工具在内部的应用往往更为顺利。而对外的应用则面临更高的难度和复杂性,因为外部客户的需求更加多样化且复杂,模型需要解决更多实际问题。
另外,行业特点也是决定大模型能否成功落地的关键因素。特别是行业是否拥有足够庞大且结构化的知识体系,这将直接影响大模型的应用效果。比如,教育培训行业由于有大量的结构化题目和答案,能够更容易地实现大模型的应用。类似的,程序员常用的编码辅助工具也是因为之前积累了大量的代码用例库,使得大模型能够快速理解并生成有价值的输出。
岳汉: 我认为关键是设计一种能够自我适应大模型进化的方式。大模型将快速进化,我们的应用需要能够快速自我改造,避免每次大模型变化时都需重新适配,这样可以实现长期发展。具体操作时,需要结合每个产品的特点,分析哪些功能可以与大模型结合。比如,大模型在知识处理和内容生成方面具有优势,可以在许多场景中落地应用。
李波: 每次技术浪潮都会带来业务上的革新,例如从 PC 互联网到移动互联网的转变,信息分发上从搜索延伸到推荐。这次大模型的技术浪潮和过去不太一样的地方是,大模型的影响范围太广了,已经改变了信息的生产、理解到分发的完整链路。从信息的生产环节,大模型在文档编撰、文案写作、广告创意生成等领域已经发挥了巨大的作用;在信息的理解上,从过去相对单一模态的理解已经扩展到了全模态的内容理解,大模型能够非常自如的理解一个混合模态的内容;在信息分发方面,传统搜索正转向大模型驱动的精准问答搜索,推荐领域也在逐渐走向生成式推荐的方向。
陈剑: 我举两个具体场景来说明。首先是在开发代码领域,如何让旧代码与 AI 结合提升效率。针对不同场景,实施方案会有所不同。例如,在研发领域,AI 对新手程序员帮助巨大。调查显示,90% 的新手程序员反馈 AI 编程助手效果很好。但对于工作经验超过 10 年的老程序员来说,反馈大多是负面的,他们认为生成的代码质量较差。老程序员更倾向于用高质量代码训练 AI,而新手程序员的能力边界尚未建立,AI 对他们的帮助更大。因此,我认为未来研发领域的 AI 应用应采用“AI+ 新手程序员”模式,帮助新手提高效率,而对于有经验的程序员,AI 可以协助处理重复性高的工作。
另一个场景是销售领域,例如 AI 销售助手的应用。销售品种繁多,每个品类的细节也不相同,每种产品的核心属性、适用年龄段等都不同。在这种情况下,AI 可以帮助整理高质量的商品信息,提升销售系统的效率。因此,AI 在不同领域的应用范式不同,需要具体情况具体分析。
袁首超: 在电商领域,我们常说 AI 重构经营链路,但从 1 到 2 的转变需要长时间的过渡期。在这个过程中,需要逐步迭代,进行实验和调整,最终实现目标。在落地时,我们应从 AI 在哪些领域能为用户创造更大价值的角度出发,优先解决商家最痛的痛点,例如成本控制和销量提升。我们会根据价值和难易度优先级,选定核心场景进行试点,实施 AB 测试和实时调优,确保获得最佳结果。完成第一个试点后,后续的工作会更容易,按优先级继续推进。
陈剑: 首先需要考虑的是公司是否长期存在。如果公司不存在,模型也可能会随之消失。其次,当前的模型训练方法和数据质量不尽相同,虽然普遍采用 Transformer 架构,但不同模型的特长和应用场景有很大差异,像提示词的忠诚度等问题可能影响生成的准确性。
因此,从应用角度来看,建议选择两到三个具有特长的模型基座,并结合自己的训练进行微调。大模型虽然智能化程度高,但其能力是有限的,某些领域可能特别强,而在其他领域则可能较弱。所以,最好采用多模型协同和定制化训练的方式,不局限于单一基础模型。
李波: 基模选型的问题不是一个单纯的问题,首先需要明确应用场景。比如,场景是否复杂,是否需要强化推理能力,或者是角色对话场景,是否需要强调口语化能力等等。只有在明确具体需求后,模型选型才有针对性;
在实践中,模型选型可以分为几个步骤。首先,企业需要具备大模型的快速接入能力,方便做模型的横向对比和测试,便于掌握不同基座模型的特性和成本。其次,需要掌握大模工作流的部署能力,像 Coze 或 Dify 等平台可以帮助快速搭建针对垂直业务场景的完整服务流程,这对业务效果评估至关重要。面向特定应用场景,建议先通过简单的 Prompt Engineering 的方式快速搭建 workflow,投入到线上回收反馈;通过线上的反馈,来判断模型的能力缺陷和业务问题的具体难点,以及是否需要进一步通过 Post-train 等方式来强化模型的效果。
岳汉: 我们可以回顾一下当前业界对大模型调用的几种常见方式。大厂如阿里、腾讯、字节等通常会自研大模型;另一种方式是使用开源模型进行本地部署,这在一些企业中也很常见;还有一种则是通过 API 的方式,采用 SaaS 化服务远程调用外部模型。
我认为,基座的选型并不是那么关键,因为不同模型在不同时间段、不同应用场景下的效果可能差异很大。现在可能某个模型表现最好,但一年后,另一个模型可能就会超越它。模型迭代的速度非常快,因此我们更需要关注的是使用大模型的模式选择,是自研、开源本地部署,还是使用 SaaS 服务。特别是在过去两年,大模型领域经历了百模大战、千模大战,但未来几年,模型的数量可能会大幅收敛。因此,更重要的是考虑如何部署我们的模型,这将直接影响到未来的训练和迭代策略。
袁首超: 在技术选型时,首先要明确目标:你希望达成什么效果,重点考虑哪些因素?其次,要考虑未来的升级和迭代支持,避免技术“过时”。第三,选型要兼顾公司基础设施的接受程度,包括维护成本和资源投入。
在基座选型时,根据业务场景选择合适的模型,如内容生产、绘画或大语言模型等。大厂的通用大模型维护性较好,但自研模型在灵活性和迭代效率上可能更适合特定需求。最后,要考虑公司基础设施的适应性,并根据实际情况做出选择。
李波: 数据获取主要有几种途径。第一种是开源数据,互联网中一些公开的,相对 Common 类型的数据(如大规模文本、图片、图文对齐语料等)比较容易获得。第二种途径是购买数据,尤其是一些相对垂直领域的数据,在公开场景中较难以获取,可以考虑从一些专门在大模型数据领域深耕的公司来购买。第三种方式是利用大模型来清洗或者合成的方式来获取高质量数据,也是未来会越来越重要的一个途径;数据清洗上,可以利用大模型构建一个 judge 来对比较粗的数据集进行清洗,或者人机协作的方式来清洗;数据合成上,利用大模型对批量业务数据进行打标,或者利用大模型迭代过程中的结果构建偏序数据,也可以针对某个特定问题,针对性进行批量数据合成,来提升模型特定能力等等。
岳汉: 我补充一下高质量数据集的获取渠道,主要有两种:一是外部数据,如开源数据或购买的数据;二是企业内部数据,特别是企业在运营过程中产生的结构化数据。外部数据源相对有限,而企业内部数据的构建与基建布局密切相关。内部数据的存储和结构化处理对于数据集的构建至关重要。
然而,数据获取只是前半部分,关键在于数据处理。在训练模型之前,数据需要进行充分的清洗、分类、去噪和检测。如果这一步没做好,后续补救将会付出巨大的代价。因此,数据质量的检测和处理是确保数据集有效性的关键。
陈剑: 数据集的收集和整理是一个复杂且具有挑战性的任务,可以类比为在奔跑时还要系鞋带。现实世界中提高孩子成绩的方式也有相似之处。例如,孩子可以通过优秀的老师(如 GPT-4)进行辅导,从而获得更高效的知识传授,类似于通过大模型获取高质量数据来训练。除了老师辅导,孩子还可以通过自己做笔记,或者通过不断刷题来巩固学习内容,类似于数据的自主收集和整理。
对于数据集的收集,有几个常见方式。首先,企业可以通过组织内部的方式收集数据。这要求有足够的组织支持,因为如果没有合适的激励机制和资源,员工可能无法高质量地完成数据的收集工作。特别是当这些数据不作为员工的 KPI 时,收集的质量可能不高,甚至可能带有怨气,影响最终的结果。另外一个方法是通过爬虫从互联网获取数据。这种方式可以快速收集大量的公开数据,但需要注意的是,这其中涉及知识产权和数据合规性问题,因此需要谨慎操作。
陈剑: 以我们自己为例,在育儿知识这一垂直领域,我们拥有大约 3.2w 条高质量数据集,这些数据大部分是公开的。同时,我了解一些中药领域的大型模型,它们的训练数据量大约在 3 到 4 万条之间。当数据量过多时,可能会遇到过拟合的问题,这样模型的泛化能力会下降。因此,如果是一个垂直领域的数据集,数据量大致在 10B 上下,2 到 3 万条高质量数据加上适当的参数调优就足够了。
另外,数据的分布也需要特别注意。对于这 3 万条高质量数据,必须涵盖领域内的所有场景和维度,避免出现大量重复的内容,或者内容过于狭窄、与主题不相关。以育儿领域为例,如果涉及到宝宝发烧怎么办,那么除了发烧的处理方法,还需要涵盖奶粉选择、奶瓶选择、补钙等各个维度的知识。
岳汉: 尽管安全本身是一个垂直领域,但在这个领域内部,还有很多不同的知识类别。因此,我们将安全知识大致分为十多个类目。每个类目都由该领域的专家或相关的运营团队负责整理和分类。这个过程有些是基于已有的知识进行转换,有些则是重新生成和导出的。
每个领域的知识生成方式可能不同。根据我们的经验,每个领域的知识都应该由该领域的专家或团队负责,因为最终我们训练的模型是要解决该领域的问题。如果知识本身不符合某些标准,那么该领域的问题就无法得到有效解决,最终会影响团队的效率。简而言之,我们依靠人工把控这一过程,当然,也使用一些辅助工具,如自动标注和自动打标,但最终的决定还是依赖于人工确认。
岳汉: 关于数据的多样性,我们的来源主要分为两部分:一部分来自我们自己整理的知识,另一部分则是通过线上实时生成的,包括用户反馈等。不过,从实际经验来看,线上用户的反馈往往是非常多样化的,用户的问题种类繁多,这些反馈为我们提供了很多启发。通过用户的反馈和实际互动,我们意识到一些问题和问题类型,可能之前没有纳入我们的考虑范围。通过这些反馈,我们能够感知到一些之前未覆盖的数据类型,并在后续进行补充和完善。
李波: 你提到的 SFT 数据,我认为我们需要进一步聚焦,明确是需要训练出一个基座,还是专注于一个垂直领域的业务应用,这两者之间存在较大的差异。在 SFT 数据的处理中,除了依赖人工抽样和标记外,目前还有一个非常重要的方案,就是利用大模型来构建 judge 方案。通过大模型 judge,我们可以从多个维度来评估数据集,或者评估模型本身的能力。通过这种方式,我们可以更好地识别数据集和模型中的缺陷,并进行相应的优化。在构建 judge 的过程中,可以使用一些能力比较强大的大模型,能够有效地帮助我们评估和提升整个系统的表现。
袁首超: 我们确实在探索这方面的应用,但整个实施过程仍然依赖于各位老师刚才提到的关键问题——知识的积累。首先,需要通过人工判断什么算是成功的经验,这些成功经验可能是某个优秀案例,能够解决特定场景中的问题。然后,我们会对这些案例进行分类,归类完成后再整合到我们的模型中。最终,我们提供的形式也是偏向问答类的,因此可以归类为知识问答的场景。与现有的基于确定性文件或固定输出键的方式不同,我们在数据输入上需要对内容进行把关,确保输入的数据是高质量的。最终,仍然需要人工判断哪些内容是有价值的、适合作为建议输出的。
在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。