360集团创始人周鸿祎：理解大模型，从理解大脑开始｜嘉宾一线课堂

嘉宾商学

2024-11-26 10:32发布于北京嘉宾大学官方账号

360不仅是国内率先提出免费网络杀毒的公司，还是国内最大的互联网和移动安全产品及服务提供商，是国家网络安全的守护者。
过去10年来，360累计投入将近300亿用于研发，不断探索和突破网络安全技术的瓶颈。如今，360已拥有多项国际领先的安全技术，如基于大数据和人工智能的威胁检测技术、漏洞挖掘与修复技术、加密通信技术等。这些技术不仅为360自身的安全产品提供了坚实的支撑，还广泛应用于国家网络安全防御体系建设当中。
而在AI时代，360在大模型方面有着怎样的布局和规划？企业又该如何利用大模型打造新质生产力，从而在数字化浪潮中持续创新？
2024年10月27日，嘉宾派・北京站访学走进360，嘉宾商学实战导师、360集团创始人周鸿祎为嘉宾派企业家学员带来以《拥抱大模型，打造新质生产力》为主题的精彩授课，从大模型的发展趋势、运行机制以及应用落地方法论等角度进行阐述，旨在呼吁企业建立AI认知，抓住AI时代的机遇。
以下为授课内容精编版，Enjoy~

1、大模型：新生产力的核心引擎

大家好，我是周鸿祎。不久前，2024年诺贝尔奖物理学奖、化学奖均颁给了两位研究AI人工智能的科学家，已经反映出AI技术正作为一股不可忽视的力量，在全球科研舞台上得到更大的重视和影响。

尽管目前还有很多人对于AI持有不同的看法和观点，但在我看来，不要高估人工智能现在的能力，但也千万不要低估它未来发展的潜力。今天，很多人都在用AI、用大模型，比如说ChatGPT、文心一言等等，而大模型作为拥有海量参数和大规模数据训练的模型，是AI的一种特定技术实现，那么我就先跟大家探讨一下大模型的基本原理。

我们知道，人类大脑是一个极其复杂的生物器官，拥有约860亿个神经元，这些神经元通过数万亿条神经网络互相连接，形成了一个复杂的网络系统，能够进行感知、思考、记忆、决策等各种智能活动。而大模型的核心算法就是机器学习神经网络，它模拟了人脑的工作原理，通过构建复杂的神经元网络来处理和分析数据。

但是想要构建大模型，需要有一套算法基础。于是在2017年，谷歌率先提出了一套叫Transformer的算法模型，并且在大模型领域得到广泛应用，包括OpenAI、百度、腾讯、360等国内外厂商的很多大模型原理，都是基于Transformer的模型架构来构建的。

相比其他厂商最初只是把大模型用于搜索点击率的提升、广告内容推荐不同的是，OpenAI直接将人类知识进行预训练，使大模型具备了强大的知识储备，这种预训练过程就像是给大模型“喂入”海量的书籍知识，让其学习人类的语言模式、逻辑思维等等。

从技术实现角度来看，大模型的训练需要巨大的算力支持，其中参数、数据和算力是决定大模型性能的关键要素。以GPT为例，其参数规模不断扩大，从最初的数十亿到如今的数千亿，这使得模型能够处理更加复杂的任务。数据的质量和数量同样至关重要，丰富多样的数据能够让模型学习到更广泛的知识和模式。虽然现在很多人说Transformer的算法模型在效率方面有待提高，但我认为它仍然是当前实现大模型最可行的一个方案。

现在大模型已经变得越来越智能，越来越聪明，其实归根结底，最显著的能力提升是在于大模型对于人类语言的理解能力上。只有对人类语言充分理解，大模型才算是拥有了真正的智能。为什么这么说呢？

大家知道现在有一种测试大模型AI能力的指标叫“图灵测试”，这是衡量AI是否足够智能化的重要标准之一。为了通过图灵测试，大模型需要在训练过程中不断学习和模拟人类的语言习惯、思维方式以及知识储备等。换句话说，当人区别不出来跟你说话的是AI还是真人的时候，就证明这个AI已经合格了。

之所以语言理解能力如此重要，是因为语言是区分人跟动物最为明显的一大特征，人能够用语言来表达和交流、传播知识乃至逻辑推理，而动物则不行。就像20世纪著名哲学家、分析哲学创始人之一路德维希・维特根斯坦曾经在他的著作《逻辑哲学论》中说过的名言一样：“语言的边界，就是思想的边界”，语言是思想的载体和表达方式，人们的思考和认知会受到所使用语言的限制。

同样，为什么现在我们用苹果手机上的Siri语音助手或者打开某个智能音箱进行对话时，你说了一句很简单的话，它却依然无法理解，表现得像个“人工智障”一样，原因就在于其内置的大模型对于语言背后知识的深度理解能力不足。所以，大家在学习和了解大模型时，要认识到其与人脑工作原理的相似性，这种相似性对于理解和应用大模型具有重要的意义。

还有一点很重要的是，大模型“举一反三”的能力，也是其智能化水平的重要体现。与传统的人工智能系统不同，大模型在学习过程中能够融会贯通，将所学知识应用到新的情境中。

例如，在学习了鸡兔同笼问题的解法后，它能够自动解决类似的数学问题，甚至能够将这种逻辑推理能力迁移到其他领域，如物理问题的解答、商业决策的分析等。这种能力使得大模型在面对复杂多变的现实问题时，能够迅速做出准确的判断和决策。如果用一个专业的术语来解释大模型这种举一反三的能力，可以叫做“涌现”，也叫做“泛化”。

我看到有很多朋友在谈到大模型的时候，也会提到大模型的缺点，就是有时候会产生幻觉，会瞎编乱造，比如说“林黛玉倒拔垂杨柳”。其实在我看来，这种幻觉或者说瞎编乱造的能力也是大模型智能化的一种体现。

因为所谓创造力，就是能够把不相干的事情能连在一起，能够成为联想，所以搜索引擎传统的数据库永远不会产生智能，它只能把人类告诉它的东西，原封不动地给你复述出来。但大模型却能够创新，能够无中生有、瞎编乱造，能够将不同的概念和知识进行组合，产生新的想法和观点，而这种无中生有的创新，就反映了大模型的智能化和创造力。

嘉宾商学实战导师、360集团创始人周鸿祎在嘉宾派课堂授课

2、大模型需要慢思考

今年9月，OpenAI推出了一个名为o1的全新人工智能模型（o是orion猎户座，1代表从头再来，也意味着后续将出现更多序列），它没有延续使用GPT序列，可见其与传统预训练模型相比，有着全新的变革性训练方法和功能。

o1大模型具备复杂推理能力，能够解决比目前专业的科学、代码和数学模型所能解决的更难的问题，但是由于o1大模型的推理时间较长、使用成本更高，在不需要复杂推理的场景相比GPT-4o等其他大模型并没有明显优势。

虽说推理速度比较慢，但重点是得出来的逻辑推理准确性非常高。所以在我看来，o1大模型其实具备了很强的慢思考的能力，它是根据慢思考能力来做的各种训练。

以色列裔美国认知心理学家、2002年诺贝尔经济学奖得主丹尼尔·卡尼曼曾经出过一本书叫《思考，快与慢》，里面提到人的大脑其实是有两套认知系统的，一套是快思考系统、另一套就是慢思考系统。简单来说，快思考系统反应快速、依赖直觉，几乎不需要我们的努力就能完成任务；而慢思考系统则懒惰，工作起来就需要我们集中注意力，但它也理性、精确。

我们的大脑每天都是在这两套系统之间来回切换。比如说我们可以做到脱口而出，它就是一种快思考系统能力的直接体现，但是人真正的智力体现并不是快思考，而是慢思考的系统能力。

再举个鲜明的例子，大家都知道同声传译非常难，必须做到一边听着英文一边就要同步把语言翻译出来，而且还没有修改的机会，但其实现在很多做同声传译做得很好的也是磕磕巴巴的翻译完，因为它需要的就是一种快思考能力。而现在很多真正的翻译家，无论是翻译小说还是翻译文献，其实需要的是慢思考能力，才能做到更加精准。

话说回来，为什么OpenAI要推出一个主打慢思考的o1大模型？我们原以为，只要参数、算力、数据规模不断增大，那么GPT大模型的能力就应该越来越强，可事实上，当我出差去美国跟OpenAI的员工聊完才发现，其实就是因为现在快思考的能力已经是达到瓶颈了，继续单纯依靠过往扩大规模的方式提升能力变得艰难，所以OpenAI只能做推理时间较长、使用成本更高的o1大模型。

现在包括OpenAI、Meta这些国外大厂都在集中建设十万卡GPU集群，单是硬件投入就高达40亿美金，但构建十万卡集群是一项复杂的系统工程，不仅意味着算力的指数级增长，还涉及复杂的技术和运营挑战。同时，运行大规模的集群、进行海量的数据运算等都需要消耗大量的能源。

更为关键的是，OpenAI已经把能够找到的公开数据，甚至是面向企业端（ToB）的数据源里的数据都差不多用尽了。数据对于这类预训练模型来说就如同“燃料”，当数据难以为继时，模型继续依靠大量数据学习新知识、进一步提升能力就变得很困难了，这意味着以往依靠不断增加数据来强化模型能力的路径受到了极大阻碍。

所以，o1大模型主打“慢思考”能力就是在这样的背景下应运而生的一种尝试，这也意味着无论是人类的思维运用还是大模型的发展，不能仅着眼于快思考，也要重视慢思考在突破现有困境、提升能力等方面的重要性。

其实不只是OpenAI，我们也有在推进关于大模型“慢思考”的系统能力。早在今年7月举办的ISC（Internet Security Conference，互联网安全大会）大会上，360便宣布利用智能体和CoE（Collaboration-of-Experts，专家协同）框架实现了大模型的慢思考能力，并已经在360AI浏览器、AI搜索等产品中实现落地应用。

360的CoE架构不仅接入了自家的360智脑，还包括了其他15家国内顶尖的AI大模型，这样的协同合作让AI的能力更上一层楼。通过这个架构，360AI搜索和360AI浏览器能够更精准地理解用户的需求，并提供更智能、更个性化的服务。

嘉宾派学员在授课现场

3、企业应该如何运用大模型

现在很多人知道，大模型能够帮助你进行快速生成写作、快速生成视频，这些是大模型最显而易见的应用场景，它对于广告营销行业可能体现得很直观。但是大家的职业各不相同，比如有些人可能是饭店老板、外卖员、煤炭工人等等，他们可能会觉得，大模型跟我有什么关系。实际上，大模型的能力远不止于此，它犹如一把万能钥匙，能开启众多行业变革与个人能力提升的大门。

就拿饭店老板举例，大模型可以通过分析海量的顾客消费数据、菜品销售数据以及市场趋势数据，进行精准的菜品推荐优化，还能协助进行供应链管理，预测食材的需求与采购时机，从而降低成本、提高运营效率。

所以，很多人理解的大模型，主要是理解大模型的基础能力和创意能力。基础能力是指通过大模型完成阅读理解、翻译、多轮对话等，这些能力适用于提升企业中个人能力和办公能力；而创意能力则包含利用大模型进行文本生成、图像生成、视频生成、音频生成等，这些更适合用于企业市场部做营销创意、短视频制作等，有助于改善企业的营销宣传和创意能力。

但是，对于企业来说，大模型在知识管理、舆情分析、多模态处理、大数据分析、人机交互以及在核心业务上进行业务流程优化、企业经验沉淀、全局组织协同等能力，目前企业在应用大模型时较少触及。

其实要想理解和运用大模型，并没有想象中那么困难。简单来说，大模型是通过对大量的token序列进行学习来构建知识和模式识别能力的。首先，什么是token？

例如，对于句子“我喜欢读书”，会被分解为“我”“喜欢”“读书”这几个token，模型通过学习大量这样的句子序列，理解词语之间的组合规律、语法规则和语义信息。当输入一个新的部分序列，如“我喜欢”时，就能预测下一个可能的token，比如“看电影”“运动”等等。

在大模型的语境中，token是一种基本的处理单位，你可以简单地把它理解为构成信息的元素。它不仅仅局限于文字，文字只是其中一种比较直观的形式，一个单词、一个汉字或者一个标点符号都可以是一个token。在其他场景下，如化学领域，一个分子式的片段、一个原子团；在生物领域，一段基因序列的部分；在交通场景里，一个路况信息（如车辆的位置、速度等）都可以被看作是一个token。

而大模型的预测能力在很大程度上，就依赖于对token序列的处理。在已知前面部分序列的情况下，利用训练过程中学习到的概率分布来推测后续的token。例如，在天气预测场景中，如果将历史天气数据（如温度、湿度、风向等数据组成的序列）输入大模型，模型会根据过去的序列模式来预测未来天气相关token的序列，如明天的温度范围、是否会下雨等。

聊到AI大模型的实际应用案例，我举几个比较有意思的例子。2016年3月，当谷歌DeepMind团队的人工智能程序AlphaGo通过围棋对弈以4:1击败世界围棋冠军李世石的时候，很多人第一次意识到AI的神奇和魅力。

最近我看到有团队开始训练大模型下国际象棋，而且是把很多棋谱变成序列。国际象棋跟围棋也很相似，都是黑方走一步，白方再走一步，这其实就是前面提到的token序列，并且体现出大模型利用已有样本学习规律的价值。

在医疗科学领域，随着大模型对于已知的蛋白质结构样本的学习加强，进而找到规律预测其他蛋白质结构。所以未来十年，我觉得人类可能会进入真正的长寿时代，因为癌症可能会被攻克，很多新药会被发明出来。

而在大家所关心的自动驾驶领域，早期的自动驾驶技术主要依赖于规则驱动，就像是给汽车编写了一本固定的驾驶手册，只能应对有限的、预设好的场景。对于一些特定的交通标志、常规的道路状况，自动驾驶尚且能够做出相应反应，但一旦遇到稍微复杂或者罕见的情况就容易陷入困境。

然而，如今借助大模型的数据驱动方式，情况有了巨大转变。像特斯拉通过建立庞大的10万卡集群，利用全球数百万车主行驶超过10亿公里所积累的数据来训练大模型，采用端到端的模式，即只需将大量的驾驶案例输入模型，当遇到新的路况时，大模型就能通过自身复杂的网络进行推理，准确地判断出是该刹车、加速、转弯还是采取其他操作，从而使得自动驾驶技术在近年来取得了突飞猛进的发展，让人们离真正安全可靠的无人驾驶时代越来越近。

还有机器人领域，大模型的出现为机器人带来了前所未有的变革。以往的机器人大多只能在固定的场景下按照预设的程序执行任务，比如工业机器人，虽然在生产线上能够高效地完成特定的操作，但缺乏灵活性和通用性。它们的工作位置和任务相对固定，外观往往也只是机械臂等简单形态，主要应用于工业生产等特定环境。

而大模型赋予了机器人新的能力维度。机器人开始有了“嘴巴和耳朵”，能够理解人类的语言指令，实现自然流畅的人机交互。当用户说出“我饿了”，机器人可以凭借大模型的逻辑推理规划能力，自行判断并从周围环境中找出可食用的物品，如将苹果拿给用户。在视觉方面，机器人不再仅仅是识别物体，还能深入理解物体的特性，比如知道沙子是松软可陷入的，雪地可能很滑会阻碍行动，从而主动避开这些障碍物。

可以预见，随着大模型与机器人技术的不断融合发展，未来机器人将更加智能地融入我们的日常生活，承担起诸如家庭护理、复杂环境作业等多样化的任务，极大地提升人们的生活质量和工作效率，甚至可能改变整个社会的劳动力结构和服务模式，催生全新的产业和商业机会。

嘉宾派学员在授课现场

4、企业怎样才能用好大模型

作为企业管理者，我们应该如何运用好大模型，为企业经营和技术进步进行赋能，这里我展开几点个人看法。

首先，我认为企业可以从大模型的基础能力着手，为企业员工进行赋能，提高办公效率。因为大模型的基础能力，几乎可以在任何行业通用。例如，企业可以将大模型整合到办公软件中，形成智能助手，自动处理诸如邮件分类、日程安排提醒、会议纪要整理等事务性工作，让员工能够将更多精力投入到创造性和决策性的任务中。

再者，我觉得大家要重视大模型在企业知识管理和情报分析中的作用。现在很多企业的内部积累了海量的知识和数据，大模型能够对这些碎片化的信息进行整合与分析，通过构建企业内部的知识图谱，大模型可以将员工的经验、项目文档、流程规范等知识进行关联和结构化处理，方便员工快速查询和学习，促进知识在企业内部的传承与创新。

在情报分析方面，大模型可以实时监测外部环境，包括市场动态、竞争对手信息、行业政策变化等，为企业提供及时准确的情报支持，帮助企业提前制定应对策略，把握市场机遇或规避风险。

另外，企业在应用大模型的过程中，不要盲目追求全能。为什么大模型被大家吹得神乎其神，好像只需要通过一个大模型就能解决所有问题，但其实这是不对的。

我们在企业内部，可能会运用到很多软件解决方案，包括HR软件、财务软件、ERP（Enterprise Resource Planning，企业资源计划）软件等等。而360在网络安全方面，其实也是做了十多个网络安全相关的小模型，有专门解决漏洞挖掘的，有专门解决攻击发现的，有专门解决安全处置的，甚至现在360浏览器里面的AI搜索也有不止一个模型。这样做的好处就是，每个模型专注于特定的功能领域，能将自身的能力发挥到极致。

最后，不能忽视原有IT系统的价值以及数字化积累的重要性。以传统制造业企业为例，虽然大模型具有强大的数据分析和智能决策能力，但离开了原有的生产管理系统、自动化设备控制系统等IT基础设施，大模型就如同无根之木。企业应在已有数字化基础上逐步引入大模型，如利用大模型对生产过程中的质量数据进行深度分析，为原有质量控制系统提供优化建议，实现两者的协同增效。

在提问环节，有同学在关于大模型可能会给企业带来的安全问题方面有一些疑问，我认为，企业应用大模型确实会面临一些新的安全挑战。比如大模型可能会出现胡说八道的情况，生成一些不符合事实或者逻辑混乱的信息，这在企业的决策支持、信息传播等环节可能会造成误导；还有可能会被人恶意利用，陷入被PUA的陷阱，按照攻击者的意图生成有害信息或者执行错误操作；另外，大模型也有产生不良内容的风险，如涉及违法、违背道德伦理的信息等。

针对这些问题，我们有一套比较完整的解决方案。主要的思路是“以模制模”，也就是利用大模型来检测和防范大模型可能出现的安全风险。我们研发了安全输入检测的大模型和安全输出结果检查的大模型，通过这两个模型的协同作用，能够对大模型的输入数据进行筛选和净化，确保输入信息的合法性和安全性，同时对大模型生成的输出结果进行审查和判别，即使是面对一些高级黑、低级红等隐蔽性较强的有害内容，也能够及时发现并处理，从而保障企业在应用大模型过程中的信息安全和业务稳定。

嘉宾商学实战导师、360集团创始人周鸿祎在嘉宾派课堂授课

分享 | 周鸿祎 360集团创始人

作者 | 沈思涵

出品 | 嘉宾商学

查看原图 51K