吴恩达教授新年首文：我投身AI工作已经几十载，今年想和你分享这些感悟

AI深度研究员

2025-01-04 07:15发布于上海

全文6354字，阅读约需19分钟，帮我划重点

划重点

01吴恩达教授预测2025年将成为AI领域充满创造力的关键年份，利用AI构建软件原型变得前所未有的轻松。

02AI在快速构建原型和简单应用上尤其出色，如打印学习卡片的应用和监控外汇汇率的程序。

03除此之外，AI辅助编程在原型开发方面尤为有效，因为独立的原型通常不需要复杂的上下文或深度集成。

04吴恩达教授鼓励学习者在新的一年里学习AI课程，并动手实践，以抓住AI领域不断涌现的新变化。

以上内容由腾讯混元大模型生成，仅供参考

原文如下：

尽管我从十几岁起就开始研究 AI，但如今我对它的潜力感到前所未有的兴奋，尤其是在开发 AI 应用的过程中。我们这个领域正在掀起一股创新热潮，而 2025 年将成为一个充满创造力的关键年份！

让我感到特别激动的一点是，利用 AI 构建软件原型变得前所未有的轻松。AI 不仅降低了软件开发的门槛，还极大地拓宽了应用的可能性。虽然它能够帮助优化和维护大型软件系统，但它在快速构建原型和简单应用上尤其出色。

比如，你可以为孩子快速开发一个打印学习卡片的应用（我最近用 o1 的帮助在几个小时内完成了这个项目），或者编写一个监控外汇汇率的程序来管理国际银行账户（这是 DeepLearning.AI 财务团队的实际案例），再或者开发一个自动分析用户评价的工具，用以快速发现产品问题（这是 DeepLearning.AI 内容团队的常用手段）。如今，借助 AI 辅助编程，构建这些应用变得前所未有的高效。

在原型开发方面，AI 辅助编程尤为有效，因为（i）独立的原型通常不需要复杂的上下文或深度集成，（ii）原型在 alpha 测试阶段对稳定性的要求也相对较低。虽然生成式 AI 在构建大型、任务关键型软件系统中同样大有作为，但在这类场景下生产力提升并没有那么显著。这是因为处理大型代码库需要提供全面的上下文，同时确保生成代码足够可靠（比如覆盖所有关键边界情况）本身就是一项复杂的挑战。

至今为止，将原型交付到用户手中的一大难点在于部署。然而，Bolt、Replit Agent 和 Vercel V0 等平台通过生成式 AI 和代理工作流，不仅提升了代码质量，更重要的是，它们可以直接部署生成的应用程序。（虽然我认为这些工具非常有用，但我更习惯于按照自己的流程操作：先用 LLM 设计系统架构，如果有多个复杂模块，则逐个生成代码。之后，我会测试每个模块，在必要时进一步优化代码——有时会用带 AI 功能的 IDE，比如 Cursor——最后再将模块整合起来。）

快速构建原型不仅高效实用，而且是测试想法和提升工作效率的好方法，更是一个学习和成长的绝佳机会。更重要的是，它真的非常有趣！（至少我个人觉得如此。😄）

新的一年，你如何抓住这些机会呢？在制定新年计划时，我希望你可以尝试以下两件事：

学习计划：作为高效的创作者，我们需要跟上 AI 领域不断涌现的新变化。你计划 2025 年学习几门AI课程呢？与朋友分享学习计划可以帮助大家共同进步。
动手实践：如果你会编程，我鼓励你抓住灵感、利用闲暇时间构建原型；如果你还不会编程，学习这项技能将会为你带来巨大的回报！即便是小小的胜利，也许你还能创造出改变世界的产品。即便没有，你也会在实践中收获知识和乐趣。

祝同学们新年快乐！

推荐：吴恩达教授力荐的五篇AI好文

2025 年即将到来

我们正迈入一个全新的时代：人工智能系统展现出令人瞩目的能力，能够深入理解世界、洞悉我们的需求，并采取行动满足这些需求。我们将如何运用这些强大的能力？

文章一：Hanno Basse：为艺术家而生的生成式 AI

作者：Hanno Basse 是 Stability AI 的首席技术官，曾任 Digital Domain、Microsoft Azure Media and Entertainment 以及 20 世纪福克斯电影公司首席技术官。

Stability AI 致力于帮助艺术家摆脱重复性、机械化工作的束缚，让他们能够将更多的时间和精力投入到创作中去。我们对 2025 年最大的期望是，生成式 AI 能够让人们的创意更有灵感、效率更高。

此外，我希望 AI 社区能在以下领域取得进展：

安全与可信：在开发之初就将诚信原则融入产品设计，打造安全可靠的技术，确保其被负责任地使用，同时为艺术创作特别是讲故事的艺术带来积极价值。
普及与易用：生成式 AI 产品应尽可能方便更多人使用。目前，大多数生成式 AI 工具仍然主要服务于技术背景深厚的用户，如工程师。为改变这一现状，我们需要在基础模型上开发更友好的工具，以便更多背景和技能层次的用户能够轻松使用并获益。
专业与定制：未来，我们相信生成式 AI 将在专业化方向上取得突破。在大型基础模型之外，我们会看到越来越多的小型模型，它们针对某些特定的、甚至非常狭窄的应用场景进行微调。这不仅是释放生成式 AI 潜力的关键所在，也是将 AI 安全、负责任地部署到现实场景中的最佳途径。

文章二：David Ding：生成视频与音乐、音效及对话

作者：David Ding 是一位热爱音乐的创作者，也是 Udio 的联合创始人，这是一款专为用户打造原创音乐的网络应用程序。在创立 Udio 之前，他曾担任 Google DeepMind 的高级研究工程师。

过去一年，我们见证了大量高质量视频和音频生成模型的爆发式增长。今年，我非常期待出现能够同时生成视频和完整音轨（包括语音、音乐、音效）的模型，这或将开启一个全新的电影创作时代。

目前，电影级视频生成的技术条件已经具备。许多公司已经推出了极具竞争力的视频生成模型，而 Udio 等企业则专注于音乐生成模型。接下来需要攻克的，是将视频与音频（包括对白和画外音）的生成同步整合起来。（事实上，我们已经见到了类似的尝试：比如 Meta 的 Movie Gen。用户只需描述一个场景，Movie Gen 就可以生成带有配乐和音效的完整视频。）训练这样的模型自然需要庞大的数据支持。但我猜测，用于现有视频生成器训练的数据集本身可能就包含了这些音轨，因此数据量未必会成为开发的瓶颈。

在起步阶段，这些模型的效果或许无法媲美专业视频剪辑师的顶尖作品。但它们的进步速度将十分惊人。不久之后，这些模型生成的视频和音轨将接近好莱坞制作的水准，就像当今的图像生成模型已经能够生成与高端摄影作品难分伯仲的图像一样。

随着技术的发展，用户对视频和音频生成的控制力正在逐步增强。以 Udio 为例，当我们最初推出这款应用时，用户还无法调整生成的和声。而仅仅几个月后，我们就上线了一项更新，让用户可以指定歌曲的调性。这样一来，用户可以将已有的音乐重新混音到新的调中。我们还在研究如何提供更多的控制选项，比如调整声音、旋律和节奏。我相信，视频生成技术团队也在类似的领域展开探索，以提高可控性。

当然，也有人会对完全自动生成电影级视频的模型感到不安。我可以理解这种情绪。我个人热爱摄影和音乐，但我发现图像和音频生成器能够为我的创意提供很好的起点。比如，AI 可以生成一张基础图像供我在 Photoshop 中进一步完善，或者提供一个音乐创作框架供我采样和拓展。再比如，AI 编程助手可以自动生成整个网站的模板代码。虽然你不再需要完全依赖开发人员，但开发人员本身也不总喜欢编写那些重复的模板代码。有了这样的工具，他们就可以专注于更有挑战性和创造力的开发工作。

同样地，AI 将使电影创作变得更加灵活。你可以编写剧本，然后快速生成电影的粗剪版本，从中挑选喜欢的片段，并用它来指导摄影师和演员的创作过程。

艺术的精髓在于创作者的选择和表达。虽然你我都可以用 Midjourney 生成一幅风景图，但如果你是一位艺术家，对所描绘的风景有独特的构思，那么你的作品会更加吸引人。同样，任何人都可以用 Udio 创作高品质的音乐，但如果你具备出众的音乐品味，你的作品将更加出色。在视频创作领域也是如此：每个人都可以决定自己的电影想讲述什么、展现什么样的画面，以及传递什么样的情感。而 AI 的加入，将让这种创作过程变得更加高效、流畅和互动。

文章三：Joseph Gonzalez：迈向通用智能的新时代

作者：Joseph Gonzalez 是 RunLLM 的联合创始人，致力于开发高质量的技术支持代理工具。他同时也是加州大学伯克利分校的教授。

展望 2025 年，我认为基础模型的训练速度可能会放缓，原因是我们将逐渐接近技术扩展的极限，而推理成本也会不断攀升。相较于基础模型的突破，我更希望看到 AI 应用领域的创新爆发，例如正在快速发展的代理栈技术。我对未来特别期待的是，我们将如何将 AI 与现有工具和系统结合起来，创造出全新的功能和产品类别。而最让我激动的，或许是人类面对这些变革时所展现的适应能力。

我们已经实现了 AGI，接下来该怎么做？

关于人工通用智能（AGI）的争议性话题，我希望我们能够从这个问题开始，并最终结束对它的无休止讨论。虽然这个观点可能有些大胆，但我认为我们已经实现了 AGI——至少从定义上看，我们的 AI 现在已经具备通用性。至于感知能力和超级智能这些哲学问题，我将留给学者们深入探讨，而我更关注一个关键点：通用性。

回顾过去，传统的人工智能或机器学习系统尽管智能，却是高度专业化的。它们通常可以在某些特定任务（如图像识别或内容推荐）上超越人类能力。而如今的 AI 模型，以及围绕它们的系统，能够在极为广泛的任务中展现出媲美甚至超越人类的表现。这种通用性为工程师、科学家和艺术家开辟了全新的创新途径，而市场需求将进一步放大这种通用性的潜力，使 2025 年成为 AI 领域的一个里程碑。

AI 的普及与个性化

这些通用模型的特性及其自然语言界面让几乎每个人都能轻松使用 AI。我们正在逐渐学会如何向 AI 描述问题、提供背景信息，并期待它给出个性化的解决方案。在 RunLLM，我们开发了高质量的技术支持代理工具。我们惊喜地发现，用户不仅仅用这些代理解决问题，还用它们来定制专属于自己的解决方案。更令人意外的是，用户在与 AI 交互时，比与真人互动时分享了更多的信息。

与此同时，在加州大学伯克利分校，我看到学生们用 AI 来重新学习我的讲座内容，或者通过 AI 生成的模拟试题来备考，他们用 AI 个性化学习的方式令人惊叹。或许到了 2025 年，当我们需要帮助或寻求学习时，我们会更愿意选择 AI，而不是人类。

在过去一年中，我们明显看到了如何克服大语言模型局限性的进步，并开始以意想不到的方式将 AI 融入实际应用。

AI 投资的回报

到了 2025 年，AI 领域的焦点将转向如何从过去的投资中体现出实际价值。投资者和企业不再满足于概念验证，而是期待初创公司和 AI 团队转型，开始解决实际问题，比如降低成本、提高收入以及优化客户体验等。这或许对依赖研究资金的学者来说并不友好（如果你在 2024 财年还有多余预算，欢迎联系我），但对其他行业来说，这是个好消息，他们将搭上 AI 赋能功能的快车。

我们将迎来一场竞赛，探索如何将 AI 创新融入产品和业务的各个层面。初期可能会出现许多仓促上线的聊天机器人和自动摘要功能——这只是 AI 应用的起点。我希望这些功能能够尽快升级为更智能的上下文代理，能够根据用户需求调整，并从用户互动中学习。疫情推动了远程助手的普及，同时展示了一个几乎完全数字化的工作环境，为未来的智能代理奠定了基础。这些代理可能会填补人类传统的角色空缺，甚至承担由其他代理创造的新任务角色。当每个人都能管理自己的定制化代理团队时，AI 或许真正兑现了它的潜力。

聊天机器人只是起步

我对 2025 年最大的期待，是我们能摆脱单纯的聊天互动，发现 AI 更广阔的潜力！我希望 AI 代理可以默默地在幕后协助我们完成日常工作。当我们需要做决策时，它们能够提供恰当的背景信息；当世界发生变化时，它们能够帮助我们快速适应。通过上下文和工具支持，它们会提醒我们注意遗漏的细节，并弥补我们的疏漏。未来，我们与 AI 的交互将更高效，我们可以减少不必要的聊天，而智能代理将为我们完成更多复杂的工作。我期待有一天，我可以毫无后顾之忧地离开电脑，把时间更多地投入到有意义的人际交往中。

文章四：Albert Gu：更多学习，少用数据

作者：Albert Gu 是卡内基梅隆大学的机器学习助理教授，同时也是 Cartesia AI 的首席科学家。他入选了 2024 年《时代》评选的最具影响力 AI 人物榜单。

构建一个基础模型需要大量的数据。在未来的一年里，我希望我们能够实现模型用更少的数据学习更多内容。

AI 社区通过扩大 transformer 和数据集规模取得了显著的成功。但这种方法可能正在接近边际收益递减点——这是许多从事预训练的研究者在尝试训练下一代模型时日益广泛的看法。无论如何，这种方法存在实际问题。训练大型模型需要庞大的数据集，这消耗了大量的时间和能源，而我们也逐渐耗尽了用于训练大型模型的新数据来源。

事实上，当前的模型所需的数据远多于人类学习所需的数据。这一点我们早已知道，但由于扩展方法的惊人效果，我们一直忽视了它。训练一个模型需要数万亿个 token，而一个人成为一个相对聪明的个体所需的样本数据却少得多。因此，当前最先进的模型与人类在样本效率上存在巨大差异。人类的学习方式表明，存在某种学习算法、目标函数、架构或它们的组合，可以比现有模型更高效地利用样本。

解决这一问题的关键之一是让模型能够生成更高层次的抽象，并过滤掉噪声。我相信这个概念与 AI 当前的几个问题密切相关：

数据整理：我们知道用于训练模型的具体数据非常重要。如今，用于训练基础模型的大部分工作实际上集中在数据而非架构上。这是为什么？我认为，这与我们的模型学习效率低下有关。我们不得不提前为模型准备数据，而这可能阻碍了 AI 自动从数据中学习的核心潜力。
特征工程：在深度学习领域，我们一直在向更通用的方法迈进。从深度学习革命开始，我们逐步去除了计算机视觉中的手工边缘检测器和自然语言处理中的 n-gram 特征。但这些工程只是转移到了其他管道中。例如，分词就涉及隐式特征工程。这表明，在构建更高效、更能处理原始数据的模型架构方面，仍有很大的改进空间。
多模态：训练一个能够理解多种数据类型的模型的关键在于找到它们之间的核心共性并将它们关联起来。这应该能让模型通过联合利用所有模态，从而用更少的数据学习，这是多模态学习的核心目标。
可解释性和鲁棒性：为了理解模型为何产生某种输出，它需要能够生成更高层次的抽象，并且我们需要追踪它是如何捕捉这些抽象的。模型在这方面的能力越强，它就越可解释，越能抗噪声干扰，同时所需的数据也可能越少。
推理：提取更高层次的模式和抽象应该能让模型在这些基础上进行更好的推理。同样，更好的推理能力应该意味着更少的训练数据。
普惠性：最先进的模型成本高昂，包括收集和准备海量数据的成本。只有少数参与者能够负担得起，这使得该领域的进展对数据或资源不足的领域适用性较低。因此，更高效的数据模型将更具普惠性和实用性。

综合考虑数据效率与这些问题，我认为它们是相互关联的。目前尚不清楚哪些是原因，哪些是结果。如果我们解决了可解释性问题，我们设计的机制可能会让模型提取出更好的特征，进而使模型更高效；或者我们可能发现，更高效的数据利用会让模型更具可解释性。

无论哪种情况，数据效率都是根本性的，它的进步将是 AI 更广泛进步的一个指标。我期待在未来一年里看到重大的突破。

文章五：Mustafa Suleyman：行动Agents的新时代

作者：Mustafa Suleyman 是 Microsoft AI 的首席执行官，同时是 Inflection AI 的联合创始人，并创立了 DeepMind Technologies。

到 2025 年，AI 将拥有“看”的能力，它将更加智能、更为精准，并且能够真正为我们执行任务。

目前，AI 系统在理解我们真正意图方面仍然存在局限。它的感知范围主要局限于聊天窗口和少量交互场景，对我们更广泛的需求和目标缺乏全面了解。为了实现深度理解，它需要拥有与我们相同的视觉能力。

这种能力已经不再遥远。AI 现在可以嵌入到我们的软件中，与我们一起协同工作。它能够共同浏览内容，与我们进行基于视觉的互动。如果文本是最初与 AI 交互的模态，语音是 2024 年的突破性功能，那么视觉将在 2025 年扮演同样重要的角色。在 Microsoft AI，我们致力于开发一种能够与你协作的 AI 工具，它可以在浏览器中与你对话，将交互真正转变为双向且高度智能的过程。

视觉能力的引入将彻底改变人与计算机的互动方式，它比以往任何技术都更加直观、革命性。我期待在接下来的几个月里看到它的进一步突破。

与此同时，我们还将在减少“幻觉”输出方面取得显著进步。当前，错误的生成内容仍然是 AI 普及的重要阻碍。如果用户不信任 AI 的回答，其应用场景将受到限制。信任是 AI 成功的基石。幸运的是，随着模型质量和检索能力的持续提升，这一问题正在逐步缓解。

虽然“幻觉”现象可能无法完全消除，但到明年，我们在大多数主题上对 AI 的信任将接近或超越传统搜索引擎。这种转变并非源于单一技术突破，而是多方面进步的累积。它将对我们的信任和使用习惯产生深远影响。

最后，我们正迈入一个属于智能代理的新时代。这个时刻是科技领域期待已久的突破。我在《即将到来的浪潮》一书中提出了 ACI（人工能力智能）的概念，指 AI 开始代表用户采取行动的转折点。AI 不再只是提供建议或对话，而是可以直接完成任务。这样的转变至关重要，而它就在眼前。

如果我们能做好这一转变，它将既改善我们的生活品质，又推动商业和个人效率的飞跃。然而，要实现这一目标，需要确保最高标准的安全性、可靠性和责任感。此外，开发真正实用的代理系统仍面临诸多挑战，尤其是在与复杂系统集成的过程中。

趋势已经显现，行动能力即将落地。2025 年将成为关键的一年。

查看原图 564K