天空精读| AI教父谈世界没准备好,杨立昆最新讲座,Perplexity CEO哈佛讲创业,YC总裁谈AI智能体Manus突破

【城主说】即日起,天空之城和大家日常分享最新AI科技长访的内容精读合集。

感谢科技的进步,每一个长访都可以有万字全文,但或许更稀缺的是时间。希望本城日常精读可以帮助大家在最有限时间里掌握最新的科技商业认知。同时附上完整视频和全文的链接,感兴趣的同学可以继续针对特定内容深入了解。

天空科技商业精读04.28| 内容目录

• AI教父辛顿:世界还没有为即将到来的一切做好准备 20250426

• Yann LeCun教授讲座 @新加坡国立大学NUS120周年20250427

• Perplexity CEO:从学者到90亿美元AI先驱 |哈佛商学院创业峰会 20250425

• YC总裁:AI智能体的下一个突破就在这里(Manus) 20250408


AI教父辛顿:世界还没有为即将到来的一切做好准备 20250426

图片

视频和全文链接: 

https://www.bilibili.com/video/BV1irLCzME2L/

内容精读:

杰弗里·辛顿因其在机器学习领域的开创性工作获得认可,他在1986年提出的使用神经网络预测序列中下一个词的概念,奠定了当今大型语言模型的基础。尽管他预见到人工智能可能在教育、医学和气候变化等领域带来变革,但他对人工智能进展的速度深感担忧,将其比作饲养一只幼虎,无法确定其长大后是否会构成威胁。辛顿预测人工智能可能加剧独裁统治,增强黑客能力,并大胆猜测人工智能有10%到20%的风险会取代人类,他甚至为此将存款分散到三家银行。核心问题在于,我们能否设计出永远保持仁慈、不想掌控一切的人工智能。          

辛顿担忧,科技公司间的激烈竞争,正驱使它们为了短期利润而愚蠢自私地将全人类置于危险之中,它们甚至游说反对加强本就薄弱的人工智能监管。这种对当权派的反抗精神贯穿辛顿的人生:他曾因美国人工智能资助与国防部挂钩而移居加拿大,并在神经网络被视为不可行时坚持研究数十年。他将这种逆向思维和坚持归因于家庭影响,包括他的昆虫学家父亲,以及更早的先辈如乔治·布尔和乔治·埃佛勒斯,并认为自己继承了对机械事物运作原理的好奇心。          

辛顿坦言,他喜欢“修补”事物,无论是修理损坏的相机滤镜,还是花费大量时间调整神经网络模型以理解其行为,这种动手探索是他研究方法的一部分。他回忆起与他最著名的门生、后来成为OpenAI首席科学家的伊利亚·苏茨克维尔一起观察模型学习并预测结果的时光。辛顿对苏茨克维尔参与罢免OpenAI首席执行官萨姆·奥特曼(据报道是出于安全担忧)表示赞赏,但也认为苏茨克维尔此举很“天真”,因为此举危及了员工即将获得的巨额财富,最终奥特曼回归,苏茨克维尔离职。          

辛顿同样对谷歌等前雇主及其他前沿人工智能公司(包括Meta)表示失望,批评它们违背了不将人工智能用于军事目的的承诺,并认为它们在安全投入上严重不足,例如用于安全研究的计算资源比例远低于应有的水平(如三分之一)。他认为需要政府监管,但对此并不乐观。尽管担忧未来,辛顿表示自己并未感到绝望,主要是因为他和其他人一样,在情感上难以真正接受这个历史性的特殊时刻——一个一切可能在短时间内发生前所未有规模剧变的时刻。各大人工智能实验室在被问及安全研究投入时,虽声称重视安全并原则上支持监管,但大多回避具体数字,并反对现有的监管提案。

❖ ❖ ❖

Yann LeCun教授讲座 @新加坡国立大学NUS120周年系列 20250427

图片

视频和全文链接: 

https://www.bilibili.com/video/BV1EALmzDEFV/

内容精读:

在新加坡国立大学120周年杰出讲座系列中,Meta副总裁兼首席人工智能科学家、纽约大学教授杨立昆(Yann LeCun)分享了他对人工智能创新未来的见解。他强调,尽管当前人工智能特别是大型语言模型(LLM)取得了显著进展,但它们距离实现真正类似人类的智能还有很长的路要走。构建类人智能系统的目标并非取代人类,而是增强人类智能,这需要机器能够理解物理世界、具备常识、推理、规划能力和持久记忆。          
杨立昆指出,当前主流的LLM本质上是基于自回归预测进行训练的,即根据之前的词元预测下一个词元。虽然扩大模型规模和数据量能提升其能力,但这存在根本性局限,无法带来真正的理解、规划和推理能力,更无法解决从未见过的新问题。他认为,仅仅依赖文本数据进行训练是远远不够的,人类婴儿通过感官(尤其是视觉)在短短几年内接收的信息量远超当前LLM的训练数据量,这说明了理解物理世界对于智能的重要性。          
他批判了当前AI领域,特别是LLM存在的局限,例如缺乏对物理世界的深刻理解(莫拉维克悖论),无法进行有效的规划和推理,以及学习效率远低于人类和动物。他认为,过度迷信LLM的扩展能力是错误的,这是AI发展史上反复出现的错误认知。          

为了克服这些局限,杨立昆提出需要新的架构和学习范式。他倡导构建能够通过观察和互动学习世界模型的AI系统。这种世界模型能够预测行动的后果,是实现规划和推理能力的基础。他强调了通过优化进行推理(类似人类的系统二思维)的重要性,这比LLM的固定计算量前馈推理更为强大。          

他重点介绍了自监督学习(SSL),特别是“联合嵌入预测架构”(JEPA),作为学习世界模型的关键方法。与试图预测输入(如视频像素)细节的生成式方法(如GAN、扩散模型)不同,JEPA旨在学习输入的抽象表示,并在这些表示空间中进行预测。他认为,预测高维输入的每一个细节极其困难且低效,而学习合适的抽象表示进行预测才是更有效的路径,这类似于科学研究中寻找关键变量进行预测的过程。他展示了iJEPA、vJEPA等方法在图像和视频理解上取得的优于生成式方法的初步成果,并认为这类方法有望让机器像婴儿一样学习世界的运作规律,包括直觉物理学等常识。          

杨立昆还指出了分层规划是实现高级智能的另一个重大挑战,即系统需要能像人一样将复杂目标分解为子目标,并在不同抽象层次上进行规划。当前AI系统在这方面能力欠缺,这是一个亟待解决的核心问题。          

最后,他提出了一些颇具争议的建议:研究重心应从生成模型转向JEPA等非生成式表示学习方法;放弃概率模型而采用基于能量的模型;摒弃对比学习,倾向于正则化或蒸馏方法;并尽量减少对效率低下的强化学习的依赖。他总结道,LLM虽然有用,但对于追求真正的人工智能(他称之为AMI,高级机器智能,而非AGI)而言可能是一个“弯路”。未来的突破在于开发具备世界模型、推理、规划能力,并能理解物理世界的AI系统,这有望在未来3到10年内实现,并最终带来真正有用的智能机器人。          
当前,人形机器人制造的热潮席卷业界,众多公司投身其中。然而,一个公开的秘密是,我们尚未掌握赋予这些机器人足够智能以实现广泛应用的技术,现有能力仅限于狭窄任务。这些公司寄望于未来三到五年内人工智能取得突破性进展,以匹配其硬件的商业化进程,但认为当前技术足以支撑通用人形机器人的想法是错误的。          

开源平台的必要性日益凸显,它不仅能让资源有限的学术界参与到昂贵的基础模型训练中,贡献智慧,也关乎维护国家主权以及文化和语言的多样性。          

大型语言模型(LLM)无疑极具价值,特别是在提升编码效率、辅助理解复杂文档等方面,它们是实用的生产力工具,并将持续改进可靠性与多语言能力。但不应将其视为通往人类水平人工智能(AGI)的路径。它们很可能成为未来更复杂AI系统的组成部分,例如负责将系统的抽象思想转化为连贯的文本,但它们本身并非实现AGI的关键。          

面对人工智能引发的就业焦虑,未来并非黯淡无光。尽管各行各业包括教职都将受到影响,但经济学家的分析指出,技术革命虽会改变工作性质,却不会导致工作岗位的枯竭,因为待解决的问题层出不穷。技术的经济渗透需要时间,对生产率的显著影响往往需要十多年才会显现。AI带来的GDP增长增量预计虽可观(年均约0.7%的额外增长),但这并非意味着短期内会出现大规模失业。          

因此,对于年轻人而言,学习具有长久生命力的基础知识和方法论至关重要,例如选择基础科学(如量子力学)而非短期应用技能(如特定移动应用编程)。培养快速学习新事物的能力和深度思考能力,才能在技术飞速迭代的时代立于不败之地,甚至成为管理AI系统的专家,拥有深厚的技术理解将是巨大优势。          

在金融等特定领域,AI的预测能力需克服市场的高度随机性。JEPA这类旨在消除噪声、在抽象层面进行预测的系统或许能提供新思路,但尚无定论。机器人领域同样需要突破,仅靠视觉远不足够,触觉等多模态感知对于与物理世界交互至关重要,目前这一领域开发尚不充分,但JEPA等方法有望整合不同模态信息。Meta等公司已将具身人工智能和机器人技术视为重要的拓展方向。          

值得注意的是,许多科学领域的AI突破(如AlphaFold)并非依赖LLM,而是采用专门设计的模型和自监督学习等技术。实现完全自主的AI科学家仍是遥远的目标,且其核心可能并非LLM,而是更接近于能构建世界模型、进行分层表征和规划的架构。强化学习(RL)在智能体系中的作用更像是“锦上添花”,而非核心驱动力,其样本效率问题限制了在现实世界(非游戏)的应用。          

像Llama这样的开源基础模型,如同操作系统Linux,提供了强大的基础设施,而非即用型产品。其真正价值在于允许开发者根据特定需求进行微调、定制和本地化部署,降低成本并促进创新,从而减少幻觉等问题。训练这些模型需要极其多样化的数据,不仅包括自然场景,还需包含物体交互、不同环境、甚至简化图解化的内容(如动画片),以帮助系统学习世界的基本运行规律。          

展望未来,我们与数字世界的互动将深度依赖AI助手。为了避免信息流被少数科技巨头垄断,维护全球文化和语言的多样性(全球约6000种语言及大量非数字化文化信息),开源是必然趋势。需要构建能理解全球语言、文化、价值体系的基础模型,这无法由单一实体完成,而应由全球多方协作。基础模型将成为公共基础设施,通过全球性的合作伙伴关系共同训练,正如互联网最终由开源软件栈支撑一样。这为新加坡等地提供了契机,可凭借算力、人才和区域数据优势,成为共建全球共享AI基础的枢纽,确保AI服务于全人类的多元需求。开源最终将在人工智能领域胜出,只是时间问题。

✧ ✧ ✧ ✧ ✧

Perplexity CEO:从学者到90亿美元AI先驱 |哈佛商学院创业峰会 20250425

图片

视频和全文链接: 

https://www.bilibili.com/video/BV154LyzqEA7/

内容精读:

2025年哈佛商学院创业峰会迎来了重启,汇聚了学生、校友及社区领袖,展现了学院浓厚的创业精神。此次峰会的核心环节之一是X Fund管理普通合伙人Patrick Chung对Perplexity首席执行官Arvind Srinivas的访谈。Arvind拥有印度理工学院马德拉斯分校的工程学位和加州大学伯克利分校的计算机科学博士学位,他于2022年联合创立了人工智能驱动的对话式搜索引擎Perplexity。该公司在短时间内实现了显著增长,月查询量超6亿次,估值达90亿美元,并获得了杰夫·贝索斯和英伟达等知名投资者的支持。          

访谈中,Arvind分享了他从学术界走向创业的历程。他出身于重视知识而非财富的印度家庭,父母甚至更为他的博士学位感到骄傲。尽管本科学习电气工程,但他通过参加机器学习竞赛(并意外获胜)以及后续实习,接触并深入学习了机器学习和神经网络,包括在线学习吴恩达、杰弗里·辛顿的课程,并在图灵奖得主Yoshua Bengio处实习,最终进入伯克利深造。在OpenAI和DeepMind的实习经历让他认识到,将想法付诸实践、处理实际数据并完成端到端工作的能力至关重要,这推动了他走向创业。OpenAI前首席科学家Ilya Sutskever的直接反馈,特别是强调生成式无监督学习结合大规模算力和数据是通往通用人工智能(AGI)的关键,深刻影响了他的研究方向。          

Arvind认为,《硅谷》这部剧虽幽默却真实反映了创业生态,从零创造并交付产品的想法极具吸引力。当GitHub Copilot等产品让他“感受到AI”的实际应用时,他意识到创办AI公司的时机已到——AI开始显现威力,但尚未完全成熟。Perplexity于2022年8月应运而生。寻找联合创始人时,他先与学术上相识的Dennis Yarats合作,随后说服了Dennis在Quora认识的、当时正考虑职业变动的优秀工程师Johnny Ho加入。他们最初尝试了文本到SQL的应用,但关键的认知是初创公司必须快速迭代、发布产品、获取用户反馈并据此调整,而非在“想法迷宫”中空转。通过展示产品演示而非演示文稿,他们成功吸引了种子轮投资者,这反过来又帮助吸引了顶尖的创始工程师。团队不断迭代,最终聚焦于核心理念:改变搜索这一基础软件的形态,从关键词转向问题或语音输入,并提供带有来源、可验证的即时答案,这一理念源于学术写作中引用溯源的要求。Perplexity的核心产品原型在一个周末黑客松(基于前期准备)后诞生,并通过小范围试用迅速验证了价值。          

对于Perplexity与谷歌的关系,Arvind认为两者并非直接竞争所有场景。谷歌在处理简短、导航式搜索(如输入“天气”)方面通过“读心术”般理解用户意图已做到极致,Perplexity在此难有改进空间。然而,谷歌在回答需要信息综合的复杂问题(如“下雨天去哈佛该穿什么?”)方面表现不佳,这正是Perplexity的优势所在。谷歌受制于广告模式,难以对所有查询提供直接答案,因为这会减少链接点击和广告收入,导致其搜索结果页面日益混乱。Perplexity则尝试不同的模式,包括与内容出版商分享收入,以激励高质量内容的创作,这与谷歌让出版商依赖AdSense的模式不同。          

针对Perplexity只是“API封装器”的误解,Arvind强调,虽然早期版本可以快速构建,但公司后续投入巨大,已建立自有模型、索引和爬虫基础设施,并开发了复杂的、按步骤思考的“研究代理”。即使所有第三方模型停止供应,Perplexity也能基本维持现有服务质量。公司对与苹果等平台合作持开放态度。关于此前竞标TikTok的愿景,他希望能将信息流变得更具生产力,利用AI进行事实核查,并利用TikTok的搜索入口构建下一代搜索体验,从而更好地与谷歌竞争。          

从学术界到创业界,Arvind认为核心思维方式有所转变,从重思考转向重行动和迭代学习,但学术界的严谨性,如小规模实验和批判性思维,在创业中同样重要。他对AI的未来持“加速主义”乐观态度,希望通过广泛可及的AI(如iPhone模式)避免权力集中带来的风险。他认为开源是制衡AI领域垄断的关键力量,不断涌现的高质量开源模型确保了技术的普及。展望未来,他认为AI的下一个重大突破可能在于实现极长的上下文处理能力,让AI拥有更持久的记忆和理解力,超越当前依赖检索增强生成(RAG)的模式。          

在问答环节,Arvind提到,AI领域仍面临计算能力(GPU)短缺的限制,成本是挑战,期待更高效的芯片(如英伟达Blackwell)和知识蒸馏技术缓解压力。他再次强调开源和透明度(展示来源和思考过程)是确保AI伦理和防止叙事被单一公司操控的关键。他预测,随着AI能力的增强,传统搜索引擎优化(SEO)的重要性将下降。对于公司战略,Perplexity专注于短期(季度)规划,当前重点是扩展到天气、体育、购物、旅行等结构化答案垂直领域,开发浏览器以整合个人数据实现个性化,并探索原生交易功能。他强调公司文化是快速适应,从不成功的项目中学习并迭代,例如将Perplexity Pages的技术复用于Discover Feed。他认为量子计算目前对产品公司而言为时尚早。          

最后,Arvind分享了他的个人感悟:创业路上要保持冷静,认识到情况“永远不会像看起来那么好,也永远不会像看起来那么糟”。他引用埃隆·马斯克关于永不放弃的精神作为激励,强调坚持是成功的关键。

✧ ✧ ✧ ✧ ✧

YC总裁:AI智能体的下一个突破Manus就在这里 20250408

图片

视频和全文链接: 

https://www.bilibili.com/video/BV1bBLyzFET3/

内容精读:

随着OpenAI、Google、XAI及DeepSeek等平台推出可用的AI代理,一个新的竞争者Manus也已登场,这个全新的代理式AI平台在全球引发关注。Manus作为首个通用AI代理的早期预览版已经发布,并迅速激起热议,被部分人视为中国继DeepSeek后的又一重要时刻,称赞其为体验过最令人印象深刻的AI工具和最先进的AI计算机使用方式。与前辈不同,Manus并非仅是专业的聊天机器人,而是致力于成为真正的通用AI代理,但其访问受限,其实际变革能力仍待观察。          

Manus的核心创新在于其多智能体人工智能系统,该系统能处理从旅行规划、财务分析到文件搜索和行业研究等多样化任务。其运作方式并非依赖单一大型神经网络,而是像一位执行官,协调一个由规划智能体、多个专业子智能体(负责知识、记忆、执行等)组成的团队。系统首先分解用户任务为子任务,规划执行路径,然后分配给相应的子智能体。这些子智能体共享上下文,各自拥有专业领域,并能调用包含29种集成工具的广泛工具集,智能决策使用何种工具完成网页导航、代码运行或信息提取等任务。最后,执行者代理整合所有子任务的输出,生成最终结果。          

该系统由复杂的动态任务分解算法驱动,能自主拆解复杂指令。为保证稳定性,Manus团队研发了“思维链注入”技术,使代理能主动反思和更新计划。其核心模型采用了Anthropic的Claude 3.7 Sonnet,并无缝集成了YC Company浏览器等开源工具及Startup E2B的安全云沙盒环境,具备强大的跨平台执行能力。Manus擅长创建旅行行程、财务分析、教育内容,以及处理结构化数据库编译、保险比较、供应商筛选和演示文稿制作等实际任务。在衡量AI代理推理、多模态处理、网页浏览和工具使用的Gaia基准测试中,Manus得分高达86.5%,超越了OpenAI研究平台的74%,接近人类平均水平的92%。          

尽管表现亮眼,Manus也引发了关于应用层AI初创公司实质上是否为“封装器”的讨论。批评者认为Manus只是将现有基础模型与工具调用拼接起来。然而,这种观点忽视了许多成功的AI产品(如Cursor、Windsurf、Harvey)也采用了类似模式,通过集成现有LLM、API和特定领域工具来创造价值。成功的封装器通常通过直观UI、专有评估、精细微调和精心设计的多智能体架构脱颖而出。Manus联合创始人亦表示,他们选择与模型开发正交的路径,乐见新模型的发布。          

Manus的多智能体编排带来了成本优势(每任务约2美元,低于某些集成竞争对手),并提供了更高的透明度和用户控制,允许用户检查、定制甚至替换子智能体和工具。其暴露文件系统的特性让用户能直观了解代理工作过程,预示了未来桌面AI应用的潜力。然而,其局限性也存在,如任务复杂时跨代理协调难度增加,且其当前的优势(用户体验、微调、集成)易被模仿。封装器模式虽能快速部署和迭代,但也易受API定价或供应商政策变化的影响。最终,关键挑战并非封装器模式是否可行,而是如何为产品建立可持续的差异化,例如通过投资难以复制的专有评估、深度嵌入用户工作流或集成独特平台与数据集。归根结底,AI领域的成功往往不取决于重新发明基础模型,而在于谁能将现有模型有效整合,创造出用户真正喜爱的产品。