新年伊始,一位明星科学家的陨落引起了整个 AI 圈的哀悼。谷歌 DeepMind 天才科学家 Felix Hill 于 2024 年 12 月 5 日英年早逝,年仅 41 岁。自 2023 年初以来,他一直在与严重的精神疾病作斗争,因为他被查出了重度抑郁和严重的自杀倾向。
Felix Hill 是一位学术成就卓越的 AI 学者,谷歌总引用量高达 19680,在 DeepMind,他致力于开发可在交互式 3D 世界环境下理解语言以及与数学和类推推理相关的问题的代理。NLP 领域经典的 GLUE 和 SuperGLUE 基准是 Felix Hill 最为人称道的成就之一。
他的学术生涯起步于牛津大学数学专业,后在剑桥大学获得语言学硕士和计算语言学博士学位。
在 YouTube 上的视频分享截图
在加入 DeepMind 之前,Felix 曾有 8 个月的高中数学教师经历,之后在 DeepMind 担任 AI 研究者近 8 年。
他从小就读纯粹的数学,然后阅读了 McClelland 和 Rumelhart 的 PDP 书籍,对语言学和心理学产生了浓厚的兴趣,于是在剑桥大学开始了研究生院的学习,最后进入了 NLP 小组。
后来,出于对人工神经网络的兴趣,他于 2013 年访问了 Yoshua Bengio 的实验室,并与 Kyunghyun Cho 和 Yoshua 将神经网络应用于文本处理开始了一系列合作。他还与 Jason Weston 一起在纽约 FAIR 实习。
令人心碎的是,Felix 生前留下了一篇博客,揭露了他内心的痛苦和挣扎。在这篇名为《2000 亿权重的责任》的文章中,他详细描述了 2023 年母亲离世后,自己因急性精神病住进精神病院的经历,以及随后陷入的极度焦虑和自杀性抑郁状态。他也坦诚地写道,自己投身 AI 研究的初衷并非为了赚钱,但在 AI 技术的爆发期,他感到自己被迫进入了一种“战争”状态,写论文、搞研究、创业,都变得压力重重,找不到出路。
即使积累了大量财富,Felix 的内心依然感到痛苦。
以下为 Felix Hill 博客原文翻译:
现代 AI 工作的压力
过去两年,人工智能领域已经发生了不可逆转的变化。
ChatGPT 的月活跃用户接近 2 亿。2024 年 5 月,Gemini 的访问量几乎达到了 3.2 亿次,AI 爱好者现在可以使用 AI 微波炉、AI 牙刷,甚至 AI 足球。
然而,对于我们这些在 AI 领域工作的人来说,这种流行兴趣的激增既是福也是祸。当然,工资提高了,股价和市场估值也随之上升。另一方面,这种变化也带来了一系列独特的压力。
这篇博客是关于现代 AI 的压力。它针对的是那些在 AI 领域工作的人(保守估计现在大约是世界人口的 87%),尤其是那些从事 AI 研究的人。
最终,我希望讨论 AI 研究的压力可以让我们这些有幸在这个领域工作的人的生活变得更加愉快。因为,尽管目前混乱,它仍然是一个精彩、充实的职业;一个有潜力解决许多科学、哲学乃至人类自身重大问题的职业。
无处可逃
几个月前,我参加了一个好朋友的 40 岁生日派对。我们是亲密的朋友,所以我认识很多来宾,其中一些非常熟悉。但我并不是所有人都认识。
在那些我不太熟悉的人中,我注意到了一个奇怪的现象。
尽管我身体不适(稍后再谈这个),显然也不想与人交谈,但我身边还是排起了一小队人。仅仅因为我在 DeepMind 工作,人们就想和我交谈。
而且,他们不是想和我谈论足球或 80 年代音乐这样的疗愈话题。这些人想和我讨论我尽量避免思考的事情:人工智能。虽然有这么多人对我的工作感兴趣是令人受宠若惊的,这也让我想起了过去两年的变化有多大。银行家、律师、医生和管理顾问们都想听我对 ChatGPT 的看法;尽管很少有人声称直接在工作中使用这样的大型语言模型,但他们确信人工智能领域正在发生一些他们应该知道的事情。
作为一名研究人员,我相信你能理解在社交场合无法关闭工作模式的感觉。
但情况更糟。我甚至在家里也不安全。
我早已停止看新闻,以免引发焦虑。但即使是在看足球、VH1、蒙塔尔班诺检察官,或是埃莱娜·费兰特的那不勒斯四部曲的优秀电视改编时,广告中也充斥着对人工智能的引用。
在那个时候,我经常考虑收拾行李,跨越大陆,加入一个孤立的教派。尽管如果连 Vipassana(一种冥想修行)在某种程度上也被人工智能渗透了,我也不会惊讶。
竞争无处不在
事实上,几家大公司似乎在竞争开发最大、最好的大型语言模型本身,无论为谁工作,这本身就是一种压力。
目前从事人工智能研究的感觉就像是参与一场战争。从希特勒到舒尔茨,众所周知,参战可能导致严重的结果,包括精神病、离婚和自杀。
当然,这并不是将参与人工智能研究等同于“字面意义上的战争”中的肉体战斗。但根据我自己的亲身经历,这些类比是真实的,尽管可能有些牵强。
研究人员背 KPI 很痛苦
在工业界,研究人员通常不习惯他们直接背 KPI,也就是他们的工作直接或立即就能对雇主的财务状况带来改善。当然,许多研究人员都会梦想凭一己之力造福全公司,以前即使出现这种情况也是十年一遇的事情。
在大多数情况下,今天对大模型的基础研究结果是小的,可能是模型性能的短期波动。然而,由于公众估值与大模型的表现紧密相连,这些波动反过来可能导致股价出现数十亿美元的波动。
这种动态当然非常紧张,这不是 AI 研究人员在研究生院、博士后期间,甚至 2022 年之前工作中准备好的事情。
一切都是金钱在作祟
大多数 AI 研究人员,尤其是我们这些上了一定年纪的人,并不是为了赚钱而从事研究的。因为做自己喜欢的工作而赚很多钱听起来像是万灵药,但它也可能引发极度的焦虑。特别是如果推动你收入增加的外部因素不在你的控制之内,或者有让你对你的工作的喜爱程度大大降低的效果。
无论是否与 AI 有关,有大量证据表明突然积累财富可能会导致各种问题;只需看看那些在多年努力后终于大获成功的演员或歌手。成瘾、破裂的关系、破裂的友谊甚至自杀只是一些更常见的症状。这些当然是我能够感同身受的症状。
科学家处境艰难
规模、简洁性和大模型的有效性使得进行相关“科学”研究变得困难,即在意义上它立即使大模型变得更好。
优秀的研究员们已经宣扬了 Rich Sutton 的《苦涩的教训》:除了规模之外,几乎不需要创新。而且,即使理论上可能存在实质性的创新(确实可能存在),实现这些创新通常需要在不同条件下反复训练最大的大模型。这甚至不是最大的公司都能承担得起的。对于一个“普通”的研究科学家来说,这可能让人感到无比沮丧和难以应对。
这些条件对于习惯在小型(5-10 人)团队中工作的工业科学家来说已经很困难了。但对于学术界的人们来说,这种挑战肯定更加尖锐:博士生、博士后以及人工智能 / 计算机科学 / 机器学习领域的教员。
是否将洞见发表出来也成两难选择
在学术界,我们这些研究者可以(也应该)继续发表通过实验大型语言模型(LLMs)所获得的洞见,但对于工业界的科学家来说,发表的问题就不那么明确了。
发表长期以来是科学过程的核心部分,也一直是人工智能研究的中心信条。我与许多人工智能研究者,特别是研究科学家交谈过,他们都同意我的看法,认为发表感觉是我们职业生涯中至关重要的一个环节。
然而,至少在工业界,发表是否是研究的一个可行成果,在过去两年中变得越来越不清晰。那些能够提升大语言模型性能的小技巧,可能相当于大语言模型战争中潜在的关键武器。是否将这些秘密公之于众,对资助研究的组织是否有利,始终是一个微妙的问题。
这一切都意味着研究人员常常对自己的创意命运毫无头绪,至少在我的情况下,这可能造成巨大的压力。
科学家创业,缓解不了焦虑
当然,逃离这些忧虑的一个可能途径是构思一个科学愿景,筹集一些资金,成立一家初创公司。实际上,当前人工智能初创公司的激增(无论大小)显示了有多少科学家选择了这条路线。
但是,成为创始人并不能保证避免与压力相关的问题。实际上,众所周知,这是非常压力重重的;即使在当前投资者热情高涨的情况下,许多资金充足的人工智能初创公司也会失败。我从自己的经验中知道,作为创始人是一段特别孤独的旅程。这无疑是目前有抱负的科学家的一个可行选择,但并不是一个能让科学研究变得容易的选择,也不是一个能减轻压力的选择。
为什么我要写博客讨论压力?
过去两年,在人工智能的世界里是混乱和疯狂的,但对我个人来说,也是特别动荡的时期。
2023 年 4 月,我的母亲在与阿尔茨海默病的长期斗争后去世。那时,我因急性精神病住进了精神病院,压力很可能是一个重要的因素。在接下来的 12 个月里,理论上我在恢复,但实际上,我处于极度焦虑和自杀性抑郁的状态。在这段时间里,我非常幸运地拥有理解我处境(以及我对公司的价值)的雇主,他们提供了持续的治疗和道义支持。
在经历了另外 6 个月的危及生命的抑郁之后,我开始感觉好转,最近感到能够写下我的经历。我了解到压力和焦虑是形影不离的;实际上,它们可能是同一回事。当然,像任何适应性特征一样,焦虑(例如,围绕生产力)可能有好处,但当焦虑变得恶性时,后果可能相当严重。
正是在反思过去两年的人工智能经历,同时尝试重新学习如何成为一名人工智能研究者的过程中,我获得了我在这篇博客中分享的洞见。当然,分享这些洞见不会普遍解决这些问题,但在最黑暗的时刻给我希望的一件事是知道我并不孤单。如果你现在正在遭受痛苦,请相信我——你并不孤单。
社交焦虑
我已经谈及了许多可能正在困扰当前从事人工智能研究者的焦虑和压力的催化剂。但有一种压力我尚未提及,因为我自己幸运地从未经历过。相反,我是通过与朋友和同事的亲密对话了解到的。
那就是社交焦虑。
据朋友们说,那些社交焦虑的人发现群体互动具有挑战性。在现代人工智能的世界里,这尤其艰难,因为大型项目团队和大规模(通常是跨大陆的)合作是必不可少的。目前行业内的高流动性只会让事情变得更糟,因为已经建立的团队(通常充当社交‘安全网’)可能在一夜之间被摧毁。流动性还可能导致信任问题,因为以前可靠的盟友可能转投‘敌对’的研究小组。
好消息是,社交焦虑,就像我迄今为止讨论的所有焦虑或压力的表现一样,是可以克服的。这个过程从培养自然的支持网络开始,比如家人和‘非人工智能’的朋友。但至关重要的第二步是我们所有从事人工智能工作的人开始并持续进行关于压力的坦诚对话。
所以,请在推特上发表或评论你自己的经历,让我们看看是否能让人工智能研究不仅成为一个充满活力和智力挑战的地方,也是一个富有同情心和善良的场所。
作者:Felix Hill,2024 年 10 月
“我戒了 X 15 天,今天登陆后得知了 Felix Hill 去世的悲伤消息。”有网友说道。
Felix Hill 的离开震惊了 AI 圈,不少知名科学家都对他进行了深切缅怀。
Felix Hill 是致力于基础语言理解的研究科学家,在他逝世后,很多知名人士对他表达了缅怀。DeepMind 计算机科学家 Nando de Freitas 在推特上表示:
Felix Hill 是一个了不起的人。他不仅极其聪明、富有创造力和激情,而且在工作中非常乐于助人和善良。他拥有一种非常特别的深思熟虑的思维方式——这是我深深欣赏的稀有类型。
在工作之外的许多场合,他为其他人包括我自己,带来了乐趣、喜悦和幸福。
我对他帮助拉丁美洲教育的热情以及他学习用西班牙语进行演讲的能力感到惊讶。他是人工智能包容性的真正捍卫者。
愿他安息,愿他的话语为我们在惊涛骇浪中指明方向。
纽约大学计算机科学和数据科学教授 Kyunghyun Cho 怀着沉痛心情在 2025 年的第一天写下一篇纪念 Hill 的文章。他在开头写道:我是在 2024 年 12 月 9 日写下这篇文章的,但不敢发布,因为我不想也不相信当时发生的事情。现在想起来我的心还是很痛,但我还是在 2024 年的最后一天发布了这篇文章,以纪念 Felix。
他们相遇在蒙特利尔,当时 Kyunghyun 是博士后,而 Felix 是访问学生,两人因为一次关于语法结构的学术讨论而成为好友。Kyunghyun Cho 回忆道,23 年 3 月,Felix Hill 就因健康问题没有参加达蒙得维的亚的 Khipu,24 年 6 月 Kyunghyun 给 Hill 发消息等了两个月才收到回复。24 年 12 月底,收到了 Douwe 发来的 Whatsapp 消息后,立即尝试联系 Felix,打了 Whatsapp 电话,也给他打了手机,但这些电话都打不通。
与 Felix 有过学术分歧的 Gary Marcus 在听到消息后也表示:
我和 Felix Hill 这些年来在一些思维问题上存在激烈的意见分歧,但他提出的问题都是切中要害的,听到这个消息真是令人心碎。RIP, @FelixHill84
与Hill 素未谋面的英伟达高级研究科学家 Jim Fan 也在推特上写道:
这是我读过的最令人心碎的博客,因为它如此真实,如此贴近人心。作者已经离开了我们。我泪流满面。人工智能不应该是200B个权重堆砌而成的压力和痛苦。它曾经是充满咖啡香的顿悟时刻,是令人兴奋的深夜arXiv探索,是能让我们脸上露出笑容的绝妙想法。但是所有涌入的资本和关注似乎都在迫使所有人竞相触底。
黄仁勋总是告诫我们不要使用诸如“击败这个、碾压那个”之类的措辞。我非常喜欢这种观点。我们来这里是为了提升整个生态系统,而不是将任何人送入地狱。我喜欢把我的工作看作是扩大蛋糕。我们需要先一起把蛋糕烤好,越大越好,然后再进行分配。知道我们团队的工作推动了机器人技术的发展,哪怕只是一点点,也让我感到欣慰。
人工智能不是零和博弈。事实上,它也许是人类有史以来玩过的最具正和性的游戏。我们作为一个社群应该以这种方式行事。互相照顾。向“竞争对手”传递爱——因为从长远来看,我们都是加速未来的共同作者。
我从未有幸在现实生活中认识Felix,但我喜欢他的研究品味,并为他的每一篇新论文都设置了Google Scholar提醒。他在智能体和视觉语言模型方面的工作对我的影响很大。他本会是一个很好的朋友。我想认识他,但我再也无法做到了。
RIP,Felix。愿来世没有战争要 fighting。
然而,让人担忧的是,Felix Hill 所担忧的情况,其他 AI 从业者也深有体会。
随着 AI 技术的飞速发展和应用范围的扩大,越来越多的研究者和从业者开始感受到前所未有的压力和焦虑,当在搜索栏中搜索“AI 焦虑、AI 压力“等词条时,不少与之相关的结果触目惊心。
Reddit 社区上一位职位是数据科学家的用户发帖称自己作为 AI 从业者感觉压力很大。他写道:
“我感觉自己永远无法跟上这种快速的发展……每隔一个月,大型科技公司就会推出新产品,这些产品具有巨大的潜力,也有很多东西需要学习。当我最终弄清楚了新的计算机视觉模型是如何工作的时,就会有另一个模型和 GAN/NLP 中的扩展用于商业应用。 更不用说我目前正在从事两个不同领域(预测和计算机视觉)的项目,有太多的事情要做和学...... 要去掌握的东西实在是太多了。你们是如何处理每隔一天的大量新知识的?”
也有人认为,技术越复杂,我们要学的、要做的就更多。
“虽然所有这些新技术似乎都在引领我们走向未来,并且所有最优秀的玩家都立即装备了这些技术,但现实远非如此。技术只会变得越来越复杂,许多公司仍然依赖过时且糟糕的方法来记录、存储、传输、清理 / 整理和记录数据。甚至不要从再现性开始。因此,在这些公司弄清基础知识并准备好正确利用机器学习和人工智能之前,我们还有很多工作要做(这并不完全是学习最新技术)。”
参考链接:
https://x.com/NandoDF/status/1874917318549242132
在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。