AI未来指北特约作者 郝博阳
编辑 郑可君
2024年12月3日,在这个离年末仅有27天的日子里,一件AI界颇具戏剧性的事件发生在字节跳动的一个前实习生身上。
北京大学研究生田柯宇凭借其在视觉生成领域的开创性工作获得了NeurIPS大会最佳论文奖。
在人工智能领域的学术殿堂中,NeurIPS的地位堪比文学界的诺贝尔奖。它创立于1987年,这个大会见证并推动了从简单神经网络到现代深度学习的整个革命进程。
但在颁奖当天,NeurIPS大概率会面对一张空椅子。因为获奖者田柯宇正面临着字节跳动八百万元的诉讼,原因是“涉嫌破坏其AI训练系统”。
公司的罪人和学术的天才
田柯宇的学术履历堪称完美:本科毕业于北京航空航天大学软件学院,随后进入北京大学攻读研究生,师从知名学者王立威教授。
他研究的重点是深度学习优化与算法,在攻读学位期间就已在多个顶级会议发表论文,包括ICLR 2023的Spotlight论文《Spark:Designing BERT for Convolutional Networks》,是其引用量最高的论文。
2021年,田柯宇开始了在字节跳动商业化技术部门的实习。在这里,他参与了一个雄心勃勃的项目:开发新一代的视觉生成模型。这个后来被命名为VAR(Visual Autoregressive Modeling)的项目,试图彻底改变AI生成图像的方式。
然而就在今年10月18日,网上开始流传字节实习生“投毒”大模型的聊天截图,给公司造成了极大损失。
这起事件的细节后续得到了更多披露。矛头很快指向了田柯宇。
一位在GitHub上发声的知情人士描绘了这场持续两个月的"数字破坏":"在这段时间里,他系统性地破坏集群代码,直接导致近30位同事的工作成果付诸东流,整整一个季度的心血化为乌有。所有的日志记录和系统审查都指向一个不容辩驳的事实。"
10月21日,界面新闻从知情人士处了解到,字节跳动内部已经调查明确此事为田姓实习生所为。
事件曝光后,这位北大高材生试图通过社交媒体自证清白,声称真正的破坏者另有其人。
(网传的田柯宇在社群中的回应)
这种"甩锅"行为很快就被接近字节跳动的人士予以驳斥。一位不愿透露姓名的字节内部人士向澎湃新闻透露了公司的处理逻辑:考虑到田柯宇的在读博士身份,公司最初选择了相对温和的处理方式,将其辞退并交由校方处理。这也在字节官方的回应中有所体现。
然而,事态在田柯宇的一系列反应中急转直下。他后续不仅多次公开否认指控,声称真正的攻击者是其他实习生,甚至报警称自己是造谣受害者。这种拒不认错、反咬一口的态度,最终耗尽了字节的耐心。"他完全没有意识到自己的错误性质和严重程度,"据澎湃新闻采访到内部人士说,"这种行为已经触及公司安全管理的红线。"最终,字节跳动决定通过法律途径追责,以儆效尤,防止类似事件重演。
据《南方都市报》11月27日报道,字节跳动起诉前实习生田某某篡改代码攻击公司内部模型训练一案,获北京市海淀区人民法院正式受理。字节跳动请求法院判令田某某赔偿公司侵权损失800万元及合理支出2万元,并公开赔礼道歉。
这也反证了当年字节极力否认的网传“1000万”的损失。
但也正是在字节工作期间,田柯宇写出了他的这篇含金量极高的获奖论文。论文的五位作者中,有四位都是来自于字节,而田柯宇是第一作者。
含金量极高的获奖论文
要理解NeurIPS最佳论文的分量,我们不妨回望2014年的一个历史性时刻。那年《Sequence to Sequence Learning with Neural Networks》都未获得最佳论文,仅仅进入了oral(口头演讲》环节。
这篇出自Ilya Sutskever、Oriol Vinyals和Quoc V. Le之手的论文不仅是一项学术成就,更像是为人工智能划出了一条全新的航道。
彼时还默默无闻的三位作者,如今已是AI领域的标志性人物:Sutskever成为了OpenAI的联合创始人,在GPT系列的开发中发挥核心作用;Vinyals在DeepMind主导了AlphaFold的突破;Le则在Google Brain推动了大语言模型的革新。他们的序列到序列学习框架,为今天ChatGPT、Claude这样的自回归语言模型奠定了理论基石。
而当年获得了最佳论文的李平教授,在回国后曾任百度首席架构师(T11)和百度研究院副院长。
NeurIPS的录用门槛极其严苛,获得这个奖的难度有多高呢?
据数据统计显示,以2023年为例,大会收到12,343篇投稿,最终接受率为26.1%。而能够入选口头报告(Oral)的论文更是凤毛麟角,通常不到1%。
在这样的背景下,VAR论文不仅入选Oral,还以近乎满分的评审分数(7,8,8,8)摘得最佳论文桂冠,其学术分量可见一斑。田柯宇北大同一实验室的同学对腾讯科技表示,此论文为第一篇来自中国大陆的NIPS最佳论文。
这篇名为《视觉自回归建模:基于下一尺度预测的可扩展图像生成》的论文,发布于2024年5月,它代表了AI系统生成图像方式的重大突破。
传统的图像生成方法就像在一页纸上从左到右、从上到下依次填写文字。VAR则采用了一种更接近人类直觉的方法:先勾勒出大致轮廓,再逐步添加细节。
具体来说,VAR包含两个训练阶段:首先通过多尺度VQVAE将图像编码为不同分辨率的标记映射,然后训练VAR Transformer来预测更高分辨率的细节。
这篇论文提出的视觉自回归建模(VAR)方法首次证明了GPT式模型可以在图像生成方面超越扩散模型——这是许多人认为不可能的里程碑。在ImageNet 256×256基准测试中,VAR将图像质量评估指标FID从18.65提升至1.73,生成速度提高了20倍。
更重要的是,VAR展现出此前只在大型语言模型中观察到的特征:清晰的幂律缩放和零样本泛化能力。
用更简单的话来说就是,系统随着规模增大而可预测地变得更好,并且能够处理它没有专门训练过的任务——这是更高级AI系统的标志。这些特性暗示了视觉AI可能与语言AI走向统一的道路。
目前,VAR的代码已在GitHub上开源,获得了超过4400颗星标。
从其技术价值和实际获得的荣誉来看,这篇论文和田柯宇的科研含金量都极高。然而,正是因此,他让前公司字节陷入了两难之境。
两难的字节
对字节跳动而言,田柯宇大模型“投毒”事件带来的打击远比表面看起来要严重。
更具戏剧性的是,当VAR论文在NeurIPS载誉而归时,字节跳动却陷入了进退维谷的尴尬境地。
作为一家渴望在AI领域与谷歌、OpenAI等全球巨头竞争的中国科技公司,字节跳动在人工智能基础研究上投入了数以亿计的资金。这项突破性研究确实诞生于字节实验室,但公司却无法在学术社区大张旗鼓地宣传这一成就——因为论文的第一作者正被公司起诉。
这种矛盾直指当前公司管理的某种困境:如何对有才干的科学家分配有效的资源,给予个体更有效的表彰?在愈发庞大的字节,这一命题也变得越来越难解。尤其在OpenAI、Anthropic等竞争对手普遍采取更开放研究政策的背景下,大公司很可能因为组织结构的问题在吸引和保留顶尖AI人才的战争中落败。
更令人深思的是,田柯宇能够如此轻易地破坏训练系统,暴露出字节在核心技术安全管控上的致命漏洞。这对于一家掌握着数亿用户数据、运营着多个AI大模型的科技巨头而言,无疑是一记响亮的警钟。