Seed校招博士自述：我为什么选择来字节做大模型

机器之心

2024-11-08 10:50发布于北京机器之心官方账号

机器之心经授权发布

作者：张逸霄

原文来自知乎博主张逸霄对“大家能分享一下当前博士就业的情况吗”的回答。

人在英国，刚过答辩。今年拿了腾讯 AI Lab（青云计划）、字节跳动（Seed），国外有之前实习的 Sony Research 和 Yamaha 的 return offer，国外也有正在面试的 Adobe 和 Meta。这些工作机会的方向都和我的博士工作完全 match，没有转方向的痛苦。

最后，我接了字节 Seed（豆包大模型）团队的 offer，结束秋招。

背景介绍

我是一个方向比较独特的博士，做的是音乐生成。今年年底四年顺利毕业，最后的选择是：接了字节 Seed 的 offer，在工业界继续进行研究。

张逸霄主页：https://ldzhangyx.github.io/

逛知乎的这个方向的同行们应该多少读过我在知乎写的鸟瞰 ISMIR 知乎专栏系列。和很多人一样，我是从其他方向转来计算机音乐方向的，早年我边看边学，留下了一些笔记，现在还挂在知乎里有人不时点赞。

人工智能可以作曲吗？1141 赞同・116 评论回答

链接：https://www.zhihu.com/question/22213757/answer/1168290626

如何看待中央音乐学院首招音乐人工智能方向博士生？更广泛来说人工智能在音乐领域的应用与前景？1083 赞同・88 评论回答

链接：https://www.zhihu.com/question/314142299/answer/612302579

虽然 AIGC 火起来的这两年，看上去音乐生成已经成为一片红海，但我入行的时候并不是这个样子的。甚至我之所以出国读博，是因为国内只有屈指可数的两三个老师有计划培养这个方向的博士（当然现在国内稍微多了一些，央音、上交、港中深等一些学校都开始招收 phd 和工作岗位）。

我在读博的时候，认真考虑过自己博士毕业之后会不会没饭吃，会不会被迫转行。确实是一个扎扎实实的穷方向。大部分人都是在为爱发电，扎扎实实将自己的博士四年投入到音乐方面的各种研究之中。

但是这两年大模型和 GenAI 的风一吹，音乐生成方向突然又行了。我算是一个比较幸运的学生，在行业的 bar 不高的时候入行，在市场壮大之际毕业。

找工作过程中，其实有很多感慨。

1. 找工作是一个长久的过程。很多时候，在读博期间建立的 connection 能很大程度上帮助我拿到面试，找到工作。在我秋招的过程中，给我面试的公司，无一例外都是之前建立过联系的同行。我在找工作的时候，能把简历直接递给 hiring manager 之后，整个流程都很顺利。

2.一个领域的工作机会，很多时候更大的决定因素并不仅仅是个人努力。我 2019 年的时候还在做音乐结构分析，而 2023 年之前，计算机音乐方向都是不温不火的方向。现在生成方向搭上了 GenAI 的快车，让更多同行能拿到高薪，但这和他们的选择并没有什么关系；一个公司有没有给 offer，很多时候更可能是很多其他因素导致了这个结果。

这个时候，有一句勉励的话可以恰如其分地用在这里：

世界上没有快乐或痛苦；只有一种状况与另一种状况的比较，只是如此而已。只有曾身受过最深切的悲哀的人，才最能体会最大的快乐。摩莱尔，我们必须经验过死的痛苦，才能体会到生的快乐。所以，我心爱的孩子呀，享受生命的快乐吧！永远不要忘记，在上帝揭露人的未来以前，人类的一切智慧是包含在这四个字里面的：“等待” 和 “希望”。

确实是这样的。

煎熬的毕业前半年

毕业的前半年无疑是煎熬的。因为从这个时候开始，全职的 offer 就可以开始陆续谈下来了。

我在英国玛丽女王大学 (Queen Mary University of London, QMUL) 的数字音乐中心 (Centre for Digital Music, C4DM) 读的 phd program。实验室近几年保持着 70 余位研究计算机音乐的 phd 学生，从规模上应该是全世界最大的计算机音乐实验室。

这个 phd program 与一般的英国 phd program 的差别在于：英国传统上是三年制，而我的 phd program 是四年制，第四年结束之后可以提交学位论文，这个阶段最长可以有一年。我们称这个阶段为 “writing-up” 阶段。这就使得我接受的 training 像是一个半英半美的结合体。

UKRI Centre for Doctoral Training in Artificial Intelligence and Music www.aim.qmul.ac.uk/

链接：https://www.aim.qmul.ac.uk/

我本科毕业之后没有直接读博，而是 gap 了一年之后申请了 phd。在第一年经历了上课的过渡期之后，我在博二博三期间的产出其实并不算多，加上实验经历并不如同学们那么充分，于是我经历了长达一年的可怕阶段：做什么实验，什么实验 fail。我又是一个科研自尊心很强的人，博三结束之后，我焦虑地整夜整夜睡不着觉。

事实上，那是光明之前的最后黑暗，因为构成我毕业论文的主要的三篇论文，都是在我博三结束到博四期间构思完成的论文。

那个时候要撑过来，其实很感谢我的博导 Prof. Simon Dixon。用我们实验室的话来说，他的风格有点像 big daddy，温暖呵护每一个博士生。虽然他有点上年龄了，不是总能跟得上科研前沿，但他有三个优点：我想做什么，他都支持我去做；他总是正确地指出我科研不成熟的地方，从 idea 完善，到实验设计，到论文写作。把我摆正之后，他又开始放羊。

毕业前半年，我又开始焦虑。我是一个很容易被影响的人，我时不时会有严重的 peer pressure，甚至会时常压迫到自己半夜失眠。这一部分也是因为，不管我博士期间做得如何，我都要上就业市场，面对残酷而不公平的博士竞争了。

作为一个合格的 INTP，我开始做广泛的调研，然后得到了下面的信息。

MIR 领域的毕业选择：高校还是工业界？

尽管我们领域这么冷门，但博士毕业之后的主流出路仍然是两个：高校或是业界。

事实上，我在就读博士期间，对这个选择一直保持 open 的态度。

学术界的选择

学术界来说，目前高校仍然是一个比较卷的选择。可以参考今年大学放出来的名额：

我没有去学术界的原因有两个：

1. 大模型时代，工业界资源更为丰富。

这一点想必同行们都深有感触。现在需要训练一个参数量比较大的模型，学校实验室的那一点显卡根本是不够用的。如果有机会去公司实习，有足够的 A100，H800 可以用，那么很多 idea 才有实现的可能。

我认为未来几年里，工业界和学术界的差距可能会进一步增大。这使得在学术界的产出可能会受到经费的影响，难以做出跟进前沿的工作。

2. 大团队作战的工业界实质上领先于学术界。

这一点也可以从这两年大模型的突破性工作的比例看出来。最具代表性的工作，基本出自 Meta，Google 这些公司的团队作品，这一点音乐方向也是差不多的。

换而言之，如果要上大模型的战车，那么工业界是一个更加实际的选择。

工业界的选择

来看一下目前涉及音乐业务的工业界版图：

大厂：

ByteDance（经费充足，研究人员多，产出稳定）
Meta（音频组兼做音乐，研究人员多，不专一，报酬丰厚）
Google DeepMind（经费充足，研究人员中多，公司导向不开源）
Adobe（经费中等，研究人员少，侧重编辑产品落地，学术界活跃）
NVIDIA（经费中等，研究人员少，音频组兼做音乐）
Sony Research & Sony CSL（经费较少，研究人员多，气氛最接近学术界的公司）
Spotify （欧洲知名大厂，经费充足，产出稳定，气氛优秀）
Apple （Apple Music 和 Shazam 部门，整体来说是比较四平八稳的产品部门）
Dolby（研究做得很不错，只是 Music 研究比例不高）
Bose（音频组有时做一些音效研究）
Microsoft Research Asia（虽然产出多，但是名额少，而且不是核心项目）
腾讯 & 腾讯音乐 TME（经费中多，研究人员多，注重产品转化）
网易云音乐（经费中等，最近学术产出急剧下滑）
华为中央媒体研究院（base HK，有一些音乐研究人员，最近成果多起来了）

中小厂：

Suno（目前在积极招人）
Stability AI（前公司还是很有感情，很有活力的 start-up）
Udio（不知道在不在招人）
Riffusion（创业公司）
Music AI（前 Moises，人数不多，学术研究气氛还不错）
Deezer（欧洲知名公司，学术上很有名气）

非 AI 公司：

Yamaha（经费中等，AI 研究人员少，非常专注于做很 music 的方向）
Steinberg（Yamaha 子公司，AI 研究人员少，注重产业化）
iZotope & Native Instrument (近年有一些 AI 技术和论文，但不多)
BBC （我们实验室的合作公司，总体上做得偏音频）
Universal（就是那个环球音乐公司，研究人员少，但是也有学术产出）

更多的我就不列举了。

当然，值得多说一句的是，这些公司并不是一直在招人。很多情况下，音乐相关的岗位一年可能只有寥寥数个，相对于 GenAI 的大方向来说，确实不是性价比很高的方向。

最后的选择：字节跳动 Seed 音乐团队（SAMI）

借用一句朋友的话，在团队里工作是这样的：

找到了一个自己愿意醉心研究的领域，获得成就感和自我实现的同时，还能获得非常对得起自己付出的经济回报。

总体来说我觉得十分贴切。

在读博期间，我和字节跳动保持着一定的关系，但并未直接合作过。基于这层原因，我和字节跳动做 MIR 的同行们，也就是现在的同事们，持有相互的联系方式。

字节跳动内部一直维持着一个做音乐的大团队，叫做 SAMI（Sound Audio Music Intelligence）。SAMI 团队在过去的很长一段时间里，保有美国、英国和中国的团队协作，也一直是我们领域的学术会议常客。可以用这样一句话来说，每一个入行 MIR 的研究者，都会很快认识一个 SAMI 员工，或者前员工。

虽然 MIR 领域做的人不多，一篇论文有 50 引用就是比较高的引用了。SAMI 这样的论文不在少数，并且遍布 MIR 的各个方向。举几个例子，我们领域的人应该多少听过：

音频编码器 PANNs：https://ieeexplore.ieee.org/abstract/document/9229505/
钢琴音频转 MIDI 的重要数据集 GiantMIDI-Piano：https://arxiv.org/abs/2010.07061
最早的 text-to-music 模型之一，MeLoDy：https://proceedings.neurips.cc/paper_files/paper/2023/hash/38b23e2328096520e9c889ae03e372c9-Abstract-Conference.html
TTS 基座大模型 Seed-TTS：https://arxiv.org/abs/2406.02430
Music 基座大模型 Seed-Music：https://arxiv.org/abs/2409.09214
组里还不乏一些特定的精致研究：
音乐结构分析的重要模型：https://ieeexplore.ieee.org/abstract/document/9747252
专用于 MIR 各类任务的当时最好的模型之一：https://ieeexplore.ieee.org/abstract/document/10448314

于是在 2024 年 3 月，在我毕业的前 8 个月，收到 ByteDance 的面试邀请的时候，我并没有犹豫便答应了。

面试流程

由于保密协议限制，我不能描述更多细节，只能大致说一下时间线。

2024 年 3 月，我收到了现在直属上级的邀请。
2024 年 4 月，第一轮面试到第三轮面试。
2024 年 5 月，和我的直属上级的直属上级约了 slot 进行一对一谈话。
2024 年 5 月，我提出了 package 的疑虑，字节讨论后给了一轮涨薪（可以看出字节给优秀 phd 的待遇还是相当好的）。我当日就签下了 offer。
2024 年 10 月，我在上海提前入职。

说一下面试期间经历的事情。

我的面试战线说长不长，说短不短。因为我在上市场的时候，第一个接到的面试邀请就来自字节跳动，甚至来自我现在的直属上级。

我当时同时拿到的 offer 不少，其实选择上是比较多的，于是我花了大约一个月的时间去约我认识的工业界和学术界的同行，去刷一亩三分地看大家的选择。

所以我最后为什么会选择字节呢？

1. 第一点是因为确实是方向的 match 程度位于前列。

这两年，随着大模型的发展，我逐渐意识到自己一个人单打独斗，已经很难在很基础的领域有很大的突破了。我渴望自己有高水平的合作同事，渴望一个算力充分的实验室，渴望一个专心致志做音乐研究的地方。

虽然上面提到了那么多公司，但是我个人认为能在音乐大模型和 MIR 上有长期竞争力的公司，目前看来只有 Google DeepMind 和 ByteDance，原因我在上面做了解释。而随着 2023 年 DeepMind 逐渐转向封闭式科研，不将自己的第一手产出公之于众，ByteDance 在学术方面反而是一个独树一帜的存在。

2. 第二点是字节，尤其是 Seed 团队，能够开出很有竞争力的条件。

首先是钱的问题。在这些选择里，字节给出的包比别的选择都更多。

因为保密协议，我能说的很有限，但是 @丁霄汉博士（同时也在字节）可以帮我作证，字节给的 package 是一流的，十分符合我对人才计划薪水的期望。

这里尤其推荐有水平的 phd 来试试字节的 TopSeed 人才项目。不仅加入核心团队，而且薪水给得非常理想。

公司重视程度的问题。

SAMI 目前在关注大模型条件下的音乐和音频的各种各样的有趣科研问题。Seed 团队目前是 ByteDance 的研发主力团队，我看到的公司资源和投入都在往组里倾斜。

这包括了我闻所未闻的显卡数量（字节内部计算平台 Merlin 有多好用一些同行应该也有所耳闻），远超我自己之前实验室的算力资源；从战略上，豆包大模型目前是公司的发展侧重点。目前来看，团队内部的科研气氛还是十分浓厚的；在经费和投入的稳定性上，足够我支撑未来 3-5 年的持续科研研究，而不需要担心自己被频繁的业务调动而去分配做自己不愿意做的工作。

正如我之前所说，SAMI 在技术的沉淀上是充分的。在入职之后，我看到了海量的内部技术文档，涉及到公开和未公开的各种实验，说实话让人十分感慨。在音乐生成和 MIR 这个小众方向，有了这些实验数据，说是少走几年弯路也不为过。

技术转化的问题。

组里的技术主要落地在豆包 app 和海绵音乐 app 上面。目前能给出音乐生成从科研学术产出，到产品落地，完成整个闭环的大厂选择并不多，字节 > 腾讯音乐 > 网易云和其他公司。

我觉得这也是工业界独有的魅力之一，那就是能和组里的工程同事通力合作，看到技术被实际转化的那一天。我觉得这也算是不违反我进入音乐科研的初心的。

3. 有什么纠结的点呢？

纠结的点也有。首先是大家都默认的，字节的工作强度确实不低。然而，由于我不幸做的是 LLM 和 GenAI，这是一个发展极快的方向，据我所知 Meta 和 Adobe 这些传统意义上福利给足的美国大厂，在这个方向也要求员工优胜劣汰。我在一亩三分地上看到了很多相关讨论，不少人指出 Meta 这个方向也在无休止地 996 工作。这样对比下来，字节的工作强度并没有那么突出，尽管这是一个颇有黑色幽默的结论。

可能是因为我自认为自己还在职业和学术的上升期，愿意在未来三到五年里继续秉承着一股冲劲认真科研，将自己保持在学术一线。从这层意义上来说，工作和人是双向选择的过程。也许之后有一天，我经历了足够多，我会选择离开工业界，去找一份更加轻松的科研工作。

原文链接：https://www.zhihu.com/question/559157484/answer/25240942309

查看原图 13K