图片来源:字节
整理|杨晓鹤
作为跟随火山引擎『春、夏、秋、冬』四场AI show的参与者,鲸哥也在北京、深圳、上海等地见证了字节多个AI产品的首发。『春的豆包,进化速度超快;夏的智能体,走向GPT 5的捷径;秋的视频生成大模型,不再期待Sora』
作为2024年最后一道大题的回答,火山引擎总裁谭待用豆包视觉理解模型,来给这一年的发布收尾。
“拍一下,什么都知道 ” ,ChatGPT 4o发布时曾带给大家太多惊喜。大模型理解真实世界的那一刻仿佛触手可得,但4o的完全体迟迟不上线。这次豆包视觉理解模型带来了现货,而且上线打出0.003元/千Token,比行业价格低85%,让大家都用得起。
调用下字节的豆包大模型API,很多AI应用就能呈现出好的效果。鲸哥已经预感到搜题教育、社交陪伴、拍照社区等多个赛道,可能会迎来创业热。要知道字节跳动CEO梁汝波曾批评组织迟钝 ,2023年才讨论GPT,现在已经成为行业上云用AI的重点选择。
这也是周亚辉对字节跳动的精准评价,字节广告收入和To B收入会对等。鲸哥分析字节的AI能在一年内实现蜕变的三板斧:1、布局全,从云☁️到模型到开发🛠️,尤其各种大模型几乎做全了;2、B和C互相反哺,从技术能力到数据相辅相成;3、大力出奇迹,B端打性价比,C端猛投放,让企业用得起,用户能感受到AI实效。
在鲸哥向谭待询问,字节AI是如何实现『逆袭』的这一问题时,谭待认为更准确是『厚积薄发,豆包大模型目标就是要做行业第一』。在更多市场关心的问题时,谭待也向媒体讲出了行业视角的理解。以下内容略有编辑:
多模态模型发展还在早期
Q:现在通用语言模型的能力,比如说对话的市场需求多大?今年的调用量增长比较迅猛,后面会持续吗?你们对它的商业化潜力有什么判断?
谭待:对话是一个很通用的场景,但是实际上大模型本身在很多场景,特别是生产力的场景也会非常大。从我们自己的角度来看,包括今天上午我公布的一些垂直领域的增长情况,比如说在信息处理增长了 39 倍。
在企业很具体的场景,在客服、销售上面也长得非常快。其实现在是呈现一个多元化的发展,并不是说只是从娱乐角度来看。你得加上深度推理的、图像视觉理解的需求,还有各种各样的功能,这样才能处理更复杂的任务。
Q:想问一下 9 月之后有几家国内公司都有提到自己在做推理模型这方面,就想问一下字节这边在推理模型这块有没有布局?方便介绍一下目前的进展吗?
谭待:肯定有布局,你说的推理布局类似 O1 是吧?肯定有做。你今天看到我们的有些虽然没有叫这个名字,但是我们有些能力已经具备这个雏形了,比如说解数学物理代码。但一个完整的话但是我们的逻辑还是做得比较完善了再推出,这块大家敬请期待,不会太久。
Q:我注意到荣耀不止和我们有合作,还有和其他厂商有合作。我想有一些合作伙伴他们在选择我们这个行业以及大模型时货比三家,对于我们来说有没有一些影响?或者说我们除了提供更低的价格,我们怎么能够服务得更好?
谭待:其实国内安卓手机比苹果多,国内安卓手机大部分都在和豆包合作。其实手机的场景很多,所以对手机厂商来说,他会在某些场景用豆包,某些场景用其他的,或者某一个场景他混合使用。对企业来说,肯定也需要一个多云或者多模型的策略,这个我觉得很正常。最终还是说你的能力更好、成本更低,他就会用谁,这笔账就很好算。
Q:最近又传出苹果和百度的合作好像要谈崩了,大家都比较期望和豆包进行合作,这个我感觉比较意外,我想知道您的想法。
谭待:端侧本身,当然我想说今天其实我们也不只是讲到端上,我们讲到跟荣耀、跟 VIVO 的合作,我们还有很多场景适合来做,比如说汽车。我们和奔驰有非常强的合作,除了奔驰以外,国内八成以上的汽车品牌都在跟我们做合作。我觉得大模型本身让硬件终端智能化这件事情,可能性有很大的提升。
Q:现在业界有些观点,因为语料数据的耗尽,认为大模型预训练可能会告一阶段,不知道您怎么看?您刚刚讲到字节在 AI 推理上已经有布局了,在这个前提下是不是在 AI 推理上有更多的机会?
谭待:你说的Ilya最近讲的这个,他的上下文应该是说原来方式的性价比现在已经不高了,现在我们在 CoT(思维链)阶段,我们在强化学习阶段,那块的 Scaling law(尺度定律) 其实还在早期,所以其实潜力会更大。我觉得他最终想表达的还是说 AI 还有很大的提升机会。
我记得我上学的时候学系统优化,最重要的是找到当前瓶颈最大的那块把它给优化起来。我觉得这个东西是阶段性的,想把 pretrain(预训练)的东西解决一下,然后把 post-train(后训练)解决一下,然后这个时候有更好的数据合成的能力,就是 pretrain 的空间又更大了,或者模型就有提升。整体上还是有很多可以做的事情,而且这个东西都是循环往复的。
就好比 AI 本身,我记得一九六几年的时候就开始做这个事情,当时觉得做一会就没有空间了,后边随着 80 年代又有一波,到后面深度学习,再到现在的 Transformer、强化学习这都会有。本质上因为互联网化、在线化这个事情,到数据本身使用度越来越高,云让计算更加容易,这两个东西叠加我觉得未来还是能带来更多的突破。
Q:有个问题想问一下这次 OpenAI 的发布会,可以看得出来 OpenAI 从以前的技术标杆导向型,逐渐往应用型发展,我想问问您觉得连 OpenAI 这种标杆企业已经往应用端走,大模型发展遇到了瓶颈?
谭待:我明白你的问题,我首先跟你有不同的观点,我觉得 OpenAI 首先是一个做技术和做应用都非常棒的公司。大模型什么时候火的?不是发了一篇论文,GPT 论文已经发了好几年了也没那么火,他是因为把 ChatGPT 这个产品做出来了,大家用了以后觉得太棒了,所以他一开始其实就是做应用,而且做得还不错。
但后面因为随着模型的提升,能解决的问题越来越多,应用的形态要发生变化,简单的 chatbot 的 UI/UX 已经不足以支持当前的需求和能力了,所以就不断地做应用的创新。我始终认为技术和应用就是齐头并进的,并不存在我把技术做好我是技术公司。Google 也是一样的,Google 以前大家觉得技术很强,也是把搜索引擎这个产品形态以及搜索引擎广告的商业模式走通了,我认为这两者就是相辅相成的,在全球,在美国、在中国都一样。
Q:比如说 AI 往硬件落地,今天下面有个耳机也会豆包这个词,我觉得可能也有往相应的智能硬件落地的可能性,您是怎么看待这个空间?因为现在也有人在谈类似 AI 眼镜这样的场景。
谭待:前面在问是不是 2C/2B,我觉得第一是 2C/2B 齐头并进,第二是物理 / 虚拟也是齐头并进。为什么?你的物理世界也是服务于人的,服务于人就要和人打交道,听觉、语言、视觉都要做,那这些事以前其实做不好的,但是大模型能够做好这些事情,所以反而我觉得大模型比过去的很多技术都更容易连接数字世界和物理世界。
大模型推动云业务增长
Q:豆包好像今年特别的火,我们感觉字节跳动这边好像 2C 的产品好像活跃度也比较高,我想问问您觉得现在大模型的未来到底是在 2B 市场还是在 2C 的市场?
谭待:就像我们的数据来看,在工作、娱乐、生产力的场景其实是差不多的,所以我觉得大模型就是 2C 和 2B 齐头并进,因为你想娱乐要处理信息,获取知识要处理信息,处理工作要处理信息,企业自己运转也要处理信息,我觉得这跟以前互联网刚开始 2C 然后再 2B,我觉得这个直接就是 2C/2B 是齐头并进的。
Q:今年也快过完了,想问一下今年大模型带动了多少公有云的收入,包括今天有没有达到预期?明年可能会有哪些计划?
谭待:我现在不看带动多少云的收入,看的是有多少客户用了我们大模型以及用得有多深。从这个角度来说,我觉得做得还是可以的,我们在整个市场份额上都做到了比较大的领先。
Q:我最近听运营商的朋友说,因为最近中国电信在发一些大模型的产品,有些运营商也在发,我们的很多合作伙伴也在做 2B 的这块。怎么看竞争?
谭待:说实话从我的角度现在不太关心竞争,因为这个市场还在很早期,可能这个市场千分之一刚刚开发出来。更关心的是到底用户的需求有哪些没有被满足。
比如说语言的场景,有些简单的事情被满足了,复杂的还没有被满足,所以我们的 doubao pro 这次做了更新的升级。
视觉之前都没有满足好,模型又不好用,价钱又贵,我们这次推出来后希望一次做到位,就跟我们当初推出语言模型一样,推出一个好的模型而且把价格一次性做到位。
当然我觉得在 2B 的领域大家都是有竞争有合作的,我们也会和运营商一起做一些项目,我们也会和第三方的 SaaS 厂商做一些项目,这我觉得很正常,主要还是因为这个事情价值非常大,空间也非常大。
Q:作为字节跳动旗下的云服务的提供者,我们相对于其他玩家来说算是后来者,但是我们这两年的势头很猛,你会怎么定位大模型,大模型的投入包括产出推动我们云计算增长这样一个角色做得怎么样?
谭待:谢谢对我们的关注,我原来讲过很多次,我们作为一个后来者为什么有信心进入到这个市场?第一,我们相信这个市场非常大,因为是可以用 GDP 里面数字化的占比,数字化云的渗透率来算出来空间的,这个空间是非常大的,而且会越来越多。
第二,规模优势,火山一开始就把抖音、头条的内部规模和外部规模统一来建设,所以一开始就是中国最大的规模,我做云这个事情我肯定能坚持到最后。
第三,你想做得更快,一定要在新的技术变革中做到第一。新的技术变革是什么?其实就是 AI 和大模型,所以这块我们的目标就是第一,而且我们在朝这个方向在前进。
Q:刚刚您提到了豆包大模型要争当行业第一,想问一下您,您认为您这么有信心的表态背后您认为豆包大模型的核心竞争力是什么?当前我们还存在多大的人才缺口?
谭待:我自己觉得做好模型有很多点,包括算法、人才、数据、工程都很重要,但我觉得如果只说一点的话我觉得很重要的一点,大模型这个东西跟过去所有的技术不一样,以前过去的技术 2C 端跟 2B 端是割裂的,大家天天刷抖音,但是你天天刷抖音是不是会天天用火山引擎的云?
你看重抖音的价值和你看重火山引擎的价值是完全不一样的,你个人用云这个没有需求。但是大模型不一样,大模型的 C 端和 B 端其实背后都是同一个东西,就是那个模型本身,因为所有的能力都是内化到模型本身了,这个事情是有一个 C 和 B 协同的方式。
就包括今天 PPT 里面,有好多人问我企业怎么做 AI 转型,这不是开玩笑,第一 CEO 自己下个豆包 APP,你天天听报告有什么用,你自己天天用就知道它能干什么不能干什么,然后你就可以想说企业哪些场景可以用,哪些场景不可以用。
火山引擎做对了什么
Q:这一年您觉得火山引擎的哪些业务发展是最快的,到底是中间的智能体 Agent 的相关业务,还是说某些垂类的场景?
谭待:我在准备这次大会的时候我也在想,过去一年我做了什么,未来我做什么,我认为有两个事情很重要。
第一,围绕大模型全软件栈,包括模型本身,模型本身要越来越强,越来越丰富,成本要做到合理可持续,落地要更容易,我们做了很多这方面的事情。
当然企业不能只用个 API,还要开发,要开发平台,所以我们有火山方舟,包括我们这回推出来记忆功能,我觉得这是一个很重要的能力,包括怎么基于模型做 AI 搜索和推荐,这个我觉得也很重要,比如企业要做知识库,以前所有的知识库做得都不太好,因为很难真正地去洞察,以前搜索引擎很重要的是通过点击通过反馈来做,但是企业内部的搜索没有那么多的反馈是很稀疏的,这个必须回到语义本身来做这个事情,传统的 NLP 很难做好这个事情,大模型是很大的突破,而且能解决多模态的问题。包括开发平台扣子、HiAgent 这是一个环境,我觉得我们做得还可以。
第二,因为 AI 的出现,所有的基础架构从 CPU 转向 GPU 为核心之后,其实过去讲云原生这套东西它好但是它需要变,所以我们认为未来 10 年其实 AI 云原生是更重要的事情,今天是我们在业界首先提出这个概念,而且我们不只是提出概念我们还做出了对应的产品,比如说怎么把计算实例通过 vRDMA 去支持高吞吐、PD 分离的推理,怎么去做 GPU 直连的 Cache(缓存),这个跟以前 CPU 的 cache 是完全不一样的。
包括我们的 PCC 去做好私密云,以后大家各个场合都用模型,你们的数据怎么做端到端加密,这个必须要用软硬件的整体方案来做这个事情,要做到技术上绝对的可靠才行,这个也是我们在国内首先推出了这个产品。包括大数据,数据飞轮也是一样的,怎么样做好非结构化数据全模态的数据湖。
Q:今年每次参加火山引擎的会都发现 token 量又涨了好多倍,今天您也举了不同行业分别消耗量多了十几倍到几百倍的案例,就想问火山引擎在帮助客户把模型用好用深这个方面有哪些经验?体系化的经验。因为我们关注到 AI 应用被用起来没有像火山这么多。
谭待:很重要的一点是,我们在最开始发布火山引擎的时候就说了同时组建了一个算法和服务的团队,我觉得这个非常重要。因为一开始企业可能对 AI 有一些不同的理解,有的时候想得太容易了,有的时候想得太难了。其次,我们画个图,根据模型能力强和弱、场景价值高和低,我们肯定希望找到一个产品市场匹配(PMF)来做这个事情。
在这个过程中:
第一,需要做好匹配,以及做好你最后发现效果不好有可能是 Prompt 优化的问题,也可能需要精调,或者说可以在交互界面上做处理来做这个事情,这个就需要又懂业务又懂算法的人来做这个事情,我们自己首先组建了这样一个团队,这样就能针对不同的客户和场景深入跟客户做好共创。
Q:刚刚提到的团队大概多大?
谭待:大几十人。
第二,我现在发现场景很重要,场景不仅需要模型还需要平台,所以我们有扣子、有 HiAgent,还有对应的 AI 咨询的团队,可以帮这些企业看哪个场景好,哪个场景不好。长期更重要的是,这件事情需要伙伴和生态跟我们一起来做。
Q:从您的角度来观察今天火山引擎市场份额的增长,主要取决于哪些因素?
谭待:刚刚讲了对火山来说两个最重要的事情。
第一,把规模优势做好,做好了以后每年自然就会增长,因为规模大、弹性高、成本便宜,自然而然企业会迁移过来,或者有企业选择你,这是一个很重要的因素。
第二,通过豆包,通过模型我们把这个事做好也能够得到很多关注,得到很多新的合作机会。
Q:开发平台上你们有公有化和私有化两个产品 HiAgent 和扣子,模型化豆包可以私有化部署吗?
谭待:HiAgent 会搭载一个可以私部的豆包模型。
Q:你们怎么看这个市场上大模型的私有化部署需求?还是你们更倾向于大家用公有云来用?
谭待:模型更新太快了,最好的模型一定是在云上,如果要求很高,云上做 POC(Proof of Concept,概念验证)做各种落地会非常容易。
比如说我们有扣子、HiAgent,这两个产品定位是不一样的,扣子是开发平台,HiAgent 最后想要做的比如企业要做好自己的 AI 中台和能力中心,不仅需要解决开发的问题,还要解决集成数据各种问题。HiAgent 要往前更走一步,两者定位有个差别。
现在我们能看到很好的案例,客户用扣子快速搭建做原型的设计,然后再基于 HiAgent 做一个企业内部的实现,因为企业有监管的要求或者其他要求,做一个内部真正线上化的实现。我自己觉得未来混合这个模式还是会持续存在的,如果你想用最好的模型,想快速地实验快速的创新一定要用云上的版本。
而且我刚刚说了技术上我们现在有很多技术上的突破可以很好地解决安全的问题,比如说我们的 PCC 是从硬件层面来实现端到端的加密,不可能有人能够去把这个数据下下来,或者破译里面的东西,这个是从技术的角度,100% 能够做到的,包括苹果手机也用的类似的方案。觉得通过技术是能够解决性能的问题,这样大家能够去既获得技术的便利也能够解决安全合规的问题。
Q:云厂商出海现在提的比较多,字节本身也是全球化部署,出海这块你们是怎么布局的?
谭待:我们也很重视出海,我们很多行业的客户自己都在出海我们就好好服务他,我们有很多游戏的客户,直播的客户,互娱的客户,还有汽车,汽车出海是很重要的一点,我们也和他们一起携手对海外,把我们一些相关的经验也变成工具能更好地服务他们。