图片来源:No Priors
大语言模型市场的整合与差异:大语言模型市场存在整合的趋势。一方面,人工智能发展的基础产业是资本密集型的,市场整合对于大语言模型市场的资本支撑是必要的。另一方面,为尽可能提高算法的泛化能力,单个大语言模型也需要集成多种创新功能。市场集中度的提高使得企业需要进一步考虑大语言模型的差异化。 芯片的发展与资本要素配置:大语言模型等人工智能产品的发展需要硬件层面上的进一步支持,硬件市场的资本输入是必要的,然而对其发展趋势的预测可能是困难的。因此,在投资相关企业时,应当考虑企业之间的互动结构。
Sarah Guo:今天,Elad和我将简单聊聊大语言模型的整合、芯片的进展。我认为,作为一家AI公司,如何评估风险、突破界限以及重大交易是一个有趣的动态话题。第一个话题,大语言模型的市场是否已经整合?
Elad Gil:这是个很有趣的问题——我们基本上看到一些模范公司正在让团队加入更大的企业,可能是形式变化的一部分,或者是Character的一部分,或者是其他公司的部分,比如Adapt或AWS。因此,模型方面有一种动态存在,许多公司仍在运作,他们的一些产品还在运行,并以不同的方式被使用。
同时,巨大的资本壁垒正在形成,旨在推动基础模型达到最大的规模。如果你观察这些公司,它们现在从超级计算公司(如亚马逊和微软)或主权基金那里筹集了数十亿甚至上百亿美元。因为这些是唯一能够提供数十亿资金的人。风险投资行业规模太小,无法支撑这些公司的下一轮融资。
因此,大家都在寻找合作伙伴。那么,对市场上的其他玩家来说,如何获得不断增长的资本呢?他们会与谁合作?苹果最终会有合作伙伴吗?三星会有吗?XYZ公司会找到合作伙伴吗?你可以将所有潜在的合作伙伴与模型公司匹配起来,看看这一切会如何发展。同时,超级计算公司有动力资助这些公司,因为这在某些情况下也会转化为更多的云计算使用。激励机制开始在风投、云计算、战略合作伙伴和主权基金之间发生变化。
似乎越来越难以想象,大多数公司如果没有在模型架构或训练成本、推理成本以及后续训练等方面取得根本性突破,很难保持竞争力。所以,我认为这是一个非常有趣的开放性问题,但感觉我们正在进入一个越来越多整合的阶段。你怎么看?
Sarah Guo:我觉得大部分内容是有道理的。我认为在过去一年半里,市场竞争化更加明显,而不是减少竞争。也许竞争是在你所说的那些拥有资本壁垒并且有某种规模突破的玩家之间展开的。但至少从消费端来看,性能在不断大幅提升,基准测试中的竞争加剧,价格在下降。同时,还有真正的开源玩家。因此,市场可能正在整合,但参与者未必都在盈利。
Elad Gil:我认为你提出了一个非常有趣的问题,不应该被忽视,那就是在过去的18到24个月里,API成本下降了大约200倍左右。我的团队成员David实际上汇总了所有模型的价格图表,显示了这些价格随时间的变化。从百万标记的价格来看,降幅是非常显著的。
因此与此相关的是,如果运行这些模型或进行推理的成本下降了200倍,一部分原因是蒸馏技术,另一部分原因是你使用的GPU等硬件,从使用的角度来看,实际可用的利润和收入都在增加。但至少作为一家API业务公司,仅靠模型进行竞争变得越来越困难。这让你不得不转向专业化,或是定制化的模型、特定类型的后期训练或垂直应用等领域。
Sarah Guo:我认为,另一种看待整合的方式是从商业角度来看资本达到整合后的规模有什么意义?很多未言明的事情是,AGI(ZP注:通用人工智能)仍然是核心业务。会有新的模型、行为和能力出现,它们要么找到为我们赚钱的方法,要么它们的价值将变得显而易见。但我认为,在更短期的两到三年内,消费业务将主要依赖于广告或订阅应用,而目前还没有公司真正走上广告路线,或者是企业服务的业务模式。
这两种模式今天都是真实存在的。但我认为这更像是一场产品之争。Anthropic和Open AI分别聘请了Mikey K和Kevin Wheel这样的重量级人物。我认为,玩家们正在围绕他们的资本壁垒和研究成果构建护城河,不仅仅是做聊天界面。
所以,我认为双方都会试图让客户走上一条更为锁定的路径,尤其是在API方面。我们已经看到AWS在存储桶方面的复杂化。你将看到提示缓存、JSON输出接口、微调功能的集成,这使得如果人们采用这些功能,市场就不再是一个完全的商品市场,因为使用变得更加简便。
Elad Gil:我认为你指的是Anthropic在缓存方面所做的举措,这在成本、时间和延迟方面产生了有趣的影响。
Sarah Guo:我作为消费者,对界面有很大的期待。不是说聊天会消失,但你可以想象更加智能的聊天,带有自动上下文和不同的界面形式。因此,我认为虽然有市场整合的趋势,但我们仍然会看到玩家之间的竞争。
市场上的挑战是,可能有人会采取非常不同的推理方法。你可以获得所需的资本,达到竞争规模,因为你可以重复之前已经完成的工作。此外,由于硬件进步继续推进,规模变得更加可行。有人正在探索自我博弈的数学和代码,这很有意思。虽然这不完全是新的架构,但它推动了下一个规模水平。还有一个开放问题是微型模型的知识蒸馏和微调的相关性,以及人们将如何实际使用这些模型。
Elad Gil:我认为有必要重申的是,我们在这里主要谈论的是语言模型。未来还有许多其他类型的模型会出现,比如物理学、 生物学、材料科学、图像生成等。在某些情况下,这些模型将是多模态的,但在许多情况下,它们将针对不同的领域有独立的模型。现在,我们讨论的主要是核心的大语言模型市场,以及它的演变。
此外,还有其他可以叠加在语言模型之上的要素,比如推理模型和Agent工作流,它们几乎是一个正交的维度。第三个方面则是模型基础设施的差异化。你提到的缓存是一个例子,长上下文窗口、RAG(检索增强生成)也是一些例子。因此随着这些技术的发展,我们将在所有三个维度上看到进化。我们现在讨论的核心问题是,如何构建更大、更好的语言模型以及它将如何演变。
从某种角度来看,确实感觉市场已经有些整合了。但有趣的是,当你回顾社交网络的历史时,大家曾认为一家公司叫Friendster会获胜,接着人们又认为MySpace会赢,然而Facebook后来崛起。等到Facebook出现时,大家又说这只是一个商品市场,没有长期的差异化,但最终Facebook赢得了核心的社交市场。即便在那之后,你还有Instagram、Twitter、Snapchat,最终还有ByteDance和TikTok。所以即便在大家宣告社交结束之后,仍然有一波波的新兴公司出现。我认为在这里的情况也会类似,会有一些企业开始抢占市场的一部分。LinkedIn成为了所谓的企业身份社交网络或简历社交网络,而Facebook成了一个核心社交平台。然后还有Instagram占据了一部分市场,Twitter占据了一部分市场等。Twitter更多是关于新闻和实时信息。相似的情况可能也会在这里发生。
图片来源:No Priors
Sarah Guo:你觉得其他领域,比如视频或音频模型的方向,也会走向这种商品化吗?
Elad Gil:我认为现实是,一些领域会有通用模型,而其他应用领域则会有专门的模型。这可能是错的,这要看模型的通用性到底有多高,不仅是模型能力的通用性,还有其周边工具的通用性。工具是否需要与模型垂直集成?例如,你有一个非常好的图像生成产品,它可能有艺术应用,也可能有图形设计或UI设计的应用。是同一个模型负责所有这些任务吗?还是一个大模型负责其中一个方面,然后有许多微调或专门的模型负责其他任务?这是一个很大的开放性问题。
关于AGI(通用人工智能)或更通用的智能问题也存在类似的讨论。比如,如果你观察大脑的运作方式,它实际上是一个相当专门化的模块集合,处理视觉、情感等不同的功能。心理学文献中有很多有趣的案例,比如有人因为事故脑部被钢梁穿透,结果失去了某种情感功能,但其他功能却完好无损。所以问题是,这些模型会有多么专门化,或者说会有多么通用?同样,这个问题也适用于图像生成领域。你会为图形设计使用不同的模型吗?这些问题目前没有明确的答案。
在过去几个月中,图像生成市场似乎开始升温。之前大家觉得MidJourney将成为独立玩家中的默认赢家,后来又出现了一些多模态的东西,比如Dolly和OpenAI的项目,或者是Gemini的一些项目。但现在有越来越多的公司崛起,它们的模型精度非常出色。
“更小的模型、更高的性能”:芯片和训练模式的创新及其风险
Sarah Guo:有时让我感到有些愚蠢的是,虽然我坚信图像、视频和音频模型会迅速提升能力并逐渐商品化,但仍然对其进展速度感到惊讶。例如,Sora的发布是一个惊人的研究突破,但同时也有一种感觉,谁能真正赶上它?现在你可以说,有一些公司展示了出色的视频生成能力,它们并不是小公司远远落后于前沿公司,比如Runway、Pika等。而且正如你提到的,从图像生成到视频生成,你有像Ideogram、Hotshots等小公司或中期公司,它们的表现令人印象深刻。研究人员组成的五人团队,拥有不多的资本,却能与市场上大型公司的产品相媲美,比如LumaLabs的成就。
这一点对我来说是一个思维上的更新。让我感到惊讶的是,随着时间推移,模型的体积正在缩小,而性能却不断提升。这可能是通过蒸馏实现的,也可能是其他技术推动的,但总体上我们看到的是,越来越小的模型能够提供越来越高的性能。我认为,几年前没有预料到这一点。在最初的设想中,人们知道某些方面可以被压缩,但没想到能走这么远。大脑或许是一个很好的例子,说明这种可能性。毕竟大脑是一个耗电只有20或30瓦的设备,但它可以很好地进行图像识别和其他任务,而且性能还不错。从这个角度来看,我们还有很大的进步空间。
Elad Gil:我认为我们即将能看到大语言模型在被用于处理音像、图像和视频等方面信息时,给人们非常酷的体验。随着模型变得更小、更好,它们也会变得更加实时化。我认为今天的生产环境中,实时应用的规模还不够大。但一旦它们实现规模化,用户体验会大不相同。正如Mark提到的,当你可以一边说话一边生成图像时,这与“我是一个艺术家,正在生成输出”的体验完全不同。我认为未来几个月我们会看到这种变化。
关于我们讨论的这些内容,其实有两个创新领域值得关注,我们可能应该触及这两个方面。一是芯片层,可能会进一步加速某些领域的发展;二是你对输出、训练数据等内容的实际处理方式,以及你在这方面愿意走多远、如何突破限制。如果你回顾Google的早期发展阶段,当时围绕Google的争议非常多。Google所做的事情是索引整个网络,抓取全球分布的所有内容,包括新闻、用户发布的内容等等。Google当时的做法被视为一种网络抓取行为,因为他们在获取所有的内容,然后通过这些内容盈利。他们会展示一个叫“摘要”的小部分文本,出现在Google搜索结果中,紧跟其后的是链接。有些人认为这些摘要不符合版权法的“合理使用”原则,即是否可以在不付费的情况下使用少量版权内容。于是,围绕新闻内容和这些所谓的“摘要”,Google遭遇了多起诉讼。
多年后,事情大致有了四个结果。第一,他们发明了一种叫作robots.txt的文件,这是一种网站设置,告知像Google、Bing这样的网络爬虫是否允许索引你的信息。第二,摘要最终被认为符合版权法下的合理使用。第三,Google与一些内容提供商达成了内容供给协议,尤其是针对非常专业的内容,Google从这些来源获取内容并将其整合进他们的一些产品中。第四,一些新闻机构意识到,不在Google的索引中实际上会让他们失去大量流量,因此他们重新申请被索引。
这一切耗时近十年或十五年,才逐渐显现出结果。Google通过仔细考虑法律问题,设立了一支精明的团队,专门研究版权和其他相关领域,最终成功度过了这段难关,几乎没有受到太大的损害。对于其他公司来说,你如何看待这种演变?特别是那些面临质疑的公司,例如图像生成和音频领域的公司?作为初创公司,你应该承担多少风险?
Srah Guo:我们可以从这些历史案例中获得有价值的借鉴。例如,像Airbnb和Uber这样的公司,它们挑战了传统的租赁限制和出租车行业的监管,这些服务的出现让许多消费者受益。如果这些公司没有突破现有的框架,它们可能根本不会存在。通过规模化的发展,它们逐渐形成了市场力量,最终才和监管机构讨论并制定政策。
我认为很多AI公司也将面临类似的问题。对于某些公司来说,重要的问题可能是:“Google会不会因为你抓取YouTube数据而起诉你?”毕竟,要大规模获取视频数据而不涉及YouTube,几乎是不可能的。我认为,面对这种情况,企业需要从商业风险的角度来考虑。就像你提到的关于合理使用和Google的案例——为什么Google允许某些业务存在?如果他们对YouTube采取特定立场,是否在法律上与其核心业务存在矛盾?
Elad Gil:当然,也有一些公司因为受到商业风险的冲击而完全消失了,比如Napster。音乐行业起诉了Napster,几乎让它破产了。在音乐行业,有许多因为诉讼而消亡的公司。
风险分为几种:第一种是法律诉讼风险,这不总是与法规一致。第二种风险是监管风险,是否在法律尚不明确的领域采取行动。比如加密货币领域,AI领域也存在一些类似的问题。第三种则是声誉风险,你允许生成什么样的内容?Grok在这方面非常有趣,因为它明确表示不会过多限制输出,相较于其他公司,这更接近人类行为。而许多公司则专注于防止不同类型的内容输出。
在某些情况下,这种做法看起来像是为了用户的利益,而在某些情况下,它似乎具有很强的政治动机。因此,我认为这是一个正在进行的非常有趣的实验,社会到底对模型的输出有多在意?在允许与不允许之间,模型输出与社会现有的言论规范或创造性表达的规范相比,它们之间的界限在哪里?
很多公司实际上对模型的约束超过了社会的整体规范。有一小部分人对某些事情有强烈的看法,但对大多数社会成员而言,似乎对某些类型的内容有更广泛的容忍度。当然,有些事情你永远不想看到,比如真正令人不安或非法的内容输出。但我认为,观察这一切如何发展会非常有意思。
Sarah Guo:我认为这也是一个哲学性的问题,你是在限制生成内容,还是在限制内容的分发?如果你掌管一个平台,控制某些内容的分发是你的责任,这一点论证会更有力。而生成内容更像是自由言论的范畴,但这的确是一个复杂的问题。我们应该谈谈半导体吗?
前景复杂、关注架构:资本将如何在半导体市场流动?
Elad Gil:我想我们之前讨论的两个主题,一是内容和风险,二是半导体。因为半导体性能支撑了当下AI的所有工作,无论是训练还是推理。
你如何看待最近涌现的半导体初创公司或系统初创公司?我觉得六七年前曾有一波浪潮,包括Grok、Cerebras等公司。而现在又出现了一波新公司,比如Maddox、Etched,以及其他一些公司,部分公司即将参与我们的播客。你觉得这个市场有哪些有趣的地方?有什么动态值得关注?
Sarah Guo:正如你所说,五年前的浪潮值得钦佩,有些公司有远见地认为,AI的工作负载需要不同的计算方式。但是,提前这么多年押注芯片和系统设计是非常困难的事情。大约七年前,大家还无法预见到Transformer模型会成为如此重要的工作负载。所以,我认为这个市场以非常不可预测的方式演变。而现在有一些公司非常专注于优化Transformer架构,尤其是在矩阵运算方面分配了更多的面积。
接下来一个有趣的问题是,这些公司是否能超越AMD和NVIDIA的经济效益和性能?它们一直是非常快速的创新者。尤其是AMD,在最近通过ZT收购后,似乎正在取得进展。但芯片投资的关键是,你愿意押注哪种架构?因为你需要经历一个多年的周期,交付速度和性能价格比如何匹配是关键。我觉得这是值得的赌注。公司们对需求形态的看法也很有趣。如今,有很多主权云的需求,这对公司来说是一个有趣的机会。
图片来源:ChatGPT
Elad Gil:你如何看待AMD收购ZT?你觉得他们为什么这么做?目的是什么?AMD现在的举措是什么?
Sarah Guo:我觉得市场对AMD能否具有竞争力存在分歧。如果你看一下他们需要的组件,他们需要更好的软件,尤其是在CUDA方面的竞争力。如果你考虑AMD在之前收购Silo时,那次收购实际上是一个价值约6亿美元的人才收购,招募了数百名AI工程师和研究人员,这些人曾在AMD工作过。那么这是软件层面的一个补充。接下来你还有网络部分,AMD是UA Link(开源NV Link的竞争对手)的一部分。ZT收购填补的理论缺口是,如果你将ZT视为一个一到两亿美元的系统设计团队收购,招募了一千名系统设计人员来支持大型AI业务的数据中心和机架,而不仅仅是个别芯片或组件。NVIDIA现在真正销售的是完整的系统,通过多年战略逐步交付这些系统,基本上是研究实验室的数据中心。问题在于,AMD能否组装这些组件,进而实现这种目标?但你可以说,这些都是他们正在整合的必要部分。
Elad Gil:好的,我想时间差不多了。
Sarah Guo:我很期待和Etched、Maddox、Cerebras等公司讨论下一波浪潮的到来。应该会非常激动人心。
原文:No Priors Ep. 81 | With Sarah Guo & Elad Gil
编译:Entong Zhang