多模态技术将在 2025 年重新定义企业如何利用 AI。想象一下,一个不仅能理解文本,还能理解图像、音频和其他传感器数据的 AI。人类天生就是多模态的,但我们处理输入信息的能力有限。以医疗保健为例,在我在 Google Health 工作期间,我听到许多病人用大量数据压垮医生的故事:
想象一个患有心房颤动 (AFIB) 的病人带着五年来从智能手表收集的详细睡眠数据就诊。或者一个癌症患者带着 20 磅重的医疗记录,记录了他们接受过的每一次治疗。这两种情况都是非常真实的。对医生来说,挑战是相同的:从噪音中分离出有用信息。
我们需要的是一个能够总结和突出关键点的 AI。像 ChatGPT 这样的大语言模型已经可以对文本进行这样的处理,提取出最相关的信息。但如果我们能教会 AI 对其他类型的数据 —— 如图像、时间序列或实验室结果 —— 做同样的事情呢?
多模态 AI 是如何工作的?
要理解多模态如何工作,我们首先要明白 AI 需要数据来进行训练和做出预测。多模态 AI 被设计用来同时处理多种数据源 —— 文本、图像、音频、视频,甚至时间序列数据。通过结合这些输入,多模态 AI 能够对所处理的问题提供更丰富、更全面的理解。
多模态 AI 更像是一种发现工具。不同的数据模态被 AI 存储。当输入新的数据点时,AI 会找到相近的主题。例如,通过输入某人智能手表的睡眠数据以及他们心房颤动 (AFIB) 发作的信息,医生可能会发现睡眠呼吸暂停的迹象。
注意,这是基于"相似性",而不是相关性。这是 Amazon 曾经popularized的方法的升级版:"购买这件商品的人也购买了那件商品"。在这种情况下,它更像是:"具有这种睡眠模式的人也被诊断出患有 AFIB"。
多模态解释:编码器、融合和解码器
多模态 AI 系统由三个主要组件组成:编码器、融合和解码器。
编码任何模态
编码器将原始数据(如文本、图像、声音、日志文件等)转换为 AI 可以处理的表示。这些表示被称为向量,存储在潜在空间中。简单来说,可以将这个过程想象成在仓库(潜在空间)中存储一件物品,每件物品都有一个特定的位置(向量)。编码器几乎可以处理任何东西:图像、文本、声音、视频、日志文件、物联网(传感器)信息、时间序列 —— 应有尽有。
融合机制:结合模态
当只处理一种类型的数据(如图像)时,编码就足够了。但是当处理多种类型的数据 —— 图像、声音、文本或时间序列数据 —— 时,我们需要融合信息以找出最相关的内容。
解码器:生成我们能理解的输出
解码器从潜在空间(即仓库)中"解码"信息,并将其传递给我们。它将原始、抽象的信息转化为我们能理解的东西。例如,找到一张"房子"的图像。
如果你想了解更多关于编码、解码和重新排序的知识,可以参加我的 eCornell 在线证书课程"设计和构建 AI 解决方案"。这是一个无需编程的课程,探讨了 AI 解决方案的各个方面。
用多模态技术改造电子商务
让我们看另一个例子:电子商务。Amazon 的界面 25 年来几乎没有变化 —— 你输入关键词,滚动浏览结果,希望找到你需要的东西。多模态技术可以通过让你描述产品、上传照片或提供上下文来找到最适合你的匹配,从而彻底改变这种体验。
用多模态 AI 修复搜索
在 r2decide,一家由我和几个康奈尔校友创立的公司,我们正在使用多模态技术将搜索、浏览和聊天合并为一个无缝的流程。我们的客户是那些厌倦了因为用户找不到他们需要的东西而损失收入的电子商务公司。我们解决方案的核心是多模态 AI。
例如,在一个在线珠宝商店,用户搜索"绿色"时,过去只有当"绿色"这个词出现在产品文本中时,才会看到绿色珠宝。由于 r2decide 的 AI 还将图像编码到共享的潜在空间(即仓库)中,它可以在所有模态中找到"绿色"。然后,根据用户过去的搜索和点击重新排序这些项目,确保他们收到最相关的"绿色"选项。
用户还可以搜索更广泛的上下文,如"婚礼"、"红裙子"或"哥特风"。AI 将这些输入编码到潜在空间中,匹配合适的产品,并显示最相关的结果。这种能力甚至延伸到像"Swarovski"这样的品牌名称,即使商店并不正式销售 Swarovski 产品,也能显示相关的商品。
AI 生成的提示以提供类似聊天的建议
除了搜索结果,R2Decide 还生成 AI 驱动的提示 —— 旨在增强用户体验的上下文推荐或提示。这些提示由 AI 代理驱动,正如我昨天在关于代理型 AI 的文章中所描述的。它们的目的是轻松地引导用户找到最相关的选项,使搜索过程变得直观、引人入胜且高效。
2025 年的多模态技术:企业的无限可能
多模态技术正在改变各个行业,从医疗保健到电子商务。而这还远不是终点。像 TC Labs 这样的初创公司使用多模态 AI 来简化工程工作流程,提高效率和质量,而丰田则使用它来提供互动的、个性化的客户协助。
2025 年将是多模态 AI 改变企业工作方式的一年。在 Forbes 或 LinkedIn 上关注我,了解更多我对 2025 年 AI 的预测。