2分钟快速了解第二届OpenAI开发者大会,5大新功能赋能开发者生态
划重点:
OpenAI周二低调在旧金山举行第二届开发者大会,没有邀请媒体参加,也未发布新产品。
本届开发者大会将分别在旧金山、伦敦、新加坡举办,10月30日和11月21日举办另外两场。
OpenAI面向开发者推出四款新工具,重心从直接在终端用户应用领域竞争,转向为开发者生态系统赋能。
目前已有超过300万的开发者使用OpenAI模型开发应用,显示出其平台的吸引力和竞争力。
10月2日消息,过去的一周对OpenAI而言充满了挑战,包括高层管理人员的离职和重要的筹资活动,但该公司已重新聚焦,致力于在其2024年开发者大会(DevDay)上吸引开发者利用其人工智能模型来构建工具。最近备受媒体关注的OpenAI首席执行官山姆·奥特曼(Sam Altman)并未在开发者大会中露面。
在本周一召开的新闻发布会上,OpenAI的首席产品官凯文·韦尔(Kevin Weil)向在场媒体保证,尽管公司首席技术官米拉·穆拉蒂(Mira Murati)和首席研究官鲍勃·麦克格鲁Bob McGrew)最近宣布离职,但这一变化不会对公司的前进步伐产生影响。韦尔满怀敬意地说:“我要首先指出,鲍勃和米拉是了不起的领导者。我深受他们的影响,他们对我们能取得今天的成就功不可没。而且,我们没有计划放缓我们的发展速度。”
去年,OpenAI在美国旧金山举办了首届引发业界轰动的开发者大会(DevDay 2023)。该公司当时邀请了众多媒体参加,在45分钟的主题演讲中发布了重大公告,推出了一系列新产品和工具,包括支持128K上下文的GPT-4 Turbo,API价格下调,新的Assistants API,具备视觉功能的GPT-4 Turbo,DALL·E 3 API,以及大幅改进的JSON模型,还有命运多舛的GPTs和类App Store平台GPT Store。微软首席执行官萨提亚·纳德拉(Satya Nadella)也进行了客串发言。
OpenAI的平台产品负责人奥利弗·古德蒙特(Olivier Godement)表示,该公司将不再在开发者大会上发布新模型,让模型遵循自己的研究和安全时间表。这种变化是在OpenAI因技术发展过快而受到批评的背景下发生的。OpenAI最初是一个非营利组织,目前正处于重组阶段,可能会使非营利实体失去控制权,并将其转变为一家传统的初创公司--这一举措旨在帮助其筹集资金、招募和留住人才。但这些变化正在“撕裂公司”,穆拉蒂和首席科学家伊利亚·苏茨克弗( Ilya Sutskever)的离职就是因为公司的发展速度过快。
在经历了去年开发者大会之后的高层人事变动之后,OpenAI今年选择了一种更为低调的方式来举办其开发者大会。与去年的盛会相比,OpenAI今年的开发者大会显得更为内敛。该公司先前已经声明,亦不邀请媒体参加。根据官方公布的相关信息显示,第2届DevDay开发者大会将在旧金山、伦敦、新加坡相继举行,时间分别为10月1日、10月30日和11月21日,活动内容则包括技术研讨会、分组讨论、产品演示等。此次活动的参加者在官网申请成功后,支付450美元注册费即可参加。
OpenAI的管理层表示,尽管公司面临着领导层的变动,但公司依然拥有超过300万的开发者在使用其AI模型进行开发,显示出其平台的吸引力和竞争力。尽管如此,OpenAI也意识到了市场竞争的加剧,尤其是来自Meta和Google等竞争对手的价格压力。为了吸引和保留开发者,OpenAI在过去两年中将API的访问成本降低了99%,这一策略可能是为了应对竞争对手的挑战。
OpenAI并未在本届开发者大会中发布新的人工智能前沿模型,而是将重点放在生态系统建设上,选择聚焦帮助开发者相互联系,并深入了解新的人工智能功能和产品。随着OpenAI从行业的颠覆者转变为平台提供者,其成功将依赖于能否培养一个充满活力的开发者生态系统的能力。通过提供更先进的工具、降低成本和增加支持,OpenAI为人工智能领域的持续增长和稳定打下了坚实的基础。虽然这种策略的直接影响可能不那么显而易见,但它有望最终促进人工智能在更广泛的行业中得以可持续和深入的应用。
OpenAI在本届开发者大会上推出了四项重大创新:视觉微调(Vision Fine-Tuning)、即时API(Realtime API)、模型蒸馏(Model Distillation)和提示缓存(Prompt Caching)。这些新工具标志着OpenAI战略重心的转移,即从直接在终端用户应用领域竞争,转向为其开发者生态系统赋能。
01 提示缓存:开发者的省钱利器
OpenAI在开发者大会上宣布了一个革命性的功能--提示缓存,它将大幅降低开发者的成本和操作延迟。该功能能够自动识别并缓存模型近期处理的输入token,并为这些缓存的token提供高达50%的价格优惠。对于那些需要频繁使用相同上下文的应用来说,这无疑是一个巨大的福音。
“我们一直在努力工作,”OpenAI平台产品负责人古德蒙特表示。“回想两年前,GPT-3还在市场上独领风骚。而如今,我们成功地将成本降低了1000倍。我实在想不出还有其他任何技术能在两年内实现如此大幅度的成本削减。”
这一显著的成本下降,为各类规模的企业和初创公司打开了探索新应用的大门,特别是那些因成本问题而迟迟未能启动的项目,现在终于有了实现的可能。
02 视觉微调:视觉人工智能的新纪元
另一个重要公告是为OpenAI的最新大语言模型GPT-4o引入视觉微调功能。这一新功能让开发者能够利用图像和文本来定制模型的视觉理解能力。该功能的影响非常深远,可能会对自动驾驶汽车、医学成像和视觉搜索功能等领域产生重大影响。
OpenAI表示,东南亚送餐和网约车公司Grab已在利用这项技术来改进其地图服务。仅通过100个示例,Grab就实现了车道计数准确率20%的提升和限速标志定位率13%的提高。这一现实世界的应用展示了视觉微调如何利用小批量的视觉训练数据,显著提升各行各业的人工智能服务的可能性。
03 即时API:填补对话式AI的空白
OpenAI还推出了即时API的公开测试版。这是一项新服务,允许开发者创造低延迟、多模态的体验,特别是在语音转语音应用中。这意味着开发者可以开始将ChatGPT的语音控制功能添加到应用中。
为了展示API的潜力,OpenAI展示了去年大会上展示的旅行规划应用Wanderlust的更新版本。利用即时API,用户可以直接与应用对话,以自然对话的方式规划他们的旅行。
虽然旅行规划只是一个例子,但即时API为各种行业的语音启动应用打开了广泛的可能性。从客户服务到教育和辅助工具,开发者现在有了强大的新资源,可以创建更直观、更响应灵敏的人工智能驱动体验。“每当我们设计产品时,我们基本上都会考虑初创公司和企业,”古德蒙特解释说。“因此,在Alpha测试中,我们有许多企业使用API、新产品的新模型。”
即时API本质上简化了构建语音助手和其他对话式人工智能工具的过程,消除了将多个模型组合用于转录、推理和文本到语音转换的需要。早期采用者,如健康和健身辅导应用Healthify,以及语言学习平台Speak,已经把即时API集成到他们的产品中。即时API的定价结构,尽管每分钟音频输入0.06美元,每分钟音频输出0.24美元并不便宜,但对于那些希望创建基于语音的应用的开发者来说,可能仍然具有重要的价值。
04 模型蒸馏:人工智能普及的新篇章
OpenAI还发布了模型蒸馏技术,这可能是其最具变革性的进展。该技术允许开发者利用o1-preview和GPT-4o等高级模型的输出,来增强GPT-4o mini等更高效模型的性能。
这一创新使得小微企业能够以更低的计算成本,获得与大型模型相媲美的能力,从而解决了人工智能行业中长期存在的矛盾:即资源密集型与易于获取但功能有限的系统之间的差距。例如,一家小型医疗技术初创公司可以利用模型蒸馏技术,为农村诊所开发人工智能驱动的诊断工具。该公司能够训练一个轻量级模型,该模型不仅能够在标准设备上运行,还能提供接近大型模型的诊断精度,这将有望改善资源有限地区的医疗服务。(腾讯科技特约编译无忌)