OpenAI 12天12场发布会第9天：推出 OpenAI o1 和多项开发者工具

聚牛科技

2024-12-19 21:13发布于内蒙古

OpenAI于12天12场发布会的第9天，发布了一系列面向开发者的新工具和功能升级，旨在提升性能、灵活性和成本效益，进一步推动 AI 技术的发展。

OpenAI o1 模型：推理与效率的革新

OpenAI o1 是 OpenAI 最新推出的推理模型，以其高精度处理复杂多步骤任务的能力，正式向开发者推出。作为 OpenAI o1-preview 的继任者，o1 模型已经在简化客户支持、优化供应链决策和预测复杂财务趋势等方面展现出巨大潜力。

o1 模型的关键功能包括：

1. 函数调用：允许 o1 无缝连接到外部数据和 API，增强了模型的实用性。

2. 结构化输出：生成遵守自定义 JSON 架构的响应，提高了数据的可用性。

3. 开发人员消息：允许定义模型的语气、样式和其他行为指导，增强了模型的适应性。

4. 视觉功能：对图像进行推理，解锁了视觉输入重要的新应用领域。

5. 更低延迟：o1 使用的推理令牌平均比 o1-preview 少 60%，提升了响应速度。

6. 'reasoning_effort' API 参数：允许控制模型在回答之前思考的时间，增加了灵活性。

实时 API 更新：提升对话体验

OpenAI 还宣布了实时 API 的一系列更新，包括直接 WebRTC 集成、GPT-4o 音频降价 60%，以及以以前音频速率的十分之一支持 GPT-4o mini。这些更新旨在创建低延迟、自然的对话体验，适用于语音助手、实时翻译工具等多种应用场景。

WebRTC 集成：WebRTC 作为一种开放标准，使得跨平台构建和扩展实时语音产品变得更加容易。OpenAI 的 WebRTC 集成处理音频编码、流式处理、噪声抑制和拥塞控制，提供了流畅且响应迅速的交互体验。

成本效益提升：GPT-4o 和 GPT-4o mini 实时快照的发布，不仅改进了语音质量，提高了输入效率，还降低了成本。音频代币价格降低至 40 美元/1M 输入代币和 80 美元/1M 输出代币，而 GPT-4o mini 的价格更是降至 10 美元/1M 输入代币和 20 美元/1M 输出代币。

控制响应的新功能：OpenAI 还提供了并发带外响应、自定义输入上下文和受控的响应时间等功能，以便开发者更轻松地提供卓越的语音驱动体验。

首选项微调：个性化模型定制

首选项微调是一种新的模型自定义技术，它使用直接首选项优化（DPO）教模型区分首选输出和非首选输出。

这种方法特别适合于语气、风格和创造力重要的主观任务，能够将性能从基本模型中的 75% 准确率提高到 80% 以上。