阿里巴巴重磅发布,挑战OpenAI o1的AI模型新秀

全文1055字,阅读约需4分钟,帮我划重点

划重点

01阿里巴巴发布名为QwQ-32B-Preview的新AI模型,被认为是少数能与OpenAI GPT模型相媲美的模型之一。

02该模型拥有325亿个参数,能处理长达32,000个单词的提示,在某些基准测试中表现超过GPT-3.5 Turbo和GPT-3。

03然而,QwQ-32B-Preview在需要“常识推理”的任务上表现不佳,可能会意外切换语言或陷入循环。

04与GPT类似,QwQ-32B-Preview通过任务推理,提前规划并执行一系列操作以得出答案。

05该模型在Apache 2.0许可下“公开”可用,但只有模型的某些组件被发布,无法完全复制或深入了解其内部工作原理。

以上内容由腾讯混元大模型生成,仅供参考

图片

由阿里巴巴 Qwen 团队开发的名为 QwQ-32B-Preview 的新AI模型已经问世,它被认为是少数几个能够与 OpenAI 的 GPT 模型相媲美的模型之一,并且是第一个在宽松许可下可供下载的模型。
QwQ-32B-Preview 拥有 325 亿个参数,能够处理长达 32,000 个单词的提示。在某些基准测试中,它的表现甚至超过了 OpenAI 迄今为止发布的两个推理模型——GPT-3.5 Turbo(o1-preview)和 GPT-3(o1-mini)。(参数数量大致反映了模型解决问题的能力,通常参数更多的模型表现更优。值得注意的是,OpenAI 并未公开其模型的参数数量。)
阿里巴巴的内部测试显示,QwQ-32B-Preview 在 AIME 和 MATH 测试中超越了 OpenAI 的 GPT 模型。AIME 是一个使用其他 AI 模型来评估性能的测试,而 MATH 则是一系列文字描述的数学问题。
得益于其卓越的“推理”能力,QwQ-32B-Preview 能够解决逻辑难题和回答具有挑战性的数学问题。然而,该模型并非无懈可击。阿里巴巴在博客文章中指出,QwQ-32B-Preview 可能会意外切换语言、陷入循环,并且在需要“常识推理”的任务上表现不佳。

图片

与大多数人工智能模型不同,QwQ-32B-Preview 和其他推理模型能够有效地进行自我事实核查,这有助于它们避免一些常见的陷阱。但这种能力的缺点是,它们通常需要更长的时间来找到解决方案。与 GPT 类似,QwQ-32B-Preview 通过任务推理,提前规划并执行一系列操作,以帮助模型得出答案。
QwQ-32B-Preview 在 Apache 2.0 许可下“公开”可用,这意味着它可以用于商业应用。但目前只有模型的某些组件被发布,因此无法完全复制 QwQ-32B-Preview 或深入了解其内部工作原理。关于 AI 模型的“开放性”尚无定论,但存在从更封闭(仅 API 访问)到更开放(模型、权重、数据公开)的连续性,而 QwQ-32B-Preview 则介于这两者之间。
随着“缩放定律”的可行性受到越来越多的关注,推理模型也受到了越来越多的关注。“缩放定律”长期以来一直被奉为理论,即向模型投入更多数据和计算能力将不断提高其能力。然而,大量新闻报道称,OpenAI、Google 和 Anthropic 等主要 AI 实验室的模型并没有像以前那样显著改进。
这导致了对新 AI 方法、架构和开发技术的争夺,其中之一就是测试时计算。测试时计算,也称为推理计算,本质上为模型提供了额外的处理时间来完成任务,并支持 GPT 和 QwQ-32B-Preview 等模型。
除了 OpenAI 和中国公司之外,大型实验室也认为测试时计算是未来的趋势。根据 The Information 最近的一份报告,谷歌已将专注于推理模型的内部团队扩大到约 200 人,并为这项工作增加了大量计算能力。


- END -