在AI音乐领域,过去主流的模型多属于“条件生成模型”,比如给定歌词生成旋律、给定旋律编配和声。这种模型虽然在短期内可以生成可听的段落,但其连贯性与情感建构始终停留在“拼接”层面,尽管能够生成高保真音频,但常常缺乏结构一致性和音乐性。 Mureka O1的最大突破,是首次将“思维链”(Chain of Thought)技术引入音乐生成系统,与之配套的还有技术全面升级的音乐基座模型Mureka V6。实现了“推理型音乐创作”。方汉介绍到:“让 AI 不再是简单的'即兴演奏者',而具备'作曲家'的思考逻辑。” 昆仑万维自研的CoT提示技术MusiCoT不同于传统自回归式的“下一个token”预测逻辑,MusiCoT通过CLAP跨模态对比学习、残差矢量量化(RVQ)与双温度采样策略,使模型具备“先构思结构、再生成内容”的能力。换言之,AI先规划音乐的整体蓝图,再逐步填充细节,更符合人类作曲的认知过程。MusicoT还通过参考音频嵌入,支持风格迁移和灵感捕捉,进一步打通“从思考到表达”的链条。
在Mureka O1的技术参数之外,真正令它在业内引发全球级回响的,并不是音频生成的保真度、风格迁移的精度,甚至也不是那套推理链(Chain of Thought)式的创作路径——这些在今天的大模型语境中,终究会被跟上、被模仿、被超越。而是它在一次技术突破背后所携带的观念转向——一个被称为“文化平权”的理想主义命题,开始具象地落在现实的地平线上。