1.斯坦福大学李飞飞团队推出全新多模态语言模型,实现富有表现力的动作生成和理解。
2.该模型可同时接受音频和文本输入,支持动作编辑,将原本的绕圈走动更换为其他动作序列。
3.实验结果显示,新方法得到的多模态语言模型在预训练期间从未见过语音-动作数据,但在用于数据相对较少的全新说话人时,依然达到了颇具竞争力的性能。
4.除此之外,该模型在根据动作预测情绪方面表现出色,能够准确响应音频和文本的双重指令。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道
论文标题:The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
论文地址:https://arxiv.org/abs/2412.10523v1
项目页面:https://languageofmotion.github.io/
语言模型能自然地与其它模态连接起来;
语音富含语义,而「建模因笑话而发出的笑声」这样的任务需要强大的语义推理能力;
经过大量预训练之后,语言模型能够具备强大的语义理解能力。
首先,进行预训练,目标是通过身体组合动作对齐与音频 - 文本对齐来对齐各种不同的模态。
预训练完成后,将下游任务编译成指令,并根据这些指令训练模型,使模型能够遵循各种任务指令。
空间
时间
查看原图 57K