多模态运动语言模型MotionGPT 可将语言指令转换为3D人体运动

JS滚动广告
✨ AI前沿 | 每日人工智能最新资讯 ✨

多模态运动语言模型MotionGPT是一款令人惊叹的技术创新,它统一了语言和运动,将语言指令转换为引人入胜的3D人体运动。这一模型的设计灵感源于即时学习,通过混合运动语言数据进行预训练,并通过基于提示的问答任务进行微调,使其具备卓越的性能。模型通过将人体动作视为一种特定的语言进行建模训练,实现了运动与文本的无缝结合。MotionGPT采用了离散向量量化,将3D运动转化为运动令牌,这一过程类似于生成单词令牌的方式。MotionGPT的独特之处在于它能够从零散的语言指令中理解并生成引人入胜的人体运动,无论是踢腿还是跳舞,模型都能迅速响应。这种全新的运动语言模型为虚拟现实、电影制作等领域带来了前所未有的可能性。

发表评论