清华电子系联合火山语音开源全新的听觉大语言模型 ——SALMONN
SALMONN 是一个由清华大学电子工程系和字节跳动合作开发的大型语言模型,能够处理语音、音频事件和音乐输入。相比于只能处理语音或音频事件的模型,SALMONN 能够感知和理解各种音频输入,并因此具备了多语言语音识别和翻译以及音频 – 语音推理等新兴能力。该模型通过增加通用音频编码器和融合器来实现对音频模态的直接感知,使得模型可以直接从物理世界获取知识。研究团队将在近期开源 SALMONN v1.0 模型及相关代码,并持续更新模型,为建设开源的通用人工智能做出贡献。
发表评论