Meta 的基础 AI 研究(FAIR)团队发布了公司第一款开源多模态语言模型「Spirit LM」,能集成文本和语音的输入及输出,其最大特色在于可查看出语音中的情绪,进而让 AI 交互更自然。
Meta 通过文本生语音、语音生语音两种使用情境来展示 Spirit LM,在视频中可看到当用户输入「一则关于一只可爱聪明的猫的故事」,AI 就能生成一篇语音故事;后者则让用户和 AI 进行对话。
Spirit LM 能运行的任务包括:自动语音辨识、文本转语音、语音分类。
Meta 表示,以往语音模型需要自动语音辨识(ASR)来转录语音输入,再交由 LLM 合成以生成文本,最后由 TTS 将文本转为语音,这个过程常常会牺牲掉言语中的语气和情感等,因此 Spirit LM 通过语音、音色和音调 token 来克服这些限制。
Spirit LM 共有两个版本,「Spirit LM Base」是使用语音 token(HuBERT)来处理和产生语音,而另一版「Spirit LM Expressive」则是加入了音色和音调 token,让模型能捕捉更细腻的情绪,并在生成的语音中反映出来。
Spirit LM 是基于一个 7B 的预训练文本语言模型,研究员借由用文本和语音来训练,来拓展模型的语音模态。
Spirit LM 完全开源,提供研究人员和开发人员提供模型权重、代码和支持文档,但目前在FAIR 的非商业研究授权下,只能用于非商业用途。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。