本站出售,有兴趣带价格联系QQ:503594296

字节跳动推出原生全双工语音大模型Seeduplex

admin1 2小时前 阅读数 2 #财经

字节跳动宣布推出原生全双工语音大模型Seeduplex。据引见,相比于上一代半双工豆包端到端语音模型,Seeduplex基于“边听边说”的全新框架设计,交互体验的天然感、顺畅度大幅优化。目前,Seeduplex已在豆包App全量上线。


端到端的语音对话模型-MinMo

端到端的语音对话模型-MinMo

MinMo是一种multimodal的大言语模型,具有约8B参数,能够成功加快的语音交互与细腻的语音回复。 其ASR模块识别照应到达100ms,双工照应的延迟可低至600ms(通常中为800ms,在L20 GPU环境下)。 以下是对MinMo的详细引见,包括模型结构、训练数据以及关键模块的训练细节。

一、关键任务

二、模型结构

MinMo的模型结构关键包括以下几个部分:

Voice Decoder的任务流程:

三、各模块分步式训练细节

MinMo的训练数据涵盖了多个范围和义务,详细散布如下:

训练环节分为四个阶段:

四、总结

MinMo模型的关键在于:

MinMo在少量chat类型的语音数据上启动训练,使得模型在坚持chat才干的同时,还能具有良好的音频了解才干。 此外,LLM部分担任audio到semantic的对齐,而Voice Decoder中的Voice Token LM进一步对齐semantic到speech token,从而成功了端到端的语音对话性能。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门
标签列表