字节跳动推出原生全双工语音大模型Seeduplex
字节跳动宣布推出原生全双工语音大模型Seeduplex。据引见,相比于上一代半双工豆包端到端语音模型,Seeduplex基于“边听边说”的全新框架设计,交互体验的天然感、顺畅度大幅优化。目前,Seeduplex已在豆包App全量上线。
端到端的语音对话模型-MinMo
端到端的语音对话模型-MinMo
MinMo是一种multimodal的大言语模型,具有约8B参数,能够成功加快的语音交互与细腻的语音回复。 其ASR模块识别照应到达100ms,双工照应的延迟可低至600ms(通常中为800ms,在L20 GPU环境下)。 以下是对MinMo的详细引见,包括模型结构、训练数据以及关键模块的训练细节。
一、关键任务
二、模型结构
MinMo的模型结构关键包括以下几个部分:
Voice Decoder的任务流程:
三、各模块分步式训练细节
MinMo的训练数据涵盖了多个范围和义务,详细散布如下:
训练环节分为四个阶段:
四、总结
MinMo模型的关键在于:
MinMo在少量chat类型的语音数据上启动训练,使得模型在坚持chat才干的同时,还能具有良好的音频了解才干。 此外,LLM部分担任audio到semantic的对齐,而Voice Decoder中的Voice Token LM进一步对齐semantic到speech token,从而成功了端到端的语音对话性能。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。
金融池


