字节跳动推出原生全双工语音大模型Seeduplex

admin1 2小时前阅读数 2 #财经

字节跳动宣布推出原生全双工语音大模型Seeduplex。据引见，相比于上一代半双工豆包端到端语音模型，Seeduplex基于“边听边说”的全新框架设计，交互体验的天然感、顺畅度大幅优化。目前，Seeduplex已在豆包App全量上线。

端到端的语音对话模型-MinMo

MinMo是一种multimodal的大言语模型，具有约8B参数，能够成功加快的语音交互与细腻的语音回复。其ASR模块识别照应到达100ms，双工照应的延迟可低至600ms（通常中为800ms，在L20 GPU环境下）。以下是对MinMo的详细引见，包括模型结构、训练数据以及关键模块的训练细节。

一、关键任务

二、模型结构

MinMo的模型结构关键包括以下几个部分：

Voice Decoder的任务流程：

三、各模块分步式训练细节

MinMo的训练数据涵盖了多个范围和义务，详细散布如下：

训练环节分为四个阶段：

四、总结

MinMo模型的关键在于：

MinMo在少量chat类型的语音数据上启动训练，使得模型在坚持chat才干的同时，还能具有良好的音频了解才干。此外，LLM部分担任audio到semantic的对齐，而Voice Decoder中的Voice Token LM进一步对齐semantic到speech token，从而成功了端到端的语音对话性能。

版权声明

本文来自网络，不代表本站立场，内容仅供娱乐参考，不能盲信。
未经许可，不得转载。

上一篇：霍尔木兹海峡完全封锁以色列剧烈轰炸黎巴嫩美伊宣布停战满24小时下一篇：容器服务及弹性MapReduce EMR 腾讯云相关产品刊例价上调5% 对AI算力

字节跳动推出原生全双工语音大模型Seeduplex

端到端的语音对话模型-MinMo

版权声明

作者文章