支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源

2025-04-02 20:11:08

在当今数字化时代，语音识别技术已成为人机交互的关键桥梁，广泛应用于智能客服、语音助手、会议转录等众多领域。然而，对于东方语言的识别如越南语、缅甸语等，现有模型往往表现不佳，难以满足用户的需求。为解决这一难题，海天瑞声携手清华大学电子工程系语音与音频技术实验室，共同推出了Dolphin —— 一款专为东方语言设计的语音大模型。

论文.png

　　Dolphin核心亮点：

　　· 支持东方40个语种的语音识别，中文语种支持22方言(含普通话);

　　· 训练数据总时长21.2万小时：其中海天瑞声高质量专有数据13.8万小时，开源数据7.4万小时;

　　· 在3个测试集(Dataocean AI，Fleurs，CommonVoice)下，与Whisper同等尺寸模型相比：

　　- base版本平均WER降低63.1%;

　　- small版本平均WER降低68.2%;

　　- medium版本平均WER降低67.7%;

　　- large版本平均WER降低60.6%

　　·base与small版本模型与推理代码全面开源;Dolphin 开源的small版本与Whisper large v3相比，平均WER降低54.1%。

　　Dolphin的开源只是起点。未来，海天瑞声与清华大学电子工程系语音与音频技术实验室将继续探索更大规模模型的训练，以实现更广泛的语言覆盖和更卓越的性能。同时，我们也将优化模型以适应低延迟和实时应用场景，使其在更多领域发挥价值。此外，海天瑞声计划进一步加大对稀缺语言语种数据集的研发支持，为全球语音识别技术的均衡发展贡献力量。

　　Dolphin不仅是一款技术先进的语音识别模型，更是推动东方语言语音识别技术发展的重要力量。海天瑞声期待与全球研究者和开发者共同携手，开创语音识别技术的新篇章。

　　欢迎前往Github、HuggingFace、Modelscope、OpenI启智社区等社区搜索「Dolphin」进行体验~!

　　免责声明：本网站内容由网友自行在页面发布，上传者应自行负责所上传内容涉及的法律责任，本网站对内容真实性、版权等概不负责，亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

发布者:科技君

即刻体验！文心大模型X1现面向企业用户全面开放！探秘 DeepSeek 落地进展，腾讯云携手业界专家共话 AI 生产力

		自动登录	找回密码
密码			立即注册

支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源

相关阅读

相关分类

热门关注