找回密码
 立即注册
科技快报网 首页 科技快报 业界资讯 查看内容
一位迷路的外卖小哥,接到一封奇怪订单,误闯入铝博会的“千门万窗”华为董事长梁华:2025年公司销售收入突破8800亿元,再创新高透过一扇门,读懂一座城,门,对安义人,是闯荡、是事业,是回家的路权威认证加持,中国科技品牌绿联推进充电宝体验与品质升级千问第二波免单恰逢情人节 县城钟点房帮订量暴增约300%阿里投入超30亿没白花!千问总裁:效果远超预期 后期上线新功能2026央视春晚:菁彩Vivid视听技术护航,让全球华人共赏沉浸式中国年2.25~2.27,铝创未来看安义!门窗人的盛宴,邀您相聚鸿蒙版支付宝解锁新春新玩法!碰一下分享福卡,年味直接拉满反向春运不凑活!海信百吋承包三代人的快乐QQ新功能脑洞秀上线元宝,支持用Q版虚拟形象创作AI视频京东与海信签署战略合作协议 冲击三年1000亿销售目标梧桐科技与腾讯音乐共建行业首个座舱AI“声学创新实验室”安义铝博会,还能这么玩?我们用AI,把门窗界的“时空宇宙”搬到了现场大麦“麦宝”智能体升级,鸿蒙6用户通过小艺即可体验“一句话订电影票”华为乾崑智驾ADS V4.1正式推送中!全方位助力岚图汽车焕新升级春节拍照废片三连?鸿蒙版醒图这波更新,专治各种“不忍删”数智驱动奶业革新 潘刚引领伊利打造全链智能智造标杆极萌美容仪好用吗?从研发到体验,看懂它的核心优势中东皇室背书与全球高端圈层认可,AURORA手机正式落子全球高奢赛道

支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源

2025-04-02 20:11:08

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。然而,对于东方语言的识别如越南语、缅甸语等,现有模型往往表现不佳,难以满足用户的需求。为解决这一难题,海天瑞声携手清华大学电子工程系语音与音频技术实验室,共同推出了Dolphin —— 一款专为东方语言设计的语音大模型。

lALPM4OspnkAEnzNA_LNBwQ_1796_1010.png

论文.png

  Dolphin核心亮点:

  · 支持东方40个语种的语音识别,中文语种支持22方言(含普通话);

  · 训练数据总时长21.2万小时:其中海天瑞声高质量专有数据13.8万小时,开源数据7.4万小时;

  · 在3个测试集(Dataocean AI,Fleurs,CommonVoice)下,与Whisper同等尺寸模型相比:

  - base版本平均WER降低63.1%;

  - small版本平均WER降低68.2%;

  - medium版本平均WER降低67.7%;

  - large版本平均WER降低60.6%

  ·base与small版本模型与推理代码全面开源;Dolphin 开源的small版本与Whisper large v3相比,平均WER降低54.1%。

  Dolphin的开源只是起点。未来,海天瑞声与清华大学电子工程系语音与音频技术实验室将继续探索更大规模模型的训练,以实现更广泛的语言覆盖和更卓越的性能。同时,我们也将优化模型以适应低延迟和实时应用场景,使其在更多领域发挥价值。此外,海天瑞声计划进一步加大对稀缺语言语种数据集的研发支持,为全球语音识别技术的均衡发展贡献力量。

  Dolphin不仅是一款技术先进的语音识别模型,更是推动东方语言语音识别技术发展的重要力量。海天瑞声期待与全球研究者和开发者共同携手,开创语音识别技术的新篇章。

  欢迎前往Github、HuggingFace、Modelscope、OpenI启智社区等社区搜索「Dolphin」进行体验~!

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:科技君

相关阅读

微信公众号
意见反馈 科技快报网微信公众号