找回密码
 立即注册
科技快报网 首页 科技快报 快报 查看内容
鸿蒙5终端突破2000万!超百家伙伴齐贺,近20家伙伴携手带来“鸿蒙有礼特别版”数字人惊艳2025云栖大会!NuwaAI开创“真人+数字人”搭档协作新模式腕上米兰时装周惠聚京东 时尚智能手表享国补再叠12期免息猛士M817 Max+版新款上市,如何用“超200km纯电续航+顶级智驾”构建代差级领先?科脉云帆OS平台:以产品力重构零售结算生态从3G、4G到5G,高通孟樸回顾携手中国伙伴30年发展历程长城汽车魏建军:反对内卷和过度夸张营销,高管在发布会上若过度夸张宣传,回来受处分从“人找信息”到“信息追人”:鸿蒙5实况窗让出行“一眼安心”国庆宅家新潮流,让小艺当你的贴心家教与专属摄影师工博会技术深观察:加特兰如何用感知通信融合破解辅助驾驶难题当可以“玩”的电子家具成为情绪充电站,情绪经济推动下的产品变革为放心消费加码!箭牌瓷砖主编《佛山陶瓷放心消费品牌规范》英特尔联动「扣子 AI 工坊」启动高校计划——让校园创意一键开挂从优篮子到 JOBY:唯迹科技的全球化成长之路哈曼携手高通,助推汽车生成式AI跃迁华为坤灵发布IdeaHub千行百业体验官计划,助力中小企业跃升智能化天玑9500征服《崩坏:星穹铁道》,实测57.64FPS,功耗6W出头哈曼完成对 Sound United收购,强化高端音频领域领导地位戴尔科技:从“模型驱动”到“数据驱动”,重塑企业智能化转型新范式企业新型生产力平台ZENAVA正式发布,AI员工全面落地客服与营销场景

云知声-上海师范大学自然人机交互联合实验室获 Blizzard Challenge 2020 国际语音合成大赛第一名

2020-08-17 15:28:02 来自: 中华网

Blizzard Challenge 2020 国际语音合成大赛刚刚落下帷幕。由云知声-上海师范大学自然人机交互联合实验室申报的系统在强敌环伺的赛场中突出重围,首次参赛即斩获中文普通话、上海话多项关键指标第一,再一次印证了云知声语音合成技术在业界的领先水准。

Blizzard Challenge 国际语音合成大赛是由美国卡耐基-梅隆大学和日本名古屋工业大学联合发起的公开的语音合成技术评测平台,是语音合成领域最具权威性的技术评测比赛。比赛旨在构建一个公开、统一的语音合成技术评测平台,加强世界各地语音合成研究机构之间的技术交流与沟通,共同推动语音技术的快速发展。

其作为国际上规模最大、影响力最大的语音合成大赛,至今已成功举办过 15 届,每年都吸引众多国际一流的科研单位和企业参赛。以往参赛队伍包括 CMU(美国卡耐基-梅隆大学)、Cambridge University(英国剑桥大学)、University of Edinburge(英国爱丁堡大学)、Nitech (日本名古屋工业大学)、科大讯飞、中科院自动化所等国内外语音合成领域的顶尖高手。

多指标领跑,强劲的综合实力

语音作为人工智能技术发展的三大方向之一,在应用落地过程中,受外部环境影响极大,因此对语音系统模型、引擎等要求极为严苛。从语音合成需求的角度来看,自然度、相似度和可懂度是实际应用中最为核心的三大核心指标。

Blizzard Challenge 2020 分两个任务:

1)中文普通话合成(Hub task),以高表现力的声音作为合成样本,充分考察参赛者对复杂多变的韵律节奏的把控能力,旨在输出高真实感的合成语音,另外这次比赛还考察参赛者对段落韵律的把控能力;

2)上海话合成(Spoke task),提供的声音数据较少,充分考察参赛者在小样本上的学习能力。

本次比赛中,联合实验室团队凭借在合成领域的深厚积累,中文普通话合成自然度 MOS 达到 4.2,段落合成所有指标(Overrall impression\pleasantness\speech pauses\stress\intonation\emotion\listening effort)位列第一,并且通过迁移学习,从零开始快速构建了上海话合成系统,合成自然度 MOS 达到4.0,双双领跑;与此同时,普通话相似度、上海话可懂度两项指标亦领跑榜单,充分体现了团队合成技术的综合实力。

注:A 为真人声B-Q 为参赛队伍,云知声-上海师范大学联合实验室队伍代码为 I

注:自然度主要评价合成语音是否像真人说话一样自然流畅,相似度主要评价合成语音与目标说话人在音色和韵律上的相似程度,自然度和相似度是合成系统的最重要的两个评测指标,分数越高,说明效果越好。一般大学生发音自然度为 4.0 分。由于上海话原始数据质量较低,团队为了获得更好的听感,对原始语音进行了升采样率的处理,所以相似度方向会有损伤。

本次大赛上,团队采用业界主流的端到端合成技术,并针对端到端合成系统普遍存在的稳定性和效率问题进行了较多优化,在解决稳定性的同时,可以实现高效率的合成。目前,该项技术已经在云知声家居、金融、儿童机器人等业务领域合作伙伴的产品中广泛使用,并取得良好反响。

另外,本次比赛涉及大规模高复杂度的模型训练,在这过程充分体现了云知声计算资源优势。实际上,从 2012 年开始,云知声便开始搭建自身的 DeepFlow 集群,该异构化硬件服务器集群可向上提供密集的计算和存储能力,保证云知声研发团队充足算力的支持。目前该集群规模为 1000GPU 以上,计算能力达 1 亿亿次/秒,在以美国的 IBM Summit 超算平台、我国的神威太湖之光超算平台为代表的全球超算平台算力排名中位列前 20 位。

在 DeepFlow 集群的支撑下,云知声建设完成了 Atlas 分布式机器学习并行计算平台,可内部协同共享 AI 底层研发技术成果,迁移复用至各领域应用,最终完成 ASR、TTS、NLU 等顶层 AI 技术的输出与应用。

参赛只是一场自我测试,技术研究的终点一定是应用。未来,云知声将以此实验室研究成果为支撑,生成有温度的声音,帮助客户打造完美的人际交互体验。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:张晴

相关阅读

微信公众号
意见反馈 科技快报网微信公众号