找回密码
 立即注册
科技快报网 首页 科技快报 业界资讯 查看内容
揽获多项产品技术创新大奖!TCL实业携顶尖科技闪耀CES 2026技嘉于 CES 2026 发布CQDIMM 技术 实现 256GB 满载 DDR5-7200 极限性能伊利秉持潘刚的“社会价值领先”理念,推动可持续生态共建邦彦云PC赋能AI标注新变革:安全、效率、协同三重突破引领行业升级央视《匠心中国》聚焦易视界:十八载坚守诠释视保匠心合合信息Chaterm入选沙利文《2025年中国生成式AI行业最佳应用实践》灵犀智能CES 2026参展纪实 登顶AI陪伴产品榜单星空源储首次亮相 CES 探索AI驱动的全场景智慧能源新生态新年有小艺,“艺”马当先接鸿运全球AI新品京东首发 三天超长CES探展直播让3C数码新品触手可及腾讯音乐(TME)年度盛典圆满收官:用数据说话,全面呈现华语乐坛多元生态香港空运部成立运营,全球化网络布局再落关键一子成者AI会议机器人等系列新品打响“AI会议时代”系统战从科技创新至产业创新:从光谱技术的全景比较,看“中国原创”的力量锚定欧美增长极,未岚大陆以全场景方案展现中国智造品牌顶尖科技实力成年人直播打赏有无“后悔药”?央视报道法院判例:驳回退款诉求P300全球首发:普宙科技在CES发布全新“城市低空智能体”东软集团获得华为“钻石经销商”认证德适生物将赴港上市,染色体核型分析领域市占率第一歌尔亮相CES 2026:声光电技术革新助力智能交互体验升级

云知声原创技术再获肯定:多篇论文被国际语音顶会 INTERSPEECH 2020 收录

2020-10-23 12:26:33 来自: 消费日报网

  近日,全球语音顶会INTERSPEECH 2020 公布了论文接收结果,云知声联合上海师范大学、安徽大学等高校发表多篇论文成功入选。分别在中英文混合语音识别、大词汇量连续语音识别和多模态虚拟形象生成等领域取得突破,代表着云知声在语音及多模态交互领域持续的底层技术创新。同时,云知声也是今年会议的金牌赞助商,致力于加强工业界和学术界的技术协作,支持会议顺利举行。

  INTERSPEECH 是世界上规模最大、最全面的顶级语音领域会议,由国际语音通信协会 ISCA(International Speech Communication Association)组织。该会议每年举办一次,今年大会是第 21 届 INTERSPEECH 会议,也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题,内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域,收到超过 2100 篇投稿论文。会议研究成果代表着语音相关领域的最新研究水平和未来的技术发展趋势。

  作为 INTERSPEECH 会议的一部分,国际语音合成比赛 Blizzard Challenge 2020 研讨会将于 10 月 30 日举行。Blizzard Challenge 是当今全球规模最大、最具影响力的语音合成领域顶尖赛事,在今年的 Blizzard Challenge 比赛中,由云知声-上海师范大学自然人机交互联合实验室申报的系统在强敌环伺的赛场中突出重围,首次参赛即斩获中文普通话、上海话多项关键指标第一。在 10 月 30 日的研讨会上,研究团队会通过 live online oral presentation 的形式对参赛系统进行详细解读,欢迎参与和讨论。

  中英文混合语音识别

  在中英文混合语音识别方向,针对混合语言语音 (code-switching) 场景,研究团队提出了一个基于Transformer模型的多编码器-解码器结构的语码转换混合语音识别方案(Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition),该结构具有两个对称的与特定语言相关的编码器,以捕获各种语言的特有属性,从而改善每种语言的深度声学表示。这些深度表示被进一步在解码器模块中使用特定于语言的多头注意力机制进行有效整合,以最终提升整个端到端识别系统的性能。同时,团队还使用了大规模单语言语料库对每个编码器及其相应的注意力模块进行了预训练,旨在减轻语码转换训练数据不足的影响。借助预训练方式,研究团队的模型分别在 SEAME 中以中文和英文为主的评估集上达到 16.7% 和 23.1% 的词错误率,刷新了在此数据集上的最好成绩,相对之前论文的最佳成绩提升了12.5%的性能。

语码转换语音实例及多编码器的输出


  大词汇量连续语音识别

  研究团队提出了一种新颖的带深度声学结构和 Self-and-Mixed 注意力解码器结构(Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR),其利用具有深度声学结构的 Self-and-Mixed 注意力解码器,以改善基于 Transformer 的大词汇量连续语音识别的声学表示。具体来说,研究团队引入一种自注意力机制,以获取深层的声学表征。研究团队还设计了一种混合注意力机制,该机制可以在共享的特征空间中同时学习不同层次的声学表征及其对应的语言信息之间的对齐关系。本项研究工作在 AIShell-1 数据集上曾刷新最佳成绩,字符错误率降低至 5.1%,相对之前的最佳成绩提升了 24% 的性能,显著提升了识别效果。

  多模态虚拟形象生成

  如何在提高虚拟人面部动作的丰富和自然度,是目前虚拟人生成的热点问题。研究团队提出了一种基于面部关键点和改进的  GAN 模型的两级模型生成方案,实现从语音到虚拟人形象的生成,在本方案中,利用面部关键点作为语音特征到视频生成之间的信息表达中介,同时引入 attention 机制,解决在虚拟人生成过程中不同区域因子对视频效果质量的影响。实验生成的视频结果表明本方法保持了丰富的面部细节、精确的嘴部动作和自然的头动效果。在娱乐应用、拟人化交互等领域有广泛的应用和落地场景。

  人工智能成功的关键在应用,而所有应用皆源自底层技术。为不断拓宽自身基础能力边界,云知声深入布局了语音、语言、视觉图像、机器翻译、AI芯片等诸多方向,形成丰富的具备全球领先的原创技术积累,相关研究成果多次在 NIPS、NIST、WMT、ACL 等全球顶会与赛事中得以印证。

  本次在 INTERSPEECH 2020 大会上这些原创技术的提出,也将进一步夯实云知声全栈+硬核的人工智能技术“底座”,提高云知声在智能语音和多模态人机交互领域的技术领先性,推动人工智能系统以更人性化、高效的方式服务于千行百业,为用户带来更好的交互体验。

12

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:科技快报网

相关阅读

微信公众号
意见反馈 科技快报网微信公众号