找回密码
 立即注册
科技快报网 首页 科技快报 IT资讯 查看内容
央视《匠心中国》聚焦易视界:十八载坚守诠释视保匠心合合信息Chaterm入选沙利文《2025年中国生成式AI行业最佳应用实践》灵犀智能CES 2026参展纪实 登顶AI陪伴产品榜单星空源储首次亮相 CES 探索AI驱动的全场景智慧能源新生态新年有小艺,“艺”马当先接鸿运全球AI新品京东首发 三天超长CES探展直播让3C数码新品触手可及腾讯音乐(TME)年度盛典圆满收官:用数据说话,全面呈现华语乐坛多元生态香港空运部成立运营,全球化网络布局再落关键一子成者AI会议机器人等系列新品打响“AI会议时代”系统战从科技创新至产业创新:从光谱技术的全景比较,看“中国原创”的力量锚定欧美增长极,未岚大陆以全场景方案展现中国智造品牌顶尖科技实力成年人直播打赏有无“后悔药”?央视报道法院判例:驳回退款诉求P300全球首发:普宙科技在CES发布全新“城市低空智能体”东软集团获得华为“钻石经销商”认证德适生物将赴港上市,染色体核型分析领域市占率第一歌尔亮相CES 2026:声光电技术革新助力智能交互体验升级TCL实业CES 2026:SQD-Mini LED显示技术定义“视”界新高度,全场景AI“智”领未来做时代的主角·戈峻2026跨年夜话广州开讲可以科技携全球首款桌面AI伙伴DeskMate登陆2026 CES 开启“人机共生”新范式赛感科技亮相CES 2026:全球首发两项触觉传感新技术

Kaldi之父Daniel Povey博士:发布k2核心代码

2020-11-16 14:50:00 来自: 网易科技

11月15日,第五届Kaldi技术交流会在北京举办。Kaldi之父Daniel Povey博士首次亲临现场,与来自北京各大互联网公司、知名高校的开发者们深入交流下一代Kaldi社区未来的发展。


加入小米一年,Daniel Povey设计并开发出了新一代Kaldi。新一代Kaldi分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

其中,Lhotse(训练数据准备部分)将替代以前Kaldi中所有数据准备相关的工作,操作各种音频和文本的元数据。Lhotse除了Kaldi本身,也适用于其他应用。而且Lhotse纯Python代码,方便易用。

Icefall(示例脚本集合部分)将代替Kaldi中的示例脚本集合,并独立成为一个单独的子项目。之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

据介绍,新一代Kaldi的核心部分叫“k2”。k2可以让开发者很容易在PyTorch/TensorFlow中实现各种语音识别相关算法,比如CTC、LF—MMI、RNN—T、2nd—pass语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

同时,通过k2可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。相较于其他一些语音识别库的优势,k2速度更快,通用性强(可以用来建模多种语音识别算法)。

Daniel Povey博士透露,k2核心代码已完成。约41000行代码(主要是C++),本周刚发布0.1版本。

资料显示,Daniel Povey博士目前担任小米集团语音首席科学家,由他开发和维护Kaldi 集成了多种语音识别模型,公认是业界语音识别框架的基石。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:科技君

相关阅读

微信公众号
意见反馈 科技快报网微信公众号