找回密码
 立即注册
科技快报网 首页 科技快报 业界资讯 查看内容
易视界拜祖大典圆满举行 弘扬传统文化精神存储芯片价格持续走高,三星Q4大赚,市占重回第一二十而冠,向新而行 深圳村田科技有限公司20周年庆典暨新年会盛大举行Dell Private Cloud新增对Nutanix的兼容支持,为企业带来更多选择Soul创始人张璐团队联合复旦发布社交趋势报告,解码Z世代社交图谱2026最强黑马,AURORA定义奢品新秩序Dell Private Cloud新增对Nutanix的兼容支持,为企业带来更多选择投资璀璨会——从散户赋能到游资崛起,张自如引领的六年成长之路EV集团推出面向大批量生产的下一代 EVG®120 全自动涂胶机网易Q4创新业务环比增长42.4% 严选多赛道持续领跑获阿特斯2025年“最佳协作供应商”奖特别通讯丨新春打粮正当时践行企业社会责任 维塔金基金会深耕南亚为全球困境儿童点亮灯火一位迷路的外卖小哥,接到一封奇怪订单,误闯入铝博会的“千门万窗”华为董事长梁华:2025年公司销售收入突破8800亿元,再创新高透过一扇门,读懂一座城,门,对安义人,是闯荡、是事业,是回家的路权威认证加持,中国科技品牌绿联推进充电宝体验与品质升级千问第二波免单恰逢情人节 县城钟点房帮订量暴增约300%阿里投入超30亿没白花!千问总裁:效果远超预期 后期上线新功能2026央视春晚:菁彩Vivid视听技术护航,让全球华人共赏沉浸式中国年

好未来开源近600小时中英文混合语音数据集,填补教育AI研究空白

2021-02-24 16:43:00 来自: 科技讯

作为教育科技的先行者,好未来近日开放了一批长达587小时教学场景中的中英文混合语音数据集。该数据集源自语种混合最具代表性场景之一——教师英语授课场景。好未来此次开放的数据集是迄今教育行业最大的语音开源数据集之一,也是目前已知全球较大的中英文混合场景开源数据集,有效填补了中英文混合语音识别研究的数据稀缺空白。

算法、算力、数据是人工智能技术发展的三大基石。一个AI模型从设计到训练,再到部署使用,整个过程中,数据集的选择十分重要。高质量的数据集往往能够提高模型训练的质量和预测的准确率。由于行业的天然壁垒,智能教育领域目前开放的数据资源非常有限,而经过清理、标注、注释、结构化的数据,更为少见。

作为教育行业内人工智能技术领域的代表企业,好未来很早就开始布局人工智能技术的教育场景落地,也在多年的实践中沉淀了大量优质教育资源和海量教学数据,并推动了多项智慧教育解决方案的落地。同时,作为智慧教育国家新一代人工智能开放创新平台的承建者,好未来肩负着为智慧教育行业关键技术创新提供支撑和服务的使命,将通过开源开放的形式,加速资源共享与技术融合创新。

早在2020年3月,好未来就开放了第一批教育开源数据集——“小学低年级算式数据集”。该数据集包括33550张算式图像,均来源于小学1~3年级学生的数学练习册和作业,涵盖各类数学口算题目类型。每张图像经过手工剪裁,并提供相应标注。随后,好未来又陆续开放了手写中英文、手写公式、中文语音识别、语音情感等多个数据集。

值得一提的是,好未来此前开放的手写公式数据集成为了第五届中国创新挑战赛智慧教育专题赛“教育手写公式识别”比赛的官方数据集。该比赛依托于智慧教育国家新一代人工智能开放创新平台,由北京市科学技术委员会与好未来联合承办,吸引了来自清华大学、北京大学、中国科学技术大学等国内高校及科研机构,以及阿里、腾讯、百度等一线互联网公司数百支队伍参赛。该数据集数据量更为丰富、数据场景更为复杂,均超过之前的同类开源数据。

历经18年的高速发展,好未来已成为国内领先的科技教育公司。为实现技术资源共享与技术落地经验复用,好未来内部建立起跨业务的技术互通机制,积极推进技术中台建设,推动内部开源。这也是好未来对行业开源开放的坚实基础。随着智慧教育国家新一代人工智能开放创新平台的深入建设,好未来积累的大量教育场景数据集也会逐步开源开放。同时也将通过建立数据标准和数据服务机制,吸引更多的教育机构和科技企业,开放共享更丰富多元的教育数据,共同构建智慧教育行业生态体系。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:辛雯

相关阅读

微信公众号
意见反馈 科技快报网微信公众号