找回密码
 立即注册
科技快报网 首页 科技快报 业界资讯 查看内容
揽获多项产品技术创新大奖!TCL实业携顶尖科技闪耀CES 2026技嘉于 CES 2026 发布CQDIMM 技术 实现 256GB 满载 DDR5-7200 极限性能伊利秉持潘刚的“社会价值领先”理念,推动可持续生态共建邦彦云PC赋能AI标注新变革:安全、效率、协同三重突破引领行业升级央视《匠心中国》聚焦易视界:十八载坚守诠释视保匠心合合信息Chaterm入选沙利文《2025年中国生成式AI行业最佳应用实践》灵犀智能CES 2026参展纪实 登顶AI陪伴产品榜单星空源储首次亮相 CES 探索AI驱动的全场景智慧能源新生态新年有小艺,“艺”马当先接鸿运全球AI新品京东首发 三天超长CES探展直播让3C数码新品触手可及腾讯音乐(TME)年度盛典圆满收官:用数据说话,全面呈现华语乐坛多元生态香港空运部成立运营,全球化网络布局再落关键一子成者AI会议机器人等系列新品打响“AI会议时代”系统战从科技创新至产业创新:从光谱技术的全景比较,看“中国原创”的力量锚定欧美增长极,未岚大陆以全场景方案展现中国智造品牌顶尖科技实力成年人直播打赏有无“后悔药”?央视报道法院判例:驳回退款诉求P300全球首发:普宙科技在CES发布全新“城市低空智能体”东软集团获得华为“钻石经销商”认证德适生物将赴港上市,染色体核型分析领域市占率第一歌尔亮相CES 2026:声光电技术革新助力智能交互体验升级

好未来开源近600小时中英文混合语音数据集,填补教育AI研究空白

2021-02-24 16:43:00 来自: 科技讯

作为教育科技的先行者,好未来近日开放了一批长达587小时教学场景中的中英文混合语音数据集。该数据集源自语种混合最具代表性场景之一——教师英语授课场景。好未来此次开放的数据集是迄今教育行业最大的语音开源数据集之一,也是目前已知全球较大的中英文混合场景开源数据集,有效填补了中英文混合语音识别研究的数据稀缺空白。

算法、算力、数据是人工智能技术发展的三大基石。一个AI模型从设计到训练,再到部署使用,整个过程中,数据集的选择十分重要。高质量的数据集往往能够提高模型训练的质量和预测的准确率。由于行业的天然壁垒,智能教育领域目前开放的数据资源非常有限,而经过清理、标注、注释、结构化的数据,更为少见。

作为教育行业内人工智能技术领域的代表企业,好未来很早就开始布局人工智能技术的教育场景落地,也在多年的实践中沉淀了大量优质教育资源和海量教学数据,并推动了多项智慧教育解决方案的落地。同时,作为智慧教育国家新一代人工智能开放创新平台的承建者,好未来肩负着为智慧教育行业关键技术创新提供支撑和服务的使命,将通过开源开放的形式,加速资源共享与技术融合创新。

早在2020年3月,好未来就开放了第一批教育开源数据集——“小学低年级算式数据集”。该数据集包括33550张算式图像,均来源于小学1~3年级学生的数学练习册和作业,涵盖各类数学口算题目类型。每张图像经过手工剪裁,并提供相应标注。随后,好未来又陆续开放了手写中英文、手写公式、中文语音识别、语音情感等多个数据集。

值得一提的是,好未来此前开放的手写公式数据集成为了第五届中国创新挑战赛智慧教育专题赛“教育手写公式识别”比赛的官方数据集。该比赛依托于智慧教育国家新一代人工智能开放创新平台,由北京市科学技术委员会与好未来联合承办,吸引了来自清华大学、北京大学、中国科学技术大学等国内高校及科研机构,以及阿里、腾讯、百度等一线互联网公司数百支队伍参赛。该数据集数据量更为丰富、数据场景更为复杂,均超过之前的同类开源数据。

历经18年的高速发展,好未来已成为国内领先的科技教育公司。为实现技术资源共享与技术落地经验复用,好未来内部建立起跨业务的技术互通机制,积极推进技术中台建设,推动内部开源。这也是好未来对行业开源开放的坚实基础。随着智慧教育国家新一代人工智能开放创新平台的深入建设,好未来积累的大量教育场景数据集也会逐步开源开放。同时也将通过建立数据标准和数据服务机制,吸引更多的教育机构和科技企业,开放共享更丰富多元的教育数据,共同构建智慧教育行业生态体系。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:辛雯

相关阅读

微信公众号
意见反馈 科技快报网微信公众号