找回密码
 立即注册
科技快报网 首页 科技快报 业界资讯 查看内容
笔误?BYDFi 在圣詹姆斯公园讲述 BUIDL 背后的故事国庆换iPhone 17 Pro Max立省300元?多平台对比看哪家更划算百店开业 千店同庆!联想十一购机福利大放送:打卡门店送贴膜服务、到店购机抽奖必中2025第二十届南昌国际车展10月1日盛大开幕!得力集团就"跛脚员工入职被辞"事件致歉并公布整改措施一群“数贸新生代”即将从义乌搅动全球鲸鸿动能发布“Family Reach”家庭场景化解决方案,撬动营销新增量猜诺奖赢百万京豆!京东图书开启“2025文学预言”狂欢KWL新店继上海后落子重庆,酷特智能“逆周期动力”从何而来?易车研究院洞察报告:自驾游成车市新增长极?旅游复苏带动汽车消费结构性变化东软以“可信、可控、可持续”路径,引领AI医疗进入深水区多筒洗衣机新品9月扎堆首发 京东已成核心销售阵地发布全新太阳能智能杀虫灯,以绿色科技守护农业未来赛意信息以工业AI验证技术价值,向物理AI开启进阶之路高通专家:在“混合AI”的未来,6G 将成为连接云与边缘的核心纽带打响AI价值落地第一枪,天润融通携ZENAVA亮相2025云栖大会首驱发布“智能出行机器人”,三大行业首创技术重塑两轮赛道宜信公益基金会深化帮扶合作,共筑卓资县学子成才之路出海寻增量,东南亚凭什么成商家 “必争之地”?讯飞星火秋招“整活”,呼兰的星火奇妙夜“空降”高校!

好未来开源近600小时中英文混合语音数据集,填补教育AI研究空白

2021-02-24 16:43:00 来自: 科技讯

作为教育科技的先行者,好未来近日开放了一批长达587小时教学场景中的中英文混合语音数据集。该数据集源自语种混合最具代表性场景之一——教师英语授课场景。好未来此次开放的数据集是迄今教育行业最大的语音开源数据集之一,也是目前已知全球较大的中英文混合场景开源数据集,有效填补了中英文混合语音识别研究的数据稀缺空白。

算法、算力、数据是人工智能技术发展的三大基石。一个AI模型从设计到训练,再到部署使用,整个过程中,数据集的选择十分重要。高质量的数据集往往能够提高模型训练的质量和预测的准确率。由于行业的天然壁垒,智能教育领域目前开放的数据资源非常有限,而经过清理、标注、注释、结构化的数据,更为少见。

作为教育行业内人工智能技术领域的代表企业,好未来很早就开始布局人工智能技术的教育场景落地,也在多年的实践中沉淀了大量优质教育资源和海量教学数据,并推动了多项智慧教育解决方案的落地。同时,作为智慧教育国家新一代人工智能开放创新平台的承建者,好未来肩负着为智慧教育行业关键技术创新提供支撑和服务的使命,将通过开源开放的形式,加速资源共享与技术融合创新。

早在2020年3月,好未来就开放了第一批教育开源数据集——“小学低年级算式数据集”。该数据集包括33550张算式图像,均来源于小学1~3年级学生的数学练习册和作业,涵盖各类数学口算题目类型。每张图像经过手工剪裁,并提供相应标注。随后,好未来又陆续开放了手写中英文、手写公式、中文语音识别、语音情感等多个数据集。

值得一提的是,好未来此前开放的手写公式数据集成为了第五届中国创新挑战赛智慧教育专题赛“教育手写公式识别”比赛的官方数据集。该比赛依托于智慧教育国家新一代人工智能开放创新平台,由北京市科学技术委员会与好未来联合承办,吸引了来自清华大学、北京大学、中国科学技术大学等国内高校及科研机构,以及阿里、腾讯、百度等一线互联网公司数百支队伍参赛。该数据集数据量更为丰富、数据场景更为复杂,均超过之前的同类开源数据。

历经18年的高速发展,好未来已成为国内领先的科技教育公司。为实现技术资源共享与技术落地经验复用,好未来内部建立起跨业务的技术互通机制,积极推进技术中台建设,推动内部开源。这也是好未来对行业开源开放的坚实基础。随着智慧教育国家新一代人工智能开放创新平台的深入建设,好未来积累的大量教育场景数据集也会逐步开源开放。同时也将通过建立数据标准和数据服务机制,吸引更多的教育机构和科技企业,开放共享更丰富多元的教育数据,共同构建智慧教育行业生态体系。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:辛雯

相关阅读

微信公众号
意见反馈 科技快报网微信公众号