找回密码
 立即注册
科技快报网 首页 科技快报 IT资讯 查看内容
中国移动5G-A正式商用,OPPO Find X7官宣全系率先支持5.5G小米14系列新款限量定制色今晚揭晓:共五款 与SU7同色携手伙伴 共赢智改数转 锐捷网络企业行业合作伙伴大会圆满举行安卓端微信手表版上线:支持独立登录,OPPO Watch X首发搭载2024 BOE(京东方)全球供应商合作伙伴大会隆重举行 开启全球显示产业融合共生新篇章网易天成集结多方力量,发起“我在街角有个它”流浪动物公益行动安斯泰来和辉瑞的EV联合帕博利珠单抗用于一线治疗膀胱癌sBLA获国家药监局受理宁德时代神行电池与麒麟电池全能系列亮相,预计首发落地小米汽车 SU720万级别专业投影机平替?爱普生CH-LS2000B值得冲百度AI技术赋能,极越汽车机器人引领智能汽车3.0时代京东抢先上线vivo Pad3 Pro智享版 下单可享12期免息加赠一年延保及碎屏保阿里云联发科联手为手机芯片适配大模型 离线也可流畅运行多轮AI对话京东与中国电子音响行业协会签订战略合作 共助消费电子音响行业高质量发展高德地图SDK率先适配原生鸿蒙,助力超三十万应用加速鸿蒙化第七届西湖论剑·中国杭州网络安全技能大赛决赛在即慧算账助力企业构建财务风险管理体系中关村科金升级智能陪练产品,大模型对练、辅助生成功能重磅来袭收藏这份家装攻略!知乎家装活动全面上线马斯克:人形机器人成本将不到一辆汽车的一半吉利汽车完成全球首次无人驾驶漂移 明年量产上车

场景实战:思必驰DUI标注训练一体化平台,持续提升识别率

2021-04-08 16:51:20 来自: 科技快报网

“07---读洞拐”

“什么是疱疹---什么是PORT”

“导航去fu南电视台---导航去湖南电视台”

“介个东西是我的---这个东西是我的”

人机自由交流的前景是漫长而渐进的,语音识别技术在细分场景持续落地,需要“因地制宜”提升识别效果。

01语音识别的“三大考验”

噪声环境。目前对语音识别效果影响最大的就是环境杂音或噪音,在公共场所中,来自四面八方的声音会让识别系统不知所措,实验室环境下的优异表现可能在实际应用场景中被“吊打”。例如在高铁、地铁、公交等交通场景下,多种混合噪声降低了识别效果,进而影响用户在询路、购票、换乘过程中的交互体验。

专业术语。大多数垂直应用场景都有自身的专业术语和指代用词,例如医疗场景中病症、医药名,门店销售场景中的奢侈品牌名称、型号,公安审讯场景中的敏感词汇,会议场景中的人名、地名等等,要求语音系统适应各种领域,还能准确识别特殊用词不是件容易事。

多语言混合识别。“你好小驰,hu(福)建今天天气怎么样?那fu(湖)南呢?”识别方言口音在生活中随处可见,伴随着AI技术拓展到了三、四线城市,智慧门店、地产售楼、汽车4S店等场景的应用都重在“入乡随俗”。此外,中英混杂、多语种等语言习惯也影响着识别效果。

02场景驱动,定制模型提升识别率

思必驰推出DUI标注训练一体化平台是集成语音标注、模型自训练、识别测试、服务部署和团队管理于一体的一站式产品,提供数据标注-模型优化-测试评估-服务部署完整链路语音识别自主优化能力,支持私有化部署,协助企业在短期内实现识别效果“不可用->可用”的提升,实现快速更新响应,持续提升场景识别效果。

目前,思必驰DUI标注训练一体化平台,已在医疗、政务、航空等多个行业领域得到应用。平台支持私有云一键化部署,未来也将以公有云的形式对外开放,用于语音识别优化。注册用户可全流程自主掌握,后续规模化的拓展也将触类旁通。

会议场景:会议记录更细致

会议发言的实时转写、纠错与记录是现代办公的强需求。会议场景下的需求可以归纳为两方面:

1. 准确度高,即识别结果要准。行业领域常用语、专有名词、中英文混杂、人名职位等各种词汇篇章表述需要尽可能准确。借助平台进行语言和热词模型的训练,训练后的模型在会议真实场景下的识别率提升至95%以上。另外,使用语言模型增量训练模式,通过反复迭代,可以增强在某一个细分场景或领域下的识别效果。除此以外,大会场景下,可以针对领导发言人的用语习惯进行声学定制,系统持续自我“进化”,模型将越用越智能。

2. 阅读性强,即识别出的文本易于阅读,可懂度高。会议转写结果通常会是篇章段落,且多含有口语化表达,因此识别结果要通俗易懂,尤其在标点断句上要“通人性”。通过平台的标点、顺滑、断句模型训练可以输出符合众人阅读习惯的文本。

航空通讯场景:语音质检更安全

航空通讯比通用场景复杂,除存在诸多QNH(海平面气压)类似的缩写词汇、专业术语外,断句、发音方式1(幺)、2(两)、7(拐)、0(洞)等,也比较特殊。只有精准识别座舱内飞行员之间、或与地面塔台间的沟通话术,才可有效确保飞行安全。用户通过DUI标注训练一体化平台可进行语言+声学+标点的自训练,实现标点断句自动化全量质检,降低了人工成本,提升沟通效率,保障飞行安全。在已有落地案例中,实现了识别准确率相对提升40%。

医疗场景:专业术语更精准

医疗场景的应用不仅面临器械噪声、候诊人群说话声等背景噪声,还面临着专业科室、专家名、病症等专业术语,例如,“血压150毫米汞柱“、“推 XX Mg液体”。语音识别的准确性关乎诊断结果的正确输出。DUI标注训练一体化平台模型在对词汇、语句、发音优化后,实现识别准确率相对提升40%,在医疗垂直领域下的效果更佳。平台的私有化部署,可将患者隐私存储在医院自建机房中,确保数据安全。

城市交通:风暴降噪更清晰

风噪、路噪、发动机噪声等多重环境噪音是城市交通场景应用的一大难题。DUI标注训练一体化平台通过思必驰VDCNN自研算法降噪,针对交通场景深度学习,在嘈杂环境下也能耳听八方。同时,支持普通话/中英混合/英语/粤川沪等多语种及方言的识别,“入乡随俗”准确识别“𧒽(lei)岗站、“东涌(chong)站”等冷门、多音字的站名,让乘客通过咨询机进行语音问询、购票更自由。

数字化门店:消费者服务更个性

在各类门店中,服务人员可佩戴着蓝牙耳麦、智能录音工牌与客户交谈,AI辅助服务行业数字化转型。

例如在地产售楼场景中,精细化语音识别效果,强化对方言口音、“预算”、“产权”等行业关键词的识别。餐饮店内,记录下最受欢迎的“菜品名”。汽车4S店中,通过对“排放量”、“品牌名”、等高频词汇识别,进行用户画像分析。不仅可以规范员工的服务话术,更能基于大数据洞察用户需求,给出针对性方案提升签单转化率。

语音识别优化是一个漫长的过程,伴随海量数据不断更新,语音识别准确率将持续提升。

智能经济形态下,以AI为技术手段,赋能产业形态转型升级是思必驰所愿。将自主定制的主动权交给用户,让智能语音交互技术持续下沉,赋予各行业投入智能化浪潮的自由权利,或许智能化故事才刚刚开始。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:科技快报网

相关阅读

微信公众号
意见反馈 科技快报网微信公众号