找回密码
 立即注册
科技快报网 首页 科技快报 IT资讯 查看内容
一位迷路的外卖小哥,接到一封奇怪订单,误闯入铝博会的“千门万窗”华为董事长梁华:2025年公司销售收入突破8800亿元,再创新高透过一扇门,读懂一座城,门,对安义人,是闯荡、是事业,是回家的路权威认证加持,中国科技品牌绿联推进充电宝体验与品质升级千问第二波免单恰逢情人节 县城钟点房帮订量暴增约300%阿里投入超30亿没白花!千问总裁:效果远超预期 后期上线新功能2026央视春晚:菁彩Vivid视听技术护航,让全球华人共赏沉浸式中国年2.25~2.27,铝创未来看安义!门窗人的盛宴,邀您相聚鸿蒙版支付宝解锁新春新玩法!碰一下分享福卡,年味直接拉满反向春运不凑活!海信百吋承包三代人的快乐QQ新功能脑洞秀上线元宝,支持用Q版虚拟形象创作AI视频京东与海信签署战略合作协议 冲击三年1000亿销售目标梧桐科技与腾讯音乐共建行业首个座舱AI“声学创新实验室”安义铝博会,还能这么玩?我们用AI,把门窗界的“时空宇宙”搬到了现场大麦“麦宝”智能体升级,鸿蒙6用户通过小艺即可体验“一句话订电影票”华为乾崑智驾ADS V4.1正式推送中!全方位助力岚图汽车焕新升级春节拍照废片三连?鸿蒙版醒图这波更新,专治各种“不忍删”数智驱动奶业革新 潘刚引领伊利打造全链智能智造标杆极萌美容仪好用吗?从研发到体验,看懂它的核心优势中东皇室背书与全球高端圈层认可,AURORA手机正式落子全球高奢赛道

阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种

2021-09-27 12:52:46 来自: 快科技

一年多前,阿里巴巴国际安全内容风控小二小荷(化名)在用户交互场景发现了特殊的为规避平台审查的“脏话”案例。

她的工作是借助技术和规则识别与清扫影响清朗环境的违规内容,刚开始,一些小广告和口吐芬芳的脏话只是以文字形式呈现,后来随着对抗升级,一些脏话嵌入到图片中,甚至会使用多国语言进行伪装。

为解决这个问题,阿里安全进行了多语种识别技术升级。近日,阿里安全算法团队宣布,其研发用于网络脏话的AI(OCR)技术,已能识别近30种语言,包括嵌入图片中的英文、阿拉伯、俄语、法语、西语、日语、韩语、泰语、越南语、波斯语、孟加拉、尼泊尔、僧伽罗、朝鲜、苏丹、德语、荷兰语,以及马来语、塔加洛语、土耳其语、意大利语、印尼语等国语言,甚至还包括三种中国少数民族语言。

在部分国际平台中,“买家”在商品评论中以英语评论图骂人,或者在交互场景中,买卖双方以俄语脏话图片对阵。国际平台风控团队和算法团队复盘了很多案例,发现除了多语种脏话,多语种垃圾广告以及不良信息也会暗藏在图片中,试图对抗风控。

全球有几百种语言,重点的语言也有几十种,一个工作人员最多认识三四种语言,在国际化场景下,靠人工识别风险图片是不现实的,多语言识别的技术需求应运而生。


图(左)为俄语脏话示意图 图(右)为暗藏英语脏话的骂人图

阿里安全高级算法工程师?V帆介绍,要识别多语种文字,就要了解各个语言文字特点,以及影响算法识别的问题。每种文字体系都有自己的字体,不同字体会导致同一字符出现字形上的差异,例如下左图展示了汉字“字”在不同字体时的形态,以及手写文字中的字符变化。下右图则展示了俄语字母在手写体和印刷体时的差异,红框标出了部分字符会出现字形上的巨大变化。


不同字体会导致同一字符出现字形上的差异(图片来源:网络)

“字符连接导致字形变化,不同文字体系,书写及阅读顺序是不同的,这些都会影响AI识别和对语义的判断。”?V帆说。例如,相同的单词在不同的语种里也可能有不同的含义,“jammer”在荷兰语里是“遗憾”的意思,但是在英语中是“信号屏蔽器”,可能涉及违规。

“以前没有多语种识别功能的时候,我们如果把这个口语词直接拦截,可能会造成‘误杀’,脏话图识别也是如此,要依据语种来判断。”小荷说。

除此之外,还有脏话图以置换正常字符顺序,对抗风控的情况出现,如下图所示,即使调换字符顺序,人还是可以轻而易举地判断单词的含义,但这种“攻击”试图以打乱字母顺序的方式骗过机器识别。


对抗的脏话图

当然,要训练如此多语种的识别模型,并解决多种对抗情况并不容易。技术团队既要保证好的识别效果,又要尽可能提高计算效率及控制成本,解决好训练样本及模型方案的问题。

通过一年多努力研究,阿里安全算法团队对这些点进行了逐个突破,通过改进多语言样本生成方案与多语种识别模型框架,在多种图片语言的识别上做到了高识别率,以及做到识别1张脏话图只需0.15秒的速度,目前该技术也已应用在阿里多项国际业务中,总体识别准确率可达95%以上,并对各种艺术字体、复杂背景以及手写图进行了针对性识别优化。

其实,脏话拦截只是多语种OCR识别技术应用的场景之一,阿里安全国际风控小二文萱介绍,在交互场景里,违规信息中还有大部分属于垃圾信息。

现在,基于阿里安全的算法能力,每天仅单个国际平台就为全球用户拦截几万次包含危险、辱骂、垃圾文本的多语言脏话图片。阿里安全图灵实验室算法负责人薛晖表示:“期待以科技创新解决实际业务问题,帮助造就更好的网络环境和网络安全。”

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:科技快报网

相关阅读

微信公众号
意见反馈 科技快报网微信公众号