7月13日消息(记者 翟继茹)13日,记者从创新工场获悉,其最新提出了中文分词和词性标注模型,可将外部知识(信息)融入分词及词性标注模型,剔除了分词“噪音”误导,提升了分词及词性标注效果。 二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名。这类问题在跨领域分词任务中尤其明显。 在算法实验中,该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现,均刷新历史成绩。 创新工场大湾区人工智能研究院执行院长宋彦表示,与前人的模型进行比较发现,该模型在所有数据集上的表现均超过了之前的工作,“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。” 在场景应用上,创新工场主要希望解决工业场景的突破,宋彦表示,“在工业场景使用的时候,跨领域的模型能力是一个非常直接的诉求。”创新工场介绍,“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”两篇文章,已经入选自然语言处理领域(NLP)顶级学术会议 ACL 2020。(完) |
免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。