创新工场提出中文分词和词性标注新模型可提升工业应用效率

2020-07-13 19:17:39 来自: donews翟继茹

7月13日消息（记者翟继茹）13日，记者从创新工场获悉，其最新提出了中文分词和词性标注模型，可将外部知识（信息）融入分词及词性标注模型，剔除了分词“噪音”误导，提升了分词及词性标注效果。

在NLP中，中文分词和词性标注是中文自然语言处理的两个基本任务，尤其在工业场景对分词有非常直接的诉求，但当前没有比较好的一体化解决方案，而且中文分词普遍存在歧义和未登录词的难题。

创新工场方面解释，中文语言因其特殊性，在分词时面临着两个主要难点。一是歧义问题，由于中文存在大量歧义，一般的分词工具在切分句子时可能会出错。例如，“部分居民生活水平”，其正确的切分应为“部分/居民/生活/水平”，但存在“分居”、“民生”等歧义词。“他从小学电脑技术”，正确的分词是：他/从小/学/电脑技术，但也存在“小学”这种歧义词。

二是未登录词问题。未登录词指的是不在词表，或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词，或者是人名。这类问题在跨领域分词任务中尤其明显。

因此，在“键-值记忆神经网络的中文分词模型”的模型中，利用n元组（即一个由连续n个字组成的序列，比如“居民”是一个2元组，“生活水平”是一个4元组）提供的每个字的构词能力，通过加（降）权重实现特定语境下的歧义消解。并通过非监督方法构建词表，实现对特定领域的未标注文本的利用，进而提升对未登录词的识别。

在算法实验中，该模型在5个数据集（MSR、PKU、AS、CityU、CTB6）上的表现，均刷新历史成绩。

创新工场大湾区人工智能研究院执行院长宋彦表示，与前人的模型进行比较发现，该模型在所有数据集上的表现均超过了之前的工作，“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”

在基于双通道注意力机制的分词及词性标注模型中，将中文分词和词性标注视作联合任务，可一体化完成。模型分别对自动获取的上下文特征和句法知识加权，预测每个字的分词和词性标签，不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权，从而识别特定语境下不同上下文特征和句法知识的贡献，从而降低了“噪音”。

创新工场介绍，在和斯坦福大学的 CoreNLP 工具的相比中，该模型有近10个百分点的提升。

在场景应用上，创新工场主要希望解决工业场景的突破，宋彦表示，“在工业场景使用的时候，跨领域的模型能力是一个非常直接的诉求。”创新工场介绍，“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”两篇文章，已经入选自然语言处理领域（NLP）顶级学术会议 ACL 2020。（完）

　　免责声明：本网站内容由网友自行在页面发布，上传者应自行负责所上传内容涉及的法律责任，本网站对内容真实性、版权等概不负责，亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

发布者:科技快报网

汪峰直播首秀壕礼多，见过这么局气的京东主播吗？联想控股关联公司退出P2P企业股东

		自动登录	找回密码
密码			立即注册

创新工场提出中文分词和词性标注新模型可提升工业应用效率

相关阅读

相关分类

热门关注

创新工场提出中文分词和词性标注新模型 可提升工业应用效率

相关阅读

相关分类

热门关注

创新工场提出中文分词和词性标注新模型可提升工业应用效率