百度开源两款句法分析应用工具,提升文本处理任务效果

百度开源两款句法分析应用工具,提升文本处理任务效果_第1张图片

欢迎关注【百度NLP】官方公众号,及时获取自然语言处理领域核心技术干货!!
阅读原文:
https://mp.weixin.qq.com/s/4ar6jHtF3b_6DIScB2IuuQ

 

继2020年8月份中文依存句法分析工具DDParser发布后,百度于近日发布两款句法分析结果应用工具——基于句法分析的隐式向量表示工具显式结构表示工具。

句法分析利用句子中词与词之间的关系来表示词语的句法结构信息,如“主谓”、“动宾”、“定中”等。本次发布的两款应用工具分别从隐式和显式两方面利用句法结果,帮助开发者们更快速便捷地引入句法特征来提升任务效果。

DDParser介绍

DDParser(全称为Baidu Dependency Parser)是百度基于大规模标注数据和产业级深度学习平台——飞桨研发的中文依存句法分析工具。为了便于开发者快速学习及使用,DDParser采用简单易理解的标注体系,且支持一键安装部署及调用。

了解DDParser详情:

百度中文依存句法分析工具DDParser重磅开源

句法分析给出了词之间的语法结构,这种表示不受词之间距离限制,可给出长距离词之间的依赖,如图1所示。但该表示相对复杂,需要开发者有一定的自然语言处理背景,了解句法分析任务及标注标准。

百度开源两款句法分析应用工具,提升文本处理任务效果_第2张图片

图1 句法分析实例

 

为了降低句法分析使用门槛,本次发布两款基于句法分析的简单易用的应用工具,分别为:

  • 基于句法分析的隐式向量表示:将句法结果蕴含的结构上下文信息编码进文本的隐式表示中,提升文本的语义表示能力。

  • 基于句法分析的显式结构表示:从语义角度将句法分析结果以简单易理解的结构呈现出来(如主谓宾、动补、名词修饰等结构),便于开发者直接获取输入文本的结构化语义单元。

 

工具一:基于句法分析的隐式向量表示工具

常用的句子表示模型(如序列表示模型LSTM)基于顺序上下文给出当前词的表示,其会受限于词之间的距离,对长距离上下文依赖变弱。句法分析从语法结构上给出当前词依赖的上下文,尤其可给出长距离依赖的上下文,其弥补常用句子表示模型的不足之处。

本次发布的基于句法分析的隐式向量表示工具将句法信息编码进隐式向量表示中。如图2中“基于句法树的图注意网络”所示,本文将依存句法分析树看作一个有向无环图,在该图上应用基于图的注意力网络机制获取包含句法信息的表示。该向量表示与基于序列模型得到的向量表示连接在一起作为输入文本最终的向量表示,增强了输入文本的表示能力。其在下游任务中的使用方式见图2。

百度开源两款句法分析应用工具,提升文本处理任务效果_第3张图片

图2 基于句法分析的隐式向量表示及应用示意图

 

本工具应用于事件抽取、相似度计算任务,基于句法分析的隐式向量表示带来了显著效果提升。具体指标见表1。

百度开源两款句法分析应用工具,提升文本处理任务效果_第4张图片

表1 句法信息在事件抽取和相似度计算任务上的表现

 

在事件抽取任务上,为了更好地说明句法分析的作用,表2给出相关实例。由此可见,引入句法信息后,模型能够学习到触发词与相关角色的句法路径,进而提升了角色识别的召回率。

百度开源两款句法分析应用工具,提升文本处理任务效果_第5张图片

表2 实例展示:句法信息引入事件抽取任务

 

在相似度计算任务上,引入句法信息主要解决字面重合度高,但结构相同/不相同导致的语义一致/不一致的数据的计算问题,具体实例见表3。

百度开源两款句法分析应用工具,提升文本处理任务效果_第6张图片

表3 实例展示:句法分析引入相似度计算任务

 

工具二:基于句法分析的显式结构表示工具

句法结构依赖于句子表述方式,语义同义但表述形式不同的两个句子其句法结构往往差异较大。如图3中实例所示,语义单元“纳达尔击败梅德韦杰夫”在3种不同的表述形式下对应3种不同的句法结构。

百度开源两款句法分析应用工具,提升文本处理任务效果_第7张图片

图3 “纳达尔击败梅德韦杰夫”三种不同表述形式对应的句法分析结构

 

为了方便开发者更直接地获取输入文本中的结构化语义单元,本文研发了基于句法分析的显式结构表示工具,其从文本表达的语义角度出发,直接提取文本中的主要内容并以结构化形式输出。如图4所示,输入文本为“9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫”,本工具抽取出主谓宾结构(纳达尔、击败、梅德韦杰夫)、名词修饰结构(俄罗斯、球员)等。

本工具围绕实体词定义了7种常见结构,覆盖了句法分析可表示的范围,如主谓宾结构、动补结构、名词修饰结构等。

 

百度开源两款句法分析应用工具,提升文本处理任务效果_第8张图片

图4 显式结构表示工具输出示例

 

本工具有多种应用场景。这里将介绍3种应用场景,如图5所示。

 

百度开源两款句法分析应用工具,提升文本处理任务效果_第9张图片

图5 显式结构表示工具应用场景

 

  • 开放域信息获取:基于抽取的语义结构单元,获得开放域信息,协助构建开放语义知识库;

  • 相似度计算:基于抽取的语义结构单元,获取基于结构的匹配度,可作为特征加入到现有相似度计算模型;

  • 数据增广:基于给定的结构,可生成不同表述形式、不同限定条件的数据,用于增广现有数据集。

 

目前,基于依存句法分析的隐式向量表示工具和显式结构表示工具已经开源,点击“阅读原文”了解更多技术详情,并贡献你的Star和Fork!!!

DDParser项目地址:

https://github.com/baidu/DDParser

 

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

 

 

你可能感兴趣的