本文是接前面两篇文章信息抽取之关系抽取和信息抽取之实体抽取,继续探讨信息抽取中的事件抽取。
事件抽取研究现状
实体抽取的任务定义
事件的概念来自于认知科学。在信息抽取领域,ACE会议将事件定义为:发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。而在信息检索领域,事件被定义为:是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情[63]。实体与关系所能描述的知识往往是静态的,而事件能够描述动态的知识,对于知识表示、理解、计算和应用意义重大。事件抽取任务需要从文本之中识别并抽取出事件信息,并通过结构化地形式呈现出来。在这一过程中,有一些核心概念,包括事件触发词、事件元素、元素角色[64]。相关术语说明如下:
事件触发词:表达事件发生地关键词,通常是动词或名词。
事件元素:参与一个具体事件的元素,是组成事件的核心部分,包括概念、实体、数值、时间等。
元素角色:事件元素与事件之间的语义关系,也就是事件元素在相应的事件中扮演什么角色。
ACE会议是最具影响力的事件抽取公开评测。2005年起,事件抽取开始作为ACE会议的主要任务之一。在ACE的数据集种,每个事件都标注了事件触发词、事件类型、事件子类型、事件元素,和元素角色信息。ACE的数据集,共定义了8大类33小类的事件,包含英文599篇,中文633篇。同样的,事件抽取也是MUC的主要任务之一。此外,知识库生成测评(Knowledge Base Population, KBP),也在2014年首次加入事件抽取的评测。2016年起,KBP的评测语料从英文扩展为中文。KBP 2016提供了200篇标注的英文文档、20万词的中文文档以及12万词的西班牙文文档用于评测,但并未提供训练语料。中文事件语料库(Chinese Event Corpus, CEC)由上海大学语义智能实验室构建,包含CEC-1和CEC-2两个语料库包。
事件抽取技术方法
基于模式匹配的方法
基于模式匹配的事件抽取方法指的是构建要抽取事件的模式,这种模式一般是事件的上下文,从而指导事件抽取。Ellen等人[65]在通过建立触发词词典和13种事件匹配模式进行事件抽取,构建了抽取系统AutoSlog,其主要利用了事件初始描述和事件元素上下文的语义。在此基础上,Ellen等人[66]又开发出AutoSlog -ST系统,只需要标注事件类型就可以学习模式。PALKA[67]是另一个典型的基于模式匹配的事件抽取系统,提出用语义框架和短语模式结构来表示特定领域中的模式,用语义树来表示语义框架、用短语链模型来表示短语模式。基于模式匹配的方法在特定的领域中会有较好的性能,但是依赖于模板,可移植性较差。
传统机器学习方法
基于机器学习的方法把事件抽取建模为分类任务。传统的机器学习方法主要是基于特征工程的方法,通过提取文本的语义特征,训练分类器进行事件抽取。常用的特征包括句子级信息,如词法特征、句法特征、上下文特征、实体特征等;篇章级信息,如事件相关性,事件共现信息。Ahn等人[68]用Timbl和MegaM模型进行事件分类,使用了词法特征、句法特征、实体特征、语言学特征等等。Chieu[69]等将最大熵模型应用于事件抽取,使用了unigram、bigram、命名实体等词法特征。篇章级的信息多用于跨文本跨文档的事件抽取。Ji 等人[70]提出的事件抽取框架,考虑与待抽取文本相关的文本对它的影响,能够辅助修正抽取结果。Liu等人[70]则考虑全局信息对抽取结果的提升,利用事件相关性、事件共现信息等全局信息和局部信息结合的方式来推断事件的分类。中文领域的事件抽取任务,往往还会设计更多的特征,更好地利用中文语言地特性。Li等[72]通过中文词语地形态结构、同义词等信息来捕捉更多的事件触发词。HowNet 相似度[73]也作为一种特征参与到中文的事件抽取任务之中。
基于深度学习方法
基于特征工程的方法需要设计复杂的特征,缺乏泛化能力,同时依赖现有的自然语言处理工具,在抽取的过程中会不断积累误差。而深度学习方法可以自动从文本中提取特征,极少依赖自然语言处理工具,成为了目前事件抽取的主流方法。Chen等人[74]使用基于动态池化卷积神经网络来自动提取词汇级与句子级特征,实现事件抽取,在F值上有着显著的提升。Nguyen 等人[75]利用BiLSTM抽取句子中的特征,联合抽取事件触发词和事件元素,进一步提升了抽取效果。Zhao等人[76]认为文档级别的信息对事件抽取也是十分重要的,提出了利用文档嵌入来增强事件抽取的模型。而在许多标注数据之中,数据类别十分不均衡。以ACE数据集中为例,大约60%的事件类型对应只有不到100个的标注样本,甚至有3个事件类型样本数不到10个。Huang等人[77]提出利用零样本迁移学习的方法来思想来训练模型,使模型拥有预测训练集中没有的事件类型的能力
弱监督学习方法
由于深度学习方法需要大量标注语料,如何获取这些标注语料,则成为一个新的问题。在面向海量数据时,人工标注耗时费力,并且一致性差。弱监督学习方法也成为事件抽取中一个重要分支。弱监督方法的事件抽取有两种思路,一是通过少量标注数据来生成大规模标注数据,二是通过外部知识或者知识库来扩展标注数据,类似于远程监督。Chen等人[78]利用少量标注数据训练模型,利用模型推理未标注数据,从而迭代地扩充标注样本。由于目前的事件抽取方法都使用触发词来检测,而外部知识库中并不包含触发词,Chen等人[79]提出了一个利用Freebase和FrameNet来自动标注事件抽取所需要的数据的方法,该方法能够探测到每个事件类型的触发词。如图10所示,在Freebase中存在奥巴马和米歇尔之间的配偶关系,可以利用这种关系来标注奥巴马和米歇尔之间的结婚这一事件。Liu等人[80]发现FrameNet中定义的框架与ACE数据集中的事件结构具有很高的相似度,提出使用FrameNet中的知识来自动产生带有标注的数据,对原数据进行扩展,使用加入新数据后训练的模型效果有了显著的提升。Ferguson等人[81]提出对描述同一事件的新闻进行聚类,使用聚类后的数据来扩展指定事件类型的已标注数据。

事件抽取的挑战和趋势
现阶段的事件抽取任务往往是拆分为几个步骤来进行的。最常见的方式是①事件触发词识别②事件触发词分类③事件元素识别④事件元素分类。如何把这些拆分的过程整合为更少的步骤,以及将事件抽取和其他信息抽取任务(实体抽取与关系抽取)进行联合学习,以避免错误的积累,将是事件抽取任务未来的重要研究方向之一。
减少对人工标注语料的依赖,也是事件抽取任务亟待解决的问题之一。而且目前英文领域的事件抽取语料较多,而其他语言就相对较少。一种思路是通过跨语言学习,将英文语料迁移到其他语言上。另一种思路这是利用外部知识来扩展语料,利用已有的知识库或者语言学知识来迭代得生成语料。
参考文献
参考文献
[63] ALLAN J, CARBONELL J G, DODDINGTON G, et al. Topic detection and tracking pilot study final report[J]. 1998.
[64] 项威, 王邦. 中文事件抽取研究综述[J]. 计算机技术与发展, 2020,30(02): 1-6.
[65] RILOFF E, OTHERS. Automatically constructing a dictionary for information extraction tasks, 1993. Citeseer.
[66] RILOFF E, SHOEN J. Automatically acquiring conceptual patterns without an annotated corpus, 1995.
[67] KIM J, MOLDOVAN D I. Acquisition of linguistic patterns for knowledge-based information extraction[J]. IEEE transactions on knowledge and data engineering, 1995,7(5): 713-724.
[68] BOGURAEV B, MUNOZ R, PUSTEJOVSKY J. Proceedings of the Workshop on Annotating and Reasoning about Time and Events, 2006.
[69] CHIEU H L, NG H T. A maximum entropy approach to information extraction from semi-structured and free text[J]. Aaai/iaai, 2002,2002: 786-791.
[70] JI H, GRISHMAN R. Refining event extraction through unsupervised cross-document inference, 2008.
[71] LIU S, LIU K, HE S, et al. A probabilistic soft logic based approach to exploiting latent and global information in event classification, 2016.
[72] LI P, ZHOU G, ZHU Q, et al. Employing compositional semantics and discourse consistency in Chinese event extraction, 2012.
[73] DING X, QIN B, LIU T. Building chinese event type paradigm based on trigger clustering, 2013.
[74] YUBO C, LIHENG X, KANG L, et al. Event extraction via dynamic multi-pooling convolutional neural networks[J]. 2015.
[75] NGUYEN T H, CHO K, GRISHMAN R. Joint event extraction via recurrent neural networks, 2016.
[76] ZHAO Y, JIN X, WANG Y, et al. Document embedding enhanced event detection with hierarchical and supervised attention, 2018.
[77] HUANG L, JI H, CHO K, et al. Zero-shot transfer learning for event extraction[J]. arXiv preprint arXiv:1707.01066, 2017.
[78] CHEN Z, JI H. Language specific issue and feature exploration in Chinese event extraction, 2009.
[79] CHEN Y, LIU S, ZHANG X, et al. Automatically labeled data generation for large scale event extraction, 2017.
[80] LIU S, CHEN Y, HE S, et al. Leveraging framenet to improve automatic event detection[J]. 2016.
[81] FERGUSON J, LOCKARD C, WELD D S, et al. Semi-supervised event extraction with paraphrase clusters[J]. arXiv preprint arXiv:1808.08622, 2018.