教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 高等教育 >

中文事件抽取技术研究

来源:网络收集 时间:2026-05-05
导读: 哈工大自然语言处理实验室论文

哈工大自然语言处理实验室论文啊。--中文事件抽取技术研究

中文事件抽取技术研究

赵妍妍,秦兵,车万翔,刘挺

(哈尔滨工业大学 计算机学院 信息检索研究室,黑龙江 哈尔滨 150001)

摘 要:事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。

关键词:事件抽取;事件类别识别;事件元素识别

中图分类号:TP391 文献标识码:A

*

Research on Chinese Event Extraction

ZHAO Yan-yan, QIN Bing, CHE Wan-xiang, LIU Ting

(Information Retrieval Laboratory, School of Computer Science and Technology, Harbin Institute of Technology, Harbin,

Heilongjiang 150001, China)

Abstract: Event Extraction is an important research point in the area of Information Extraction. This paper makes an intensive study of the two stages of Chinese event extraction, namely event type recognition and event argument recognition.

A novel method combining event trigger expansion and a binary classifier is presented in the step of event type recognition while in the step of argument recognition, one with multi-class classification based on maximum entropy is introduced. The above methods solved the data unbalanced problem in training model and the data sparseness problem brought by the small set of training data effectively, and finally our event extraction system achieved a better performance.

Key words: event extraction; event type recognition; event argument recognition

1 引言

事件抽取是信息抽取领域一个重要的研究方向。事件抽取把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘[1~3],自动问答[4],信息检索[4]等领域有着广泛的应用。

近些年来,事件抽取一直吸引着许多研究机构和研究者的注意力。MUC (Message Understanding Conference) 会议和ACE(Automatic Content Extraction)会议是典型的含有事件抽取任务的评测会议。本文有关事件抽取的定义和实例来自于ACE[5]。根据定义,事件由事件触发词(Trigger)和描述事件结构的元素(Argument)构成。图1结合ACE的事件标注标准详细的表述了一个事件的构成。其中,“出生”是该事件的触发词,所触发的事件类别(Type)为Life,子类别(Subtype)为Be-Born。事件的三个组成元素“毛泽东”、“1893年”、“湖南湘潭”,分别对应着该类(Life/Be-Born)事件模* 收稿日期: 定稿日期:

基金项目:国家自然科学基金项目(60575042, 60675034)

作者简介:赵妍妍(1983—),女,博士生,主要研究方向为信息抽取;秦兵(1968—),女,副教授,主要研究方向为信息抽取,多文档文摘;车万翔(1980—),男,讲师,主要研究方向为自然语言处理;刘挺(1972—),男,教授,主要研究方向为自然语言处理,信息检索。

哈工大自然语言处理实验室论文啊。--中文事件抽取技术研究

板中的三个元素标签,即:Person、Time以及Place。

图1 “出生”事件的基本组成要素

事件抽取任务可由下面两个主要步骤组成:

1. 事件类别识别:事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类

别,如表1。每种事件类别/子类别(简称为“事件类别”)对应着唯一的事件模板,如表2。

2. 事件元素识别:事件元素是指事件的参与者。根据所属的事件模板(如表2),抽取相应的

元素,并为其标上正确的元素标签。

表1 ACE定义的事件类别

Type Subtype

Life Born, Marry, Divorce, Injure, Die

Movement Transport

Conflict Attack, Demonstrate

Contact Meet, Phone-Write

…… ……

表2 ACE定义的事件模板 Type/Subype Template Life/Be-Born Person, Time-Within, Place Business/ Merge-Org Contact/Meet Entity, Time, Duration, Place …… …… Org, Time, Place

本文组织如下:第二部分主要介绍事件抽取的相关工作,并提出本文的研究方案;第三和第四部分分别介绍解决事件类别识别和事件元素识别这两个事件抽取步骤的关键技术;第五部分给出以上两项关键技术的评价指标以及事件抽取系统的性能分析;最后给出结论和未来工作。

2 相关工作及系统框架

事件抽取主要有两种方法:模式匹配的方法和机器学习的方法。模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配 [6,7]。例如Surdeanu和Harabagiu针对开放域的事件抽取系统——FSA[8]等。这种方法准确率较高,但往往依赖于具体领域,可移植性差。机器学习的方法把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。相对而言,这种方法较为客观,不需要太多的人工干预和领域知识,因此目前的事件抽取研究多数采用机器学习的方法。Hai Leong Chieu和Hwee Tou Ng于2002年首次在事件抽取中引入最大熵分类器[9],用于事件元素的识别;David Ahn 2006年结合MegaM和Timbl两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在ACE英文语料上均取得了不错的效果[4]。但Ahn的方法由于将每个词作为一个实例来训练机器学习模型,引入了大量的反例,导致正反例严重不平衡;此外,事件类别的多元分类以及为每类事件元素单独构造多元分类器在语料规模较小的时候存在着一定的数据稀疏问题。

鉴于上述方法的不足,本文提出一种基于触发词扩展和二元分类相结合的识别方法进行事件类别的识别,多元分类模型的方法进行事件元素的识别,较好的避免了正反例不平衡和数据稀疏问题。

哈工大自然语言处理实验室论文啊。--中文事件抽取技术研究

图2给出了本文事件抽取系统的系统框架图。

图2事件抽取系统框架图 2

3 事件类别识别

事件触发词直接引发事件的产生,是决定事件类别的重要特征。本文提出基于触发词扩展和二元分类相结合的方法解决事件类别识别问题,分为候选事件的抽取和候选事件的分类两个主要步骤。

3.1 候选事件的抽取

本文将含有触发词的句子称为候选事件。事件触发词直接决定候选事件及其候选类别的获取。由于训练语料中触发词(种子触发词)数量有限,容易造成新事件的丢失。如:“他偏瘫在床”。假设“偏瘫”不是种子触发词,该句就不易被识别成事件。但“偏瘫”和“瘫痪”词义相近,本文使用哈工大信息检索研究室的《同义词词林(扩展版)》自动扩充种子触发词,尽可能多的覆盖各种类型事件的触发词。扩展后的触发词及其所在事件的类别,组成二元组对(trigger,type),如:(瘫痪,Life/Injure)等,并构成“触发词-事件类别”二元对照表。据此,给出候选 …… 此处隐藏:8247字,全部文档内容请下载后查看。喜欢就下载吧 ……

中文事件抽取技术研究.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/1714239.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)