中文事件抽取技术研究
哈工大自然语言处理实验室论文啊。--中文事件抽取技术研究
中文事件抽取技术研究
赵妍妍,秦兵,车万翔,刘挺
(哈尔滨工业大学 计算机学院 信息检索研究室,黑龙江 哈尔滨 150001)
摘 要:事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。
关键词:事件抽取;事件类别识别;事件元素识别
中图分类号:TP391 文献标识码:A
*
Research on Chinese Event Extraction
ZHAO Yan-yan, QIN Bing, CHE Wan-xiang, LIU Ting
(Information Retrieval Laboratory, School of Computer Science and Technology, Harbin Institute of Technology, Harbin,
Heilongjiang 150001, China)
Abstract: Event Extraction is an important research point in the area of Information Extraction. This paper makes an intensive study of the two stages of Chinese event extraction, namely event type recognition and event argument recognition.
A novel method combining event trigger expansion and a binary classifier is presented in the step of event type recognition while in the step of argument recognition, one with multi-class classification based on maximum entropy is introduced. The above methods solved the data unbalanced problem in training model and the data sparseness problem brought by the small set of training data effectively, and finally our event extraction system achieved a better performance.
Key words: event extraction; event type recognition; event argument recognition
1 引言
事件抽取是信息抽取领域一个重要的研究方向。事件抽取把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘[1~3],自动问答[4],信息检索[4]等领域有着广泛的应用。
近些年来,事件抽取一直吸引着许多研究机构和研究者的注意力。MUC (Message Understanding Conference) 会议和ACE(Automatic Content Extraction)会议是典型的含有事件抽取任务的评测会议。本文有关事件抽取的定义和实例来自于ACE[5]。根据定义,事件由事件触发词(Trigger)和描述事件结构的元素(Argument)构成。图1结合ACE的事件标注标准详细的表述了一个事件的构成。其中,“出生”是该事件的触发词,所触发的事件类别(Type)为Life,子类别(Subtype)为Be-Born。事件的三个组成元素“毛泽东”、“1893年”、“湖南湘潭”,分别对应着该类(Life/Be-Born)事件模* 收稿日期: 定稿日期:
基金项目:国家自然科学基金项目(60575042, 60675034)
作者简介:赵妍妍(1983—),女,博士生,主要研究方向为信息抽取;秦兵(1968—),女,副教授,主要研究方向为信息抽取,多文档文摘;车万翔(1980—),男,讲师,主要研究方向为自然语言处理;刘挺(1972—),男,教授,主要研究方向为自然语言处理,信息检索。
哈工大自然语言处理实验室论文啊。--中文事件抽取技术研究
板中的三个元素标签,即:Person、Time以及Place。
图1 “出生”事件的基本组成要素
事件抽取任务可由下面两个主要步骤组成:
1. 事件类别识别:事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类
别,如表1。每种事件类别/子类别(简称为“事件类别”)对应着唯一的事件模板,如表2。
2. 事件元素识别:事件元素是指事件的参与者。根据所属的事件模板(如表2),抽取相应的
元素,并为其标上正确的元素标签。
表1 ACE定义的事件类别
Type Subtype
Life Born, Marry, Divorce, Injure, Die
Movement Transport
Conflict Attack, Demonstrate
Contact Meet, Phone-Write
…… ……
表2 ACE定义的事件模板 Type/Subype Template Life/Be-Born Person, Time-Within, Place Business/ Merge-Org Contact/Meet Entity, Time, Duration, Place …… …… Org, Time, Place
本文组织如下:第二部分主要介绍事件抽取的相关工作,并提出本文的研究方案;第三和第四部分分别介绍解决事件类别识别和事件元素识别这两个事件抽取步骤的关键技术;第五部分给出以上两项关键技术的评价指标以及事件抽取系统的性能分析;最后给出结论和未来工作。
2 相关工作及系统框架
事件抽取主要有两种方法:模式匹配的方法和机器学习的方法。模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配 [6,7]。例如Surdeanu和Harabagiu针对开放域的事件抽取系统——FSA[8]等。这种方法准确率较高,但往往依赖于具体领域,可移植性差。机器学习的方法把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。相对而言,这种方法较为客观,不需要太多的人工干预和领域知识,因此目前的事件抽取研究多数采用机器学习的方法。Hai Leong Chieu和Hwee Tou Ng于2002年首次在事件抽取中引入最大熵分类器[9],用于事件元素的识别;David Ahn 2006年结合MegaM和Timbl两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在ACE英文语料上均取得了不错的效果[4]。但Ahn的方法由于将每个词作为一个实例来训练机器学习模型,引入了大量的反例,导致正反例严重不平衡;此外,事件类别的多元分类以及为每类事件元素单独构造多元分类器在语料规模较小的时候存在着一定的数据稀疏问题。
鉴于上述方法的不足,本文提出一种基于触发词扩展和二元分类相结合的识别方法进行事件类别的识别,多元分类模型的方法进行事件元素的识别,较好的避免了正反例不平衡和数据稀疏问题。
哈工大自然语言处理实验室论文啊。--中文事件抽取技术研究
图2给出了本文事件抽取系统的系统框架图。
图2事件抽取系统框架图 2
3 事件类别识别
事件触发词直接引发事件的产生,是决定事件类别的重要特征。本文提出基于触发词扩展和二元分类相结合的方法解决事件类别识别问题,分为候选事件的抽取和候选事件的分类两个主要步骤。
3.1 候选事件的抽取
本文将含有触发词的句子称为候选事件。事件触发词直接决定候选事件及其候选类别的获取。由于训练语料中触发词(种子触发词)数量有限,容易造成新事件的丢失。如:“他偏瘫在床”。假设“偏瘫”不是种子触发词,该句就不易被识别成事件。但“偏瘫”和“瘫痪”词义相近,本文使用哈工大信息检索研究室的《同义词词林(扩展版)》自动扩充种子触发词,尽可能多的覆盖各种类型事件的触发词。扩展后的触发词及其所在事件的类别,组成二元组对(trigger,type),如:(瘫痪,Life/Injure)等,并构成“触发词-事件类别”二元对照表。据此,给出候选 …… 此处隐藏:8247字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [高等教育]一年级家长课程教案
- [高等教育]封丘县人民医院深入推进纠正医药购销领
- [高等教育]2017年6月大学英语四级真题试卷及答案(
- [高等教育]2017年北京第二外国语学院文学院824中
- [高等教育]7 高中历史第7单元1861年俄国农奴制改
- [高等教育]【K12学习】4、实际测量-苏教版六年级
- [高等教育]药具培训试卷题库及部分参考答案
- [高等教育]本土电子元器件目录分销商如何赢得生意
- [高等教育]七年级岭南版美术教案
- [高等教育]书作文之书法活动通讯稿
- [高等教育]Endnote X 软件使用入门和用法总结(LS)
- [高等教育]嵌入式系统的现状及发展状况
- [高等教育]2012抗菌药物专项整治活动方案解读
- [高等教育]人教版新课本一年级数学下册期末试卷
- [高等教育]爱课程民法学观后感
- [高等教育]930机组使用说明书1
- [高等教育]煤气设备设施点检标准
- [高等教育]常见室内观叶植物图解
- [高等教育]312党员群众路线心得体会
- [高等教育]小学信息(苗版)第一册全册教案
- 在市---局2010党建大会上的讲话
- 《科哲》提纲及补充阅读材料(2010.7)
- 苏州高博软件技术职业学院论文开题报告
- 兼职导游管理的困境及对策探讨
- 基于通用设计理念的现代厨房产品语义研
- 康乐一中2010年至2011年度鼓号队、花束
- 第10章_数据收集整理与描述_期末复习课
- 2008年黑龙江林甸商贸购物中心营销策划
- 水硬度的测定实验报告
- 五分钟教你拍摄夜景光绘照
- 2014年临床妇产科三基三严试题及答案
- 0第二课 纾解压力第一站了解压力
- 解析建筑工程电气设备安装施工技术要点
- 地方性应用型本科高校“双师型”师资队
- 高考语文专题复习课件:小说阅读指导
- 装饰工程投标书2
- 大学生就业难问题探讨及对策
- English and Its History
- 青岛市城市房屋修缮工程质量监督管理办
- 初中英语形容词和副词的用法和练习题




