汉语组块的定义和获取 - 首页-中国计算机学会信息网
汉语组块的定义和获取李素建刘群 北京大学计算语言学研究所 1 0 0 8 7 1E ma i l: l i s u i i a n
摘要:组块是介于词语和句子之间的一种语言结构,目前还没有明确的定义。本文总结了当前对组块的各种研究,对汉语组块进行了定义。同时组块的获取和收集也是一项迫切的任务,由于不易直接获取到具有组块标注的语料,我们从现有树库中抽取组块。本文根据汉语特点提出了 1 2种汉语组块类型,并根据这些组块类型和宾州大学中文树库短语类型的对应关系进行转化获得组块库.关钮旬:组块,组块语料库,树库,语法分析
R e s e a r c h o n D e f i n i t i o n a n d A c q u i s i t i o n o f C h u n kL i S u j i a n, L i u Q u nI n s t i t u t e o f C o m p u t a t i o n a l L i n g u i s t i c s, P e k i n g U n i v e r s i y t, P e k i n g, C h i n a, 1 0 0 8 7 1E ma i l: l i s u i i a n
A b s t r a c t: C h u n k i s a k i n d o f l i n g u i s t i c s t r u c t u r e b e t w e e n w o r d a n d s e n t e n c e, w h i c h i s n ' t d e f i n e d d e f i n i t e l y n o w . T h i s p a p e r s u m m a r i z e s v a r i o u s c u r r e n t r e s e a r c h e s o n c h u n k s, a n d d e f i n e s w h a t i s a C h i n e s e c h u n k . A t t h e s a m e t i m e, t h e a c q u i s i t i o n a n d c o l l e c t i o n o f c h u n k s a r e a h a r d b u t u r g e n t w o r k . D u e t o t h e d i f i f c u l t y, o f a c q u i r i n g c h u n k e d c o r p u s, w e a d o p t t h e m e t h o d o f c o n v e t r i n g r f o m T r e e b a n k a v a i l a b
l e . A c c o r d i n g t o t h e c h a r a c t e r i s t i c s
o f C h i n e s e, 1 2 C h i n e s e c h u n k c a t e g o r i e s a r e p r o p o s e d . T h e n o u r c h u n k e d c o r p u s i s o b t a i n e d b y e x t r a c t i n g f r o mU p e n n C h i n e s e T r e e b a n k .
K e y w o r d s: C h u n k, C h u n k e d c o r p u s, T r e e b a n k, S y n t a c t i c p a r s i n g
1引言 当前I n t e r n e t的发展促进了信息的交流,文本的获取和收集变得相对容易。然而构建大规模标注语料库的任务却依然严峻,这是因为标注标准的不一致性,同时需要耗费大量的人力和物力。目前经过词性标注加工的英文、中文语料库已经具有一定规模,对于更高层
次上的语言加工, U p e n n英文树库是一个大规模的句法标注语料库,汉语方面的成果包括:清华大学的汉语测试树库[ 0,美国宾州大学的中文树库M,和东北大学的中文语义树库P I随着部分分析技术的发展和应用范围的不断扩大,粒度处于词和句之间的组块标注语料的
开发也越来越受到重视。 C O N L L - 2 0 0 0 1 0 '会议提供了从U p e n n英文树库中抽取出来的英文组块库:虽然清华大学提出了一套语块标注体系,构建了 2 0 0万字的汉语语块库。但汉语组
1 1 0.
块的定义及组块库的构建,仍然需要做进一步的研究。第2节详细介绍了相关的组块研究工作,并据此给出了本文的组块定义:第3节详细说明了所定义的组块类型及相应类型组块的获取;第4节对全文进行了小结。
组块的研究人们一直都是对词或整句进行研究。组块是较词语复杂、句子简单的成分,对它的定一直没有一个明确的定义。下面介绍一些典型的组块研究,并给出本文对组块的界定。
2.义 2. , 11
组块的研究
A b n e y[ 5〕最早提出了一个完整的组块描述体系,对组块有着权威性的定义。他把组块定
义为从句内的一个非递归的核心成分。这种成分包含核心成分的前置修饰成分,而不包含后置附属结构。组块不一定
覆盖整个句子,例如:常有一些介词、连词等不是任何一个组
块的部分。 B u c h h o l z[ 6]、 V e e n s t r a[ ']也分别对N P, V P, P P等组块类型及自动识别方法进行了比较完整的研究工作。这些研究都为C o N L L - 2 0 0 0提出的组块共享任务奠定了基础。
中 文组块最初侧重对基本名词短语、最长名词短语、以及命名实体等的研究[ 8, 9, 1 0]。但
汉语句法中除了大部分名词块外,还有很多其他结构的组块。东北大学针对机器翻译提出
了扩展组块( E - C h u n k )的概念[ 3 1。清华大学对整理和加工中文组块库作了大量工作,建立了一个完整的组块划分体系,其中设计了 8个标记的语块标记集 (包括主语语块、述语语块、宾语语块、兼语语块、状语语块、补语语块、独立语块、语气块) 0 1 2 . 3本文对组块的界定
虽然在汉语学习中我们对语句划分的标准经常是主语、谓语、宾语、状语等,然而这种划分属于一种从全局考虑的划分方式,如果没有对语句深入的理解,就不能正确标注出这些成分,这就违背了组块分析的原则.组块分析又称浅层分析,意在不用通过深入的理解就可以得到确定的一个片段。同时从组块的大小来看,组块粒度越大,组块概念的确定性就越强,进一步的分析也就越容易,而组块本身的正确识别却比较困难。因此组块粒度的选取是一个大问题,粒度过小时,组块分析的任务就成了词性标注的问题;粒度过大,则成了完全句法分析问题。这样,选取组块要粒度适当,同时保证组块简单性和概念确定性的均衡问题。因此我们确定建立类似A b n e y组块的汉语组块体系。
从 组块分析角度来看, A b n e y提出的组块是有级别的,高层次的组块由低层次组块构成。本文对所有组块都一视同仁,使它们都处于一种平等的地位。这里组块的定义借用了 A b n e y组块定义的思想,但也存在着差别。为汉语组块定义如下:定义 1:组块是一种结构,是符合一定句法功能的基本短语。每个组块都有一个核心词,并围绕核心词展开,以核心词作为组块的开始或结束。这里,如果一个词序列可以 构成某种类型的组块,那么它的内部即使有形成其他类型组块的可能性,也不会产生其他类型的组块。组块之间不存在级别问题,即所有组块都位
.n1。
于同一个层次上,是平等的关系。
此外,这里的组块核心词也可以作为组块的开始。同时通过引入4 1 t组决的组块类型,保证句中任何一个词都属于且只属于一种组块。对语句组块划分遵循以下的原则: ( 1 )各种组块类型在构成上都是平等的,任一个组块都严格符合一定的语法规则,且不能由 其他类型的组块构成。
( 2 )组块之间不发生重叠.句中任一词只能属于一个组块,且组块之间不存在嵌套的现象, 在发生歧义时遵守最长匹配原则,能够构成大组块的情况下,屏蔽小组块。 ( 3 )覆盖原则,我们在划分组块时,要保证句中每一个词语都能够归入一个组块内,对于一些词 ( 如:连词、虚词),不能被归并到其他组块时,则归入到非组获岁粗啪勺组块内。
3 .组块库的获取 组块库的获取是一项繁重和迫切的任务。由于己经存在一定规模的树库,因此利用现有资源完成组块库的构建可以减少部分劳动量。我们选用宾州大学中文树库抽取中文组块。宾州大学中文树库共4, 1 8 5个句子,约1 0 0, 0 0 0个词语。语料库中每一句都形成了一个以词语为叶子节点,以整句为根的树状图。
3 .,树库到组块库的转化组块类型ADJ C ADVC DNC DVC L CC L S T NC
P C
Q CVC C NOCO
…… 此处隐藏:3693字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [高等教育]一年级家长课程教案
- [高等教育]封丘县人民医院深入推进纠正医药购销领
- [高等教育]2017年6月大学英语四级真题试卷及答案(
- [高等教育]2017年北京第二外国语学院文学院824中
- [高等教育]7 高中历史第7单元1861年俄国农奴制改
- [高等教育]【K12学习】4、实际测量-苏教版六年级
- [高等教育]药具培训试卷题库及部分参考答案
- [高等教育]本土电子元器件目录分销商如何赢得生意
- [高等教育]七年级岭南版美术教案
- [高等教育]书作文之书法活动通讯稿
- [高等教育]Endnote X 软件使用入门和用法总结(LS)
- [高等教育]嵌入式系统的现状及发展状况
- [高等教育]2012抗菌药物专项整治活动方案解读
- [高等教育]人教版新课本一年级数学下册期末试卷
- [高等教育]爱课程民法学观后感
- [高等教育]930机组使用说明书1
- [高等教育]煤气设备设施点检标准
- [高等教育]常见室内观叶植物图解
- [高等教育]312党员群众路线心得体会
- [高等教育]小学信息(苗版)第一册全册教案
- 在市---局2010党建大会上的讲话
- 《科哲》提纲及补充阅读材料(2010.7)
- 苏州高博软件技术职业学院论文开题报告
- 兼职导游管理的困境及对策探讨
- 基于通用设计理念的现代厨房产品语义研
- 康乐一中2010年至2011年度鼓号队、花束
- 第10章_数据收集整理与描述_期末复习课
- 2008年黑龙江林甸商贸购物中心营销策划
- 水硬度的测定实验报告
- 五分钟教你拍摄夜景光绘照
- 2014年临床妇产科三基三严试题及答案
- 0第二课 纾解压力第一站了解压力
- 解析建筑工程电气设备安装施工技术要点
- 地方性应用型本科高校“双师型”师资队
- 高考语文专题复习课件:小说阅读指导
- 装饰工程投标书2
- 大学生就业难问题探讨及对策
- English and Its History
- 青岛市城市房屋修缮工程质量监督管理办
- 初中英语形容词和副词的用法和练习题




