教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 高等教育 >

汉语组块的定义和获取 - 首页-中国计算机学会信息网(2)

来源:网络收集 时间:2026-02-16
导读: 创P 侧P ( D T全) ( N N国 ) ).1 1 3. ( N P ( N N劳动) ( N N模范 )从树库中抽取组块时,我们可以获得两个名词组块,如下: 伽C ( D T全) (刊 N国 ) ( N C ( N N劳动)《 N N模范) ) ( 8 ) P C表示介词组块。由于组

创P

侧P ( D T全) ( N N国 ) ).1 1 3.

( N P ( N N劳动) ( N N模范 )从树库中抽取组块时,我们可以获得两个名词组块,如下:

伽C ( D T全) (刊 N国 ) ( N C ( N N劳动)《 N N模范) ) ( 8 ) P C表示介词组块。由于组块不能包含其他组块,因此在形成介词组块时,不需先得到名词组块后才获得。例如, 在宾州树库中介词短语如下:

( P P ( P按)伽P ( N N国家) ( N N政策) )转化为组块构成,为:

( P C ( P按 )《 N N国家 ) ( N N政策 ) )( 9 ) Q C:为数量组块,从树库数量短语Q P中抽取出来。宾州树库中存在着一种短语类型一量词短语C L P,多由一个或两个词构成。我们一般直接将其转化为数量组块。例如: ( Q P ( C D三+多) ( C L P ( M项) ) )转化为组块构成,为:

( Q C ( C D三+多 )( M项) )也有基数词C D单独作为数量组块的情况. ( 1 0 ) V C C:为动词组块。一般由动词短语 V P转化或抽取得来。因为动词短语在树库中经常包含其他类型的短语, 这种情况下,我们把动词短语中和动词相关的词剥离出来.同时在进行校对时根据一些规则抽取一个动词组块.核心词为动词。例如: ( V P ( A D V P ( A D及时) ) ( V V指定) ( N P ( N N法规性)( N N文件) )转化后,为两个组块,一个动词组块和一个名词组块。为:

( V C C ( A D困C ( N N

及时 ) ( V V指定 )法规性 ) ( N N文件刀

这里,首先从大动词短语中抽取名词组块,然后一个单独的动词“指定”随之被剥离出来, 再根据校对规则:副词A D和动词V V可以构成一个动词组块。如果被抽取的动词短语所含有的其他类型的短语只有一个词,则该词不再单独构成其他组块。 例如: ( V P ( V V走) ( N P ( N N亲戚) )转化为 动词组块为: ( V

C C ( V V走) ( N N亲戚) )

在表 1 中.我们还定义了两个特殊的组块类型:非组块( N O C )用来对于一些经常不能组成组块的规则总结出来.在落单时进行识别和错误纠正。 O专门用来表示标点符号。

3 . 2组块库构成 上的我们根据以对应关系从中文树库中抽取组块,获得组块库,共包含6 7, 7 3 4个组块,各种类型的组块数目统计如表 2 .其中名词组块和动词组块所占比例最高,分别为 3 8 . 4%和1 7 . 7%。平均每个组块含有1 . 4 6个汉语字符 (汉字或标点) .如果不计算表示标点符号的.1 1 4.

组块 O.

C组块类型 ADJ

ADVC8 5 6 P C

DNC2 1 0 0

DVC8 7

L CC1 4 7 0 O

L S T9

组块数目组块类型

8 7 5

NC 2 6 0 0 2

Q C3 2 7 0

VCC 1 1 9 7 1

NOC4 4 2 9

组块数目

3 8 6 3

1 2 8 0 2

衰2:组块数目统计

4 .结论 信息抽取、信息检索、文本聚类1分类等领域的发展都迫切需要粒度较词语大的确定性成分—组块,这些反过来也促进了组块的研究工作。本文在借鉴其他研究者思路的基础上,对组块进行了定义。只有对组块和组块类型有了明确的定义.才能有效地进行下一步的工作,正确地划分和识别各种类型的组块。同时,我们还提出了利用树库抽取组块库的方法,虽然目前获得的组块语料库规模还比较小,这些语料可以作为种子库,作为构建组块分析器的试验语料,同时为今后大规模的组块获取和收集工作奠定良好的基础。

参考文献 自然语言理解与机器翻译[ I】周强.詹卫东,任海波,构建大规模的汉语语块库.清华大学出版社:2 0 0 1, p p 1 0 2 - 1 0 7 .

[ 2] N i a n w e n X u e,F e i X i a, T h e B r a c k e t i n g G u i d e l i n e s f o r t h e P e n n C h i n e s e T e r e b a n k ( 3 . 0 ), 2 0 0 0, h即:// m o叻. I d c . u p e n n . e d u/ c t b/仁 3 7姚夭顺等,自然语言理解—一种让机器值得人类语言的研究,北京:清华大学出版社。1 9 9 5[ 4] E r i k F . T j o n g K i m S a n g a n d S a b i n e B u c h h o l

z, I n t r o d u c t i o n t o t h e C o N L L2 0 0 0 S h a r e d T a s k: C h u n k i n g . I n: P r o c e e d i n g s o f C o N L L - 2 0 0 0 a n d L L L 2 0 0 0, L i s b o n, P o t r u g a l, 2 0 0 0[ 5] A b n e y S t e v e n, P a r s i n g b y C h u n k s, I n: R o b e tB r e r w i c k, S t e v e n A b n e y a n d C a r o l T e n n y ( e d s . ), P r i n c i p l e - B a s e d

P a r s i n g, K l u w e r A c a d e m i c P u b l i s h e r s, 1 9 9 1, p p . 2 5 7 - 2 7 8[ 6] B u c h h o l z S ., J ., V e e n s t r a a n d W D a e l e m a n s, C a s c a d e d g r a m m a t i c a l e r l a t i o n a s s i g n m e n t, I n P o r c e e d i n g s o f t h e J o i n t S I G D A T C o n f e r e n c e o n E m p i r i c a l . M e t h o d s i n N a t u r a l L a n g u a g e P r o c e s s i n g a n d V e y r L a r g e C o r p o r a, C o l l e g e P a r k, MD, 1 9 9 9, p p . 2 3 9 - - 2 4 6[ 7] J o m V e e n s t r a, M e m o y r - B a s e d T e x t C h u n k i n g, I n: N i k o s F a k o t a k i s l e d ), M a c h i n e l e a n r i n g i n h u m a n l a n g u a g e t e c h n o l o g y, w o r k s h o p a t A C A I 9 9, 1 9 9 9[ 8 1赵军,汉语基本名词短语识别及结构分析研究,清华大学工学博士学位论文,1 9 9 8

[ 9〕孙宏林,现代汉语非受限文本的实语块分析,北京大学博士学位论文, 2 0 0 1[ 1 0〕周强.孙茂松.黄昌宁。汉语最长名词短语的自动识别。软件学报,2 0 0 0 . 1 1 ( 2 ):1 9

5 - 2 0 1

.1 1 5.

…… 此处隐藏:1444字,全部文档内容请下载后查看。喜欢就下载吧 ……
汉语组块的定义和获取 - 首页-中国计算机学会信息网(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/124185.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)