教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 精品文档 > 法律文档 >

一种新型朴素贝叶斯文本分类算法

来源:网络收集 时间:2026-07-03
导读: 第2 9卷第 1期2 0 1 4年 1月 数 据 采 集 与 处 理 Vo l _ 2 9 No . 1 J o u r n a l o f Da t a Ac q u i s i t i o n a n d Pr o c e s s i n g J a n .2 0 1 4 文章编号: 1 0 0 4— 9 0 3 7 ( 2 0 1 4 ) 0 1— 0 0 7 1— 0 5 一 种新型朴素贝叶斯文本分

第2 9卷第 1期2 0 1 4年 1月

Vo l _ 2 9 No . 1

J o u r n a l o f Da t a Ac q u i s i t i o n a n d Pr o c e s s i n g

J a n .2 0 1 4

文章编号: 1 0 0 4— 9 0 3 7 ( 2 0 1 4 ) 0 1— 0 0 7 1— 0 5

种新型朴素贝叶斯文本分类算法邸鹏段利国(太原理工大学计算机科学与技术学院,太原, 0 3 0 0 2 4 )

摘要:针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种“先抑后扬” (抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。

实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。关键词:文本分类;朴素贝叶斯;先验概率;后验概率

中图分类号: T P 3 9 1 . 1

文献标识码: A

Ne w Na i v e Ba y e s Te x t Cl a s s i f i c a t i o n Al g o r i t h mDi Pe ng, D u an Li gu o( De p a r t me n t o f Co mp u t e r S c i e n c e a n d Te c h n o l o g y,Ta i y u a n Un i v e r s i t y o f Te c h n o l o g y,Ta i y u a n,0 3 0 0 2 4,Ch i n a )

Ab s t r a c t:Ac c o r di n g t o t h e p he n om e na t ha t t he c a l c u l a t i on of pr i o r pr o b a bi l i t y i n t e x t c l a s s i f i c a— t i o n i S t i me— c o ns u mi n g a nd h a s l i t t l e e f f e c t o n t he c l a s s i f i c a t i o n r e

s u l t。 a nd t he a c c u r a c y l O S S of p os t e r i o r p r ob a bi l i t y a f f e c t s t he a c c u r a c y o f c l a s s i f i c a t i on,t he c l a s s i c a l na i v e Ba y e s a l g or i t h m i s i mpr o ve d a nd a n e w t e x t c l a s s i f i c a t i o n a l go r i t hm i s pr o po s e d whi c h r e s t r a i ns t he e f f e c t o f pr i o r p r o ba bi l i t y a nd a mpl i f i e s t h e e f f e c t of p os t e r i or pr o ba b i l i t y .I n t he ne w a l go r i t h m,t he c a l c ul a— t i on o f pr i or pr o ba b i l i t y i s r e mov e d a nd a n a mp l i f i c a t i o n f a c t or i s a dd e d t o t h e c a l c ul a t i on of p os t e r i or p r ob a bi l i t y.Th e e xp e r i me nt s p r ov e t h a t r e mo v i ng t he c a l c ul a t i o n o f pr i o r p r o ba b i l i t y i n t e xt c l a s s i f i c a t i o n c a n a c c e l e r a t e t he c l a s s i f i c a t i on s pe e d a nd ha s l i t t l e e f f e c t o n t h e c l a s s i f i c a— t i on a c c u r a c y,a n d a d di n g a n a mp l i f i c a t i on f a c t or i n t he c a l c ul a t i o n of p os t e r i o r p r ob a bi l i t y c a nr e duc e t he e f f e c t o f e r r o r p r o pa g a t i o n a nd, i mp r o v e t he c l a s s i f

i c a t i on a c c u r a c y .

Ke y wo r d s:t e x t c a t e go r i z a t i o n;na i v e Ba ye s;p r i o r pr o ba bi l i t y;p os t e r i or pr o ba b i l i t y

人[ 2]研究主客观句分类,得出基于词性标注的特征

引自动文本分类是自然语言处理领域中的一个

选择方法比词袋效果好。C o l u mb i a大学 Yu等人l 3]对新闻这类主要讲“事实”的文本进行主客观句子识别,利用 S i mF i n d e r工具计算句子相似度, 构造训练集,结合各类词性信息构建贝叶斯分类器,提出多分类器的构建以解决训练集构造的不确定性和训练集质量的问题。C o r n e l l大学 P a n g等

研究热点,其研究目的是借助自动分类技术判断文本的类别。数量急剧增长的网络文本成为人们获

取信息的主要来源,借助文本分类技术,可以更加快捷、准确地获取用户需要的信息。此外,文本分类技术在电子政务、垃圾邮件过滤、文本情感分析、 网络舆情监控等领域都有着广泛的应用。 _】 在英文文本分类方面, D u b l i n大学 F i n n等

人_ 4 利用属性相同的句子位置分布较近的特点,将候选句子构成一幅图,从而将主客观句分类转化为

求图的最小割问题,实现 C u t— b a s e d分类器,对主客观句进行分类识别。

基金项目:国家重点实验室开放课题 ( S KL S E 2 0 1 2— 0 9— 3 0 )资助项目;山西省自然科学基金 ( 2 0 1 3一 O 1 1 0 1 5— 2 )资助项目; 太原理工大学“语言信息处理学科建设和研究”专项项目资助。 收稿 E t期: 2 0 1 3— 0 9~ 0 1;修订日期: 2 0 1 3— 1 I - 0 2

…… 此处隐藏:1281字,全部文档内容请下载后查看。喜欢就下载吧 ……
一种新型朴素贝叶斯文本分类算法.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wendang/1416185.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)