一种新型朴素贝叶斯文本分类算法
第2 9卷第 1期2 0 1 4年 1月
数
据
采
集
与
处
理
Vo l _ 2 9 No . 1
J o u r n a l o f Da t a Ac q u i s i t i o n a n d Pr o c e s s i n g
J a n .2 0 1 4
文章编号: 1 0 0 4— 9 0 3 7 ( 2 0 1 4 ) 0 1— 0 0 7 1— 0 5
一
种新型朴素贝叶斯文本分类算法邸鹏段利国(太原理工大学计算机科学与技术学院,太原, 0 3 0 0 2 4 )
摘要:针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种“先抑后扬” (抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。
实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。关键词:文本分类;朴素贝叶斯;先验概率;后验概率
中图分类号: T P 3 9 1 . 1
文献标识码: A
Ne w Na i v e Ba y e s Te x t Cl a s s i f i c a t i o n Al g o r i t h mDi Pe ng, D u an Li gu o( De p a r t me n t o f Co mp u t e r S c i e n c e a n d Te c h n o l o g y,Ta i y u a n Un i v e r s i t y o f Te c h n o l o g y,Ta i y u a n,0 3 0 0 2 4,Ch i n a )
Ab s t r a c t:Ac c o r di n g t o t h e p he n om e na t ha t t he c a l c u l a t i on of pr i o r pr o b a bi l i t y i n t e x t c l a s s i f i c a— t i o n i S t i me— c o ns u mi n g a nd h a s l i t t l e e f f e c t o n t he c l a s s i f i c a t i o n r e
s u l t。 a nd t he a c c u r a c y l O S S of p os t e r i o r p r ob a bi l i t y a f f e c t s t he a c c u r a c y o f c l a s s i f i c a t i on,t he c l a s s i c a l na i v e Ba y e s a l g or i t h m i s i mpr o ve d a nd a n e w t e x t c l a s s i f i c a t i o n a l go r i t hm i s pr o po s e d whi c h r e s t r a i ns t he e f f e c t o f pr i o r p r o ba bi l i t y a nd a mpl i f i e s t h e e f f e c t of p os t e r i or pr o ba b i l i t y .I n t he ne w a l go r i t h m,t he c a l c ul a— t i on o f pr i or pr o ba b i l i t y i s r e mov e d a nd a n a mp l i f i c a t i o n f a c t or i s a dd e d t o t h e c a l c ul a t i on of p os t e r i or p r ob a bi l i t y.Th e e xp e r i me nt s p r ov e t h a t r e mo v i ng t he c a l c ul a t i o n o f pr i o r p r o ba b i l i t y i n t e xt c l a s s i f i c a t i o n c a n a c c e l e r a t e t he c l a s s i f i c a t i on s pe e d a nd ha s l i t t l e e f f e c t o n t h e c l a s s i f i c a— t i on a c c u r a c y,a n d a d di n g a n a mp l i f i c a t i on f a c t or i n t he c a l c ul a t i o n of p os t e r i o r p r ob a bi l i t y c a nr e duc e t he e f f e c t o f e r r o r p r o pa g a t i o n a nd, i mp r o v e t he c l a s s i f
i c a t i on a c c u r a c y .
Ke y wo r d s:t e x t c a t e go r i z a t i o n;na i v e Ba ye s;p r i o r pr o ba bi l i t y;p os t e r i or pr o ba b i l i t y
人[ 2]研究主客观句分类,得出基于词性标注的特征
引自动文本分类是自然语言处理领域中的一个
选择方法比词袋效果好。C o l u mb i a大学 Yu等人l 3]对新闻这类主要讲“事实”的文本进行主客观句子识别,利用 S i mF i n d e r工具计算句子相似度, 构造训练集,结合各类词性信息构建贝叶斯分类器,提出多分类器的构建以解决训练集构造的不确定性和训练集质量的问题。C o r n e l l大学 P a n g等
研究热点,其研究目的是借助自动分类技术判断文本的类别。数量急剧增长的网络文本成为人们获
取信息的主要来源,借助文本分类技术,可以更加快捷、准确地获取用户需要的信息。此外,文本分类技术在电子政务、垃圾邮件过滤、文本情感分析、 网络舆情监控等领域都有着广泛的应用。 _】 在英文文本分类方面, D u b l i n大学 F i n n等
人_ 4 利用属性相同的句子位置分布较近的特点,将候选句子构成一幅图,从而将主客观句分类转化为
求图的最小割问题,实现 C u t— b a s e d分类器,对主客观句进行分类识别。
基金项目:国家重点实验室开放课题 ( S KL S E 2 0 1 2— 0 9— 3 0 )资助项目;山西省自然科学基金 ( 2 0 1 3一 O 1 1 0 1 5— 2 )资助项目; 太原理工大学“语言信息处理学科建设和研究”专项项目资助。 收稿 E t期: 2 0 1 3— 0 9~ 0 1;修订日期: 2 0 1 3— 1 I - 0 2
…… 此处隐藏:1281字,全部文档内容请下载后查看。喜欢就下载吧 ……相关推荐:
- [法律文档]苏教版七年级语文下册第五单元教学设计
- [法律文档]向市委巡视组进点汇报材料
- [法律文档]绵阳市2018年高三物理上学期第二次月考
- [法律文档]浅析如何解决当代中国“新三座大山”的
- [法律文档]延安北过境线大桥工程防洪评价报告 -
- [法律文档]激活生成元素让数学课堂充满生机
- [法律文档]2014年春学期九年级5月教学质量检测语
- [法律文档]放射科标准及各项计1
- [法律文档]2012年广州化学中考试题和答案(原版)
- [法律文档]地球物理勘查规范
- [法律文档]《12系列建筑标准设计图集》目录
- [法律文档]2018年宁波市专技人员继续教育公需课-
- [法律文档]工会委员会工作职责
- [法律文档]2014新版外研社九年级英语上册课文(完
- [法律文档]《阅微草堂笔记》部分篇目赏析
- [法律文档]尔雅军事理论2018课后答案(南开版)
- [法律文档]储竣-13827 黑娃山沟大开挖穿越说明书
- [法律文档]《产品设计》教学大纲及课程简介
- [法律文档]电动吊篮专项施工方案 - 图文
- [法律文档]实木地板和复合地板的比较
- 探析如何提高电力系统中PLC的可靠性
- 用Excel函数快速实现体能测试成绩统计
- 教师招聘考试重点分析:班主任工作常识
- 高三历史选修一《历史上重大改革回眸》
- 2013年中山市部分职位(工种)人力资源视
- 2015年中国水溶性蛋白市场年度调研报告
- 原地踏步走与立定教学设计
- 何家弘法律英语课件_第十二课
- 海信冰箱经销商大会——齐俊强副总经理
- 犯罪心理学讲座
- 初中英语作文病句和错句修改范例
- 虚拟化群集部署计划及操作流程
- 焊接板式塔顶冷凝器设计
- 浅析语文教学中
- 结构力学——6位移法
- 天正建筑CAD制图技巧
- 中华人民共和国财政部令第57号——注册
- 赢在企业文化展厅设计的起跑线上
- 2013版物理一轮精品复习学案:实验6
- 直隶总督署简介




