基于MB-LDA模型的微博主题挖掘
基于MB-LDA模型的微博主题挖掘MicroBlog-latent Dirichlet allocation 汇报人:陈元元
摘要:Twitter等微博网站日趋流行,已成为海量信息的发布体.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身 带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建 模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本 关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘 出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络 性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.
关键词:微博;主题挖掘;LDA;概率生成模型;社交网络
微博的简介 文本主题挖掘算法
目录微博主题挖掘 实验
1.微博的简介
微博作为Web2.0时代兴起的一种互联网社交网络服务,以其快速便捷 的特性风靡全球.微博基于用户之间的关联关系,构筑了一个信息 传播和分享的平台,用户可以通过网络、手机或是其他客户端登录 微博,实时地进行短文本信息的更新和分享. 如:用户可以发布自己最新的状态、表达自己对事物的观点,也可以对某人单独地发起对话,还可以转发别人的微博. 微博网站Twitter注册用户已达1.75亿,每天发布的消息超过1.3亿条。
1.微博的简介按消息发布方式分类
广播 所有人均可见原创内容
对话 特定发送对象转发部分的作者为Ethan
锐推 感兴趣微博的转发
LOL RT @ Ethan This is a good website http://www.vlis.zju.edu.RT表示锐推类型
转发内容
1.微博的简介
在信息爆炸时代,从海量信息中挖掘出有效的主题信息,分析出内在语义关联 显得尤为重要. 微博本身是一种非结构化的文本信息载体,却又带有一些结构化的社会网络方面的信息,这种社会网 络的关联关系在主题挖掘时可以起到辅助作用; 每条微博是一个文本片段(通常只有一句话),携带的信息量不大,这种短文本结构会加大其主题挖掘 的难度.
这些特性决定了微博主题挖掘不能简单地套用传统的文本主题挖掘的方法.
2.关于文本主题挖掘算法
传统的主题 挖掘算法
基于线性代 数的主题挖 掘算法
基于概率模 型的主题挖 掘算法
2.1
2.2
2.3
2.关于文本主题挖掘算法
2.1传统的主题挖掘算法 概要:通过VSM(vector足同一个主题.
space model)将文本里的非结构化数据映射到向
量空间中的点,然后用传统的聚类算法实现文本聚类,聚类结果近似认为满
缺
点:仅区分类别,并未给出语义信息,不利于人们理解
2.关于文本主题挖掘算法
2.2 基于线性代数的主题挖掘算法 概要:LSA (latent semantic analysis) 利 用 SVD (singular value
decomposition)的降维方法来挖掘文档的潜在结构 (语义结构),在低维的语义空 间里进行查询和相关性分析,通过SVD等数学手段,使得这种隐含的相关性能够被 很好地挖掘出来.
优点:语义空间的维度类似人类语义理解的维度,便于人类的理解,将表面信息转化为深层次的抽象.
缺点:未能解决文本的“一词多义”问题;使得主题的理解并不直观.
2.关于文本主题挖掘算法2.3 基于概率模型的主题挖掘算法 概要:主题模型(topicmodel)中假设,主题可以根据一定的规则生成单词,那么在
已经知道文本单词的情况下,可以通过概率方法反推出文本集的主题分布情况.最具
代表性的是PLSA (概率潜语义模型)和LDA(潜在狄利克雷模型).
PLSA沿用了LSA的降维思想:主题挖掘就是通过“降维”将文档从高维空间投影到了语义空间。
LDA在PLSA的基础上加入了Dirichlet先验分布,是PLSA的一个突破性的延伸.并引入了超参数,形成了一个“文档一主题一单词”3层的贝叶斯模型,然后通过运用概率方 法对模型进行推导,来寻找文本集的语义结构,挖掘文本的主题.
优点:计算复杂度小于传统SVD
(奇异值分解)算法;在性能和处理大规模数据方面
也优于LSA;还可应用于处理非文本文件。
3. 微博主题挖掘算法
文本生成 模型LDA
微博生成模 型 MB-LDA
模型的推导 与主题挖掘
模型延伸
3.1
3.2
3.3
3.4
3. 微博主题挖掘算法3.1 文本生成模型LDA(latent Dirichlet allocation ) 超参数
1
主题数目
超参数
2
d
2
z
3
w
3 D
T文本数目 抽取主题与 单词的关系
图1 LDA模型的贝叶斯网络图抽取的文本d 与主题的关系
当前单词所 属的主题
抽取出具 体单词
1.在Dirichlet分布中抽取主题与单词的关系 2.在Dirichlet分布中抽样出文本d与各个主题的关系,并确定当前单词所属主题z 3.结合以上,从多项式分布中抽取出具体单词
3. 微博主题挖掘算法3.1 文本生成模型LDA
基本思想:每个文本都可以表示成一系列主题的混合分布,记为P(z);同时每个主题是词汇表中所有单词上的概率分布,记为P(w|z).
一个文本中每个单词的概率分布如式(1)所示:
一个文本中所有单词与 其所属主题的联合概率分布如式(2)所示:
3. 微博主题挖掘算法3.2微博生成模型 MB-LDA (MicroBlog-latent Dirichlet allocation) 基本思想:研究LDA的基础上,对微博的联系人关联关系和文本关联关系进行统一建
模,形成的适合于微博主题挖掘的模型。联系人C与各主 题之间的关系 当前单词所 属的主题 联系人关系 抽取出具 体单词
2联系人关联关系
c
c dr
c
抽取的微博d与 主题的关系 文本关联关系
z dRT
4
w
4
1 T
抽取主题与 单词的关系
3
D转发部分与各主 题之间的关系
转发关系
图2 MB-LDA模型的贝叶斯网络图
3. 微博主题挖掘算法3.2微博生成模型 MB-LDA 定义1:微博的联系人关联关系指的是带有@的微博与@的联系人之间存在潜在的语义关联 eg“ @ Ethan Can you lend me a book on data mining ” “ @ Ethan HELP me on these computer exercise ”推断出第2条微博中的computer exercises与数据挖掘有关.
定义2:微博的文本关联关系指的是带有RT的微博与原微博之间存在潜在的语义关联。
eg:“Good job RT @ Ethan I have finished this experiment”对原创部分的内容“Good job”很难有效地挖掘主题,但通过文本关联关系,联系转发部分 的内容,可以推断原创部分的job是一项实验工作.
3. 微博主题挖掘算法3.2微博生成模型 MB-LDA整个微博中, 的概率分布如式(3)所示:
P , c , c P c c P d
1 c
. 3
一条微博中,所有单词与所属主题的联合概率分布如式(4)所示:
P w, z , , P P z P w z, P P z d P z d RT1
P w z, . 4
3. 微博主题挖掘算法
图3 微博的生成过程
3. 微博主题挖掘算法3.3模型的推导与主题挖掘MB-LDA模型的推导采用吉布斯抽样(Gibbs Sampling)的方法,MB-LDA模型 …… 此处隐藏:2096字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [高等教育]一年级家长课程教案
- [高等教育]封丘县人民医院深入推进纠正医药购销领
- [高等教育]2017年6月大学英语四级真题试卷及答案(
- [高等教育]2017年北京第二外国语学院文学院824中
- [高等教育]7 高中历史第7单元1861年俄国农奴制改
- [高等教育]【K12学习】4、实际测量-苏教版六年级
- [高等教育]药具培训试卷题库及部分参考答案
- [高等教育]本土电子元器件目录分销商如何赢得生意
- [高等教育]七年级岭南版美术教案
- [高等教育]书作文之书法活动通讯稿
- [高等教育]Endnote X 软件使用入门和用法总结(LS)
- [高等教育]嵌入式系统的现状及发展状况
- [高等教育]2012抗菌药物专项整治活动方案解读
- [高等教育]人教版新课本一年级数学下册期末试卷
- [高等教育]爱课程民法学观后感
- [高等教育]930机组使用说明书1
- [高等教育]煤气设备设施点检标准
- [高等教育]常见室内观叶植物图解
- [高等教育]312党员群众路线心得体会
- [高等教育]小学信息(苗版)第一册全册教案
- 在市---局2010党建大会上的讲话
- 《科哲》提纲及补充阅读材料(2010.7)
- 苏州高博软件技术职业学院论文开题报告
- 兼职导游管理的困境及对策探讨
- 基于通用设计理念的现代厨房产品语义研
- 康乐一中2010年至2011年度鼓号队、花束
- 第10章_数据收集整理与描述_期末复习课
- 2008年黑龙江林甸商贸购物中心营销策划
- 水硬度的测定实验报告
- 五分钟教你拍摄夜景光绘照
- 2014年临床妇产科三基三严试题及答案
- 0第二课 纾解压力第一站了解压力
- 解析建筑工程电气设备安装施工技术要点
- 地方性应用型本科高校“双师型”师资队
- 高考语文专题复习课件:小说阅读指导
- 装饰工程投标书2
- 大学生就业难问题探讨及对策
- English and Its History
- 青岛市城市房屋修缮工程质量监督管理办
- 初中英语形容词和副词的用法和练习题




