教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 高等教育 >

基于MB-LDA模型的微博主题挖掘

来源:网络收集 时间:2026-02-24
导读: 基于MB-LDA模型的微博主题挖掘MicroBlog-latent Dirichlet allocation 汇报人:陈元元 摘要:Twitter等微博网站日趋流行,已成为海量信息的发布体.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身 带有一

基于MB-LDA模型的微博主题挖掘MicroBlog-latent Dirichlet allocation 汇报人:陈元元

摘要:Twitter等微博网站日趋流行,已成为海量信息的发布体.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身 带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建 模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本 关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘 出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络 性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.

关键词:微博;主题挖掘;LDA;概率生成模型;社交网络

微博的简介 文本主题挖掘算法

目录微博主题挖掘 实验

1.微博的简介

微博作为Web2.0时代兴起的一种互联网社交网络服务,以其快速便捷 的特性风靡全球.微博基于用户之间的关联关系,构筑了一个信息 传播和分享的平台,用户可以通过网络、手机或是其他客户端登录 微博,实时地进行短文本信息的更新和分享. 如:用户可以发布自己最新的状态、表达自己对事物的观点,也可以对某人单独地发起对话,还可以转发别人的微博. 微博网站Twitter注册用户已达1.75亿,每天发布的消息超过1.3亿条。

1.微博的简介按消息发布方式分类

广播 所有人均可见原创内容

对话 特定发送对象转发部分的作者为Ethan

锐推 感兴趣微博的转发

LOL RT @ Ethan This is a good website http://www.vlis.zju.edu.RT表示锐推类型

转发内容

1.微博的简介

在信息爆炸时代,从海量信息中挖掘出有效的主题信息,分析出内在语义关联 显得尤为重要. 微博本身是一种非结构化的文本信息载体,却又带有一些结构化的社会网络方面的信息,这种社会网 络的关联关系在主题挖掘时可以起到辅助作用; 每条微博是一个文本片段(通常只有一句话),携带的信息量不大,这种短文本结构会加大其主题挖掘 的难度.

这些特性决定了微博主题挖掘不能简单地套用传统的文本主题挖掘的方法.

2.关于文本主题挖掘算法

传统的主题 挖掘算法

基于线性代 数的主题挖 掘算法

基于概率模 型的主题挖 掘算法

2.1

2.2

2.3

2.关于文本主题挖掘算法

2.1传统的主题挖掘算法 概要:通过VSM(vector足同一个主题.

space model)将文本里的非结构化数据映射到向

量空间中的点,然后用传统的聚类算法实现文本聚类,聚类结果近似认为满

点:仅区分类别,并未给出语义信息,不利于人们理解

2.关于文本主题挖掘算法

2.2 基于线性代数的主题挖掘算法 概要:LSA (latent semantic analysis) 利 用 SVD (singular value

decomposition)的降维方法来挖掘文档的潜在结构 (语义结构),在低维的语义空 间里进行查询和相关性分析,通过SVD等数学手段,使得这种隐含的相关性能够被 很好地挖掘出来.

优点:语义空间的维度类似人类语义理解的维度,便于人类的理解,将表面信息转化为深层次的抽象.

缺点:未能解决文本的“一词多义”问题;使得主题的理解并不直观.

2.关于文本主题挖掘算法2.3 基于概率模型的主题挖掘算法 概要:主题模型(topicmodel)中假设,主题可以根据一定的规则生成单词,那么在

已经知道文本单词的情况下,可以通过概率方法反推出文本集的主题分布情况.最具

代表性的是PLSA (概率潜语义模型)和LDA(潜在狄利克雷模型).

PLSA沿用了LSA的降维思想:主题挖掘就是通过“降维”将文档从高维空间投影到了语义空间。

LDA在PLSA的基础上加入了Dirichlet先验分布,是PLSA的一个突破性的延伸.并引入了超参数,形成了一个“文档一主题一单词”3层的贝叶斯模型,然后通过运用概率方 法对模型进行推导,来寻找文本集的语义结构,挖掘文本的主题.

优点:计算复杂度小于传统SVD

(奇异值分解)算法;在性能和处理大规模数据方面

也优于LSA;还可应用于处理非文本文件。

3. 微博主题挖掘算法

文本生成 模型LDA

微博生成模 型 MB-LDA

模型的推导 与主题挖掘

模型延伸

3.1

3.2

3.3

3.4

3. 微博主题挖掘算法3.1 文本生成模型LDA(latent Dirichlet allocation ) 超参数

1

主题数目

超参数

2

d

2

z

3

w

3 D

T文本数目 抽取主题与 单词的关系

图1 LDA模型的贝叶斯网络图抽取的文本d 与主题的关系

当前单词所 属的主题

抽取出具 体单词

1.在Dirichlet分布中抽取主题与单词的关系 2.在Dirichlet分布中抽样出文本d与各个主题的关系,并确定当前单词所属主题z 3.结合以上,从多项式分布中抽取出具体单词

3. 微博主题挖掘算法3.1 文本生成模型LDA

基本思想:每个文本都可以表示成一系列主题的混合分布,记为P(z);同时每个主题是词汇表中所有单词上的概率分布,记为P(w|z).

一个文本中每个单词的概率分布如式(1)所示:

一个文本中所有单词与 其所属主题的联合概率分布如式(2)所示:

3. 微博主题挖掘算法3.2微博生成模型 MB-LDA (MicroBlog-latent Dirichlet allocation) 基本思想:研究LDA的基础上,对微博的联系人关联关系和文本关联关系进行统一建

模,形成的适合于微博主题挖掘的模型。联系人C与各主 题之间的关系 当前单词所 属的主题 联系人关系 抽取出具 体单词

2联系人关联关系

c

c dr

c

抽取的微博d与 主题的关系 文本关联关系

z dRT

4

w

4

1 T

抽取主题与 单词的关系

3

D转发部分与各主 题之间的关系

转发关系

图2 MB-LDA模型的贝叶斯网络图

3. 微博主题挖掘算法3.2微博生成模型 MB-LDA 定义1:微博的联系人关联关系指的是带有@的微博与@的联系人之间存在潜在的语义关联 eg“ @ Ethan Can you lend me a book on data mining ” “ @ Ethan HELP me on these computer exercise ”推断出第2条微博中的computer exercises与数据挖掘有关.

定义2:微博的文本关联关系指的是带有RT的微博与原微博之间存在潜在的语义关联。

eg:“Good job RT @ Ethan I have finished this experiment”对原创部分的内容“Good job”很难有效地挖掘主题,但通过文本关联关系,联系转发部分 的内容,可以推断原创部分的job是一项实验工作.

3. 微博主题挖掘算法3.2微博生成模型 MB-LDA整个微博中, 的概率分布如式(3)所示:

P , c , c P c c P d

1 c

. 3

一条微博中,所有单词与所属主题的联合概率分布如式(4)所示:

P w, z , , P P z P w z, P P z d P z d RT1

P w z, . 4

3. 微博主题挖掘算法

图3 微博的生成过程

3. 微博主题挖掘算法3.3模型的推导与主题挖掘MB-LDA模型的推导采用吉布斯抽样(Gibbs Sampling)的方法,MB-LDA模型 …… 此处隐藏:2096字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于MB-LDA模型的微博主题挖掘.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/124339.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)