基于微博的热点话题发现

微博热点话题发现方法:

1.基于LDA模型的话题发现方法

在文章中我们使用主题模型,充分挖掘短文本的主题信息,并以主题为话题,找到文本与话题、话题与词语特征间的对应关系,从而有效地解决了同义词及短文本的数据稀缺性等问题。LDA是层次清晰的生成模型,所以我们采用LDA模型对收集的新浪微博数据集进行主题建模。

2.话题发现与方法

经过试验,我们得到几个结果:

(1)PHI文件(2)THETA文件(3)TASSIGN文件(4)TWORDS文件

由此,我们得出了NTOPICS个主题为候选话题列表

3.热度计算

我们将LDA挖掘出的主题作为候选话题,而对于热点话题,我们主要考虑两个特性:

(1)广泛性(2)突发性

文章采取的策略:从单义词单元角度而不是词语角度计算得分的原因在于,加入主体信息的单义词单元可以有效地解决多义词问题,有助于提高话题得分计算得针对性与准确性。

4.数据准备

(1)实验数据(2)语料预处理(3)实验评测

总结:以上就是我对微博的热点话题的发现

guxing 2016-04-22