微博热点话题发现方法:
1.基于LDA模型的话题发现方法
在文章中我们使用主题模型,充分挖掘短文本的主题信息,并以主题为话题,找到文本与话题、话题与词语特征间的对应关系,从而有效地解决了同义词及短文本的数据稀缺性等问题。LDA是层次清晰的生成模型,所以我们采用LDA模型对收集的新浪微博数据集进行主题建模。
2.话题发现与方法
经过试验,我们得到几个结果:
(1)PHI文件(2)THETA文件(3)TASSIGN文件(4)TWORDS文件
由此,我们得出了NTOPICS个主题为候选话题列表
3.热度计算
我们将LDA挖掘出的主题作为候选话题,而对于热点话题,我们主要考虑两个特性:
(1)广泛性(2)突发性
文章采取的策略:从单义词单元角度而不是词语角度计算得分的原因在于,加入主体信息的单义词单元可以有效地解决多义词问题,有助于提高话题得分计算得针对性与准确性。
4.数据准备
(1)实验数据(2)语料预处理(3)实验评测
总结:以上就是我对微博的热点话题的发现