网络热点话题的获取与分析

根据中国互联网络信息中心2010年1月发布的《中国互联网发展状况统计报告》数据显示,自2003年开始,中国的网页规模保持成倍地增长,2009年网页数量年增长率超过100%达到336亿个。网络新闻使用率为80.1%,覆盖八成以上的网民群体,较2008年提高了1.6%;用户规模达3.1亿人,年增长7369万人,年增幅31.5%。如何对互联网信息进行监管,已成为亟待解决的问题。但是互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对网络热点话题进行分析、整理,才能建立起全面、有效、快速的热点话题监测预警机制,使互联网得以健康、快速的发展。因此,对网络热点话题的获取与分析技术的研究已成为一项紧迫而又重要的课题。
网络热点话题的获取与分析离不开文本挖掘技术。文本挖掘是以半结构化( 如Web 网页) 或者无结构( 如纯文本) 的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程。在互联网时代大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。由此,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速高质量的文本序列模式挖掘技术可以将大量文本信息组成少数有意义的簇,这种技术能够提供导航/浏览机制,通过序列驱动的降维或权值调整来改善检索性能,因此,序列模式挖掘技术已成为文本信息挖掘技术中的核心技术。
序列模式是把数据之间的关联陛与发生次序联系起来。为了挖掘序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的先后次序。我们一般分如下五个步骤来找出所有的序列模式:排序、频繁项集搜索、转换、序列和选最大序列。其中频繁项集搜索是其中关键的一步。随着数据挖掘技术的发展
……(新文秘网http://www.wm114.cn省略1403字,正式会员可完整阅读)…… 
索引的。Garofalakis等人通过利用正则表达式约束方法提出了SPIRIT算法。
单维挖掘序列模式只关心一个带有时间戳的属性,多维序列模式的挖掘目的则是寻找不同维度属性具有更多信息的有用模式。三种挖掘多维序列模式的常见方法,分别是Seq2Dim、Dim2Seq以及UniSeq算法。UniSeq算法将多维信息融入到序列中形成新的序列数据库,然后按照PrefixSpan方法对新的序列数据库进行挖掘。Seq2Dim算法首先挖掘原始序列的序列模式,然后对序列投影下的数据库多维信息的模式进行挖掘。Dim2Seq则是首先挖掘多维信息的模式,然后再挖掘多维信息投影下的数据库序列模式。由于通常多维序列模式的长度较短,投影数据库仅包含那些带频繁序列模式的元组,多维序列模式挖掘更加高效多产。实验结果表明,多数情况Seq2Dim有着良好的性能;当维数较低时多维模式也较短,UniSeq较其他两种方法高效; Dim2Seq在挖掘过程中许多模式并未形成多维序列模式,因此效率较低。
现实世界中序列数据集往往是实时更新的。相应地,有趣模式在多次挖掘时也会随时间呈现出某种变化,已有的规则可能不再有效,而新的有趣模式还有待进一步发现。通常有两种维护规则的方式:第一种方法是强更新,重新进行挖掘,用新的规则来替换所有旧的规则;第二种是弱更新,仅重新计算与增量有关的数据,替换不适用的旧规则。考虑到序列模式挖掘的复杂性,更加倾向于采用弱更新的方式。增量式序列模式挖掘关注于当数据持续增加或减少时来维护序列模式。增量式序列模式挖掘常被定义为:给定序列数据库,通过插入或删除序列形成新的序列数据库,在新的序列数据库中寻找所有的最大频繁序列模式。
二、存在的问题
在过去的10年里,提出了许多算法来解决频繁项集挖掘的效率问题。只有很少的研究者提供他们算法的源代码,这使得比较这些算法变得很困难。不仅如此,即便是同一个算法的不同实现,在性能上也有相当大的差异。此外,不同的实验数据库,不同的最小支持度闽值,不同的数据结构,不同的数据库表示表示方式,不同的实验平台,都会造成算法性能和评价上的差异。在真实数据集和合成数据集上这些算法表现出非常不同的性能,在真实数据集上,最小支持度的阈值是影响算法性能的关键。然而,支持度的最小阈值并没有一个普遍适用的指导性的确定方法。
三、研究方法和算法设计
挖掘最大频繁项集是关联规则挖掘中一个重要的研究内容,但这方面的研究工作尚不够充分。有代表性的相关工作有Roberto J.提出MaxMiner算法,Doug Burdick等人提出的MAFIA,Dimitrios Gunopulos等人提出的随机算法,Dao-I Lin等人提出的Pincer-search算法。 
此次,本文设计的算法是基于Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法:Apriori algorithm。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。
一些概念和定义

guxing 2016-04-14