网络舆情分析系统

来自计算思维百科
跳转至: 导航搜索

所谓舆情分析就是根据特定问题的需要,对该问题有关的舆情进行深层次的思维加工和分析研究,以得到相关结论的过程。由于网上信息量巨大,仅依靠人工方法难以应对海量信息的收集和处理,需要利用相关的信息技术,形成一套自动化的网络舆情分析系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。图7-12为网络舆情系统的一般架构。

图7-12 舆情分析系统的体系架构

一般来说,网络舆情分析系统应该具备以下功能:

舆情分析引擎

舆情分析引擎是舆情分析系统的核心功能,主要包括:

a) 热点话题、敏感话题识别。要求可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。

b) 倾向性分析。对于每个话题,对每篇发表的文章的观点、倾向性进行分析与统计。

c) 主题跟踪。分析新发表文章、贴子的话题是否与已有主题相同。

d) 自动摘要。对各类主题,各类倾向能够形成自动摘要。

e) 趋势分析。分析某个主题在不同的时间段内,人们所关注的程度。

f) 突发事件分析。对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。

g) 报警系统。对突发事件、涉及内容安全的敏感话题及时发现并报警。

h) 统计报告。根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。

自动信息采集功能

现有的信息采集技术主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务。

数据清理功能

对收集到的信息进行预处理,如格式转换、数据清理,数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时,可直接针对服务器的数据库进行操作。

发展方向

舆情分析系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间。