近年来,我国互联网发展迅速,对于促进我国经济发展和社会进步、提高全民族科学文化素质、加强社会主义精神文明建设,起到了重要作用。但是,也有少数网站片面追求商业利益,刊载虚假信息,传播淫秽色情内容,宣传封建迷信,刊登违法广告等,互联网上的这些不良现象,危害了社会,损害了网络媒体的公信力,成为影响互联网健康发展的突出问题,受到广大网民和社会各界的普遍关注。
为了推进互联网精神文明建设,使其更好地为社会主义现代化建设服务,国务院新闻办决定建立网络新闻监管平台,加强对互联网信息安全的管理,使互联网持续、稳定、健康发展。
网络新闻 鱼龙混杂
正确的积极的舆论可以振奋精神、激扬民气、凝聚人心、增强合力;而错误的消极的舆论则可能扰乱视听,混淆是非,为社会上某些错误或偏激的情绪推波助澜。由于网络传播技术的特点,有害信息如果得不到及时查处,则有可能在短时间内大量复制与传播,造成非常恶劣的影响。因此,信息监管的全面性和及时性成为了网络新闻监管工作最重要的两个方面,然而网络传媒大容量的特点,使网络新闻监管难度大于任何一类传统媒体。
首先,我国目前网络新闻来源非常广泛,已经有700多家新闻单位建立了自己的网站,同时还有不少商业网站也都开办有新闻栏目,此外还有大部分是网民通过网站论坛或个人网站发布的消息。这意味着为了实现网络新闻监管的全面性,国新办需要对近千家网站发布的新闻信息进行监管。
在新闻来源广泛的同时,新闻流量也十分巨大,据统计,新浪,搜狐等知名门户网站每日新发的新闻量已达万条以上,而如东方网,人民网等传统媒体网站每日新增新闻量也达近千条,国新办每天需要监管的信息总量十分庞大。
沥尽狂沙 严格把关
在项目选型中,百度智能采集分类系统以其先进的信息采集和检索技术,从多家厂商中脱颖而出,成为了构建国务院新闻办网络新闻监管系统的系统平台。
通过百度智能采集分类系统,国新办可以实时采集指定互联网信源的信息,并跟踪其信息变化动态。还可以根据信息内容自动分类,建立索引和自动发布以供使用者方便快捷浏览。

网事通信息采集分类系统——分类信息
针对国新办监管信息源数目多,监管信息流量大的特点,百度智能采集分类系统采用了分布式多线程并发指令执行体系,使国新办能同时跟踪近千个国内重点新闻网站,一旦发现更新和新增加的新闻,即可保证信息以分钟级的速度采集到本地服务器,最高采集速度达到每秒上百页。
同时系统能够采集多种动态和静态网页类型(如htm、html、shtml、xml、php、asp、jsp、javascript等),保证对网站新闻的无遗漏抓取。
由于信息源的增加和删除操作十分简便,在重点专项治理工作中,国新办还可以根据工作要求灵活设定监管对象,例如在打击网络黄色网站专项工作中,国新办就新增了部分信息源,加强对不良社会新闻的监管工作。