在我国,有80%的社会信息资源,3000多个数据库掌握在政府部门手中。据联合国教科文组织研究报告显示,政府部门掌握的社会信息80%是有价值的。也就是说,在中国掌握超过六成有价值信息资源的政府是中国信息资源的最大拥有者,而这部分宝贵的信息资源并没有得到充分利用。这是因为这些有价值的信息资源多是以网页、文档等非结构或半结构化的形式分散存储在各级政府机构网站、政府专网、用户本地机等各种不同的物理空间位置上,无法整合为统一的形式和统一的接口供政府工作人员和广大群众所方便使用。
而电子政务的重要性是因为政府信息化是经济信息化和社会信息化的桥梁,因此政府信息的共享程度直接影响到整个社会在信息化过程中信息共享和深入利用的程度,更直接决定了信息化的发展深度和应用程度。
产品简介
百度电子政务信息共享解决方案由专网/内网信息共享平台和政务信息门户共享平台两大部分组成。专网/内网信息共享平台是为政府专网和各级政府机构内网内的大量信息提供信息采集、整合和共享应用;政务信息门户共享平台则是通过对相关政府网站的垂直采集检索,为广大人民群众提供某一地区或行业的各级政府网站信息共享平台,让普通用户访问该共享平台,即可方便的获得他所需要的各级政府的各种公开信息资料。
百度电子政务信息共享解决方案以百度先进的信息整合处理技术为核心,为政府内网和政府信息门户建设高性能信息共享平台,能够将相关地区、机构、组织等多种信息源的信息集中共享,让用户在一个地方即可获取到所需要的各种相关信息,使电子政务由“形象工程”变成“效益工程”,有效提高政府工作效率,大幅提升政府威信和公众形象。
功能特点
强大的信息采集能力
百度电子政务信息共享解决方案是以百度全球第一中文搜索引擎的先进搜索技术为核心,并针对专业用户所要求的搜索深度深、采集精度高和抓取速度快等进行了专门的优化,不仅能够采集大量丰富的网络信息,还可以采集企事业单位内网的指定文件服务器或共享文件夹中的多种文档信息资源。同时,针对国内政府机构的网络安全保密要求,能够在绝对物理隔离的网络环境中进行内外网信息的采集整合。
安全的信息浏览
百度电子政务信息共享解决方案为用户提供安全可靠的信息浏览方式,可以通过设置用户权限来控制每个用户所能浏览的信息内容。并能够在绝对物理隔离的网络环境中,满足内网用户不用访问外网,即可安全浏览丰富的互联网信息。确保了网络保密性、安全性和信息丰富性的统一。
准确的自动分类
百度电子政务信息共享解决方案具有灵活准确的自动分类模块,不仅能够根据关键字、布尔逻辑,以及来源等多种信息属性进行自动分类;更采用了先进的KNN和SVM算法的自然语义智能自动分类。用户可以单独使用关键字分类系统或自然语义智能分类系统,或者将二者组合使用,既能提高分类的准确度,使用起来也更加方便灵活。
全面的检索功能
百度电子政务信息共享解决方案秉承百度全球第一中文搜索引擎的优秀检索功能和性能,为用户提供强大丰富的检索功能。如完全支持布尔逻辑检索、支持n阶渐进检索、支持同义词检索、支持自定义用户词典等,并可以由系统管理员人工过滤不当网页,为用户提供最为适当的检索结果。
丰富的检索结果展示
百度电子政务信息共享解决方案为用户提供丰富的检索结果展示,能够根据不同政府机构的不同风格与要求定制结果显示模版。检索结果包括智能动态摘要、独有的网页快照,以及多种检索结果排序方式等。能够极大的方便用户对检索结果的浏览查看,提高用户对检索效果的满意度。
基于Web的系统管理平台
百度电子政务信息共享解决方案采用标准的B/S架构,系统管理员可以随时随地通过浏览器登陆Web的图形管理界面对整个系统的各项功能进行管理和系统维护,操作简单易用,无需专业培训即可迅速上手。
系统架构
百度电子政务信息共享解决方案由信息采集模块、索引模块、网页快照模块、分类模块和发布模块等诸多功能模块组件构成。各模块间通过规范的数据接口相联系,但又相对独立。系统架构图如下图所示:

信息采集模块
信息采集模块包括Spider组件和File组件,分别负责网络信息采集和文件系统信息采集。
Spider组件:Spider组件用来将Internet/Intranet的信息导入信息库,它采用分布式的三环架构,包括内容抓取模块(Crawler)、超链提取模块(Extract Center,简称EC)和分发中心(Distribution Center),其中Crawler 和EC均支持多线程,分发中心则负责将内容分发至索引模块、Cache、发布模块或数据库系统等。
File组件:File组件用来采集内网文件系统中的多种文档信息,目前支持基于MS Windows和Linux两大操作系统的多种文件系统,包括FAT32、NTFS、EXT、EXT16、EXT32等。支持的文档类型包括.txt、.rtf、.pdf、.doc、.ppt和.xls等。




