客户的业务问题:
随着互联网的高速发展,面对几十亿的Web页面,人们通常采用搜索引擎来作为查询信息的手段。但是,采用搜索引擎手工搜索的方式费时费力,而且人们往往需要的是特定行业和领域的最新专业知识,采用一般的搜索引擎无法动态实时地跟踪这些相关信息,搜索到的信息也缺乏有效的存储和管理的手段。因此,传统的搜索引擎无法有效地满足人们在知识管理领域中更高层次的需求。
方案的功能描述:
知识雷达系统,采用IBM中国研究中心最新中文信息处理研究成果,应用网上代理人技术,智能分类技术,内容去重和中文语义检索技术,能够基于用户定义的知识体系,动态搜索互联网,实时监测和抓取相关信息,为用户提供基于互联网的实时知识获取、知识发现、和知识管理服务。
系统包括两个主要模块:信息抓取和信息加工。
方案的独特卖点:
实时网上采集
快速:网页抓取采用多线程并发搜索技术,并可设置并发线程的最大个数。
灵活:可以同时跟踪抓取多个网站,能够提供灵活的网站、栏目或频道的采集策略,以及利用逻辑关系定位采集内容。
准确:不多抓与少抓,可自定义需要抓取的文件格式,能够抓取图片和表格信息,抓取过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。 自动网页分析
语种识别――自动识别网页的语种。
内容过滤――能够过滤掉广告、导航信息、版权等无用信息,能够剔除反动、色情内容。
内容排重――对于不同网站相同或雷同的内容,能够自动判别并标注为雷同,判别的方法可以由用户定义的规则判定及自动按内容的相似度判定。
格式转换――自动将HTML格式转换为文本文件。
自动标引――对网页自动提取标题、版次、日期、作者、栏目、分类等信息。
高效自动分类
支持机检分类――能够利用预定义的关键词和规则方法判定类别;
支持自动分类――通过机器自动学习或预学习自动分类,并达到80%以上的准确率。
支持多种分类标准――比如按地域(华北、华南等)、内容(政治、科技、军事、教育等)、来源(新华网、人民网、新浪网等)等。
素材共享发布
素材共享存储――抓取并分类的网页素材即可以以文件方式保存,亦可以存储在关系数据库中。
分类导航浏览――提供网页素材的分类导航浏览;
全文语义检索――提供可选的中文语义全文检索引擎,实现关键字的全文检索;
个性订阅推送――提供个性化定制订阅推送功能,用户可以自定义规则设置感兴趣的新闻素材进行订阅,系统根据用户的订阅设置,定期或定时将最新符合订阅规则的新闻素材通过邮件或门户网站推送给用户。




