首页 >> 软件产品 >> 功能可选件
网页数据清洗组件
产品简述

联索网页数据清洗组件运行在服务器端,安装于企业内部服务器或者IDC数据中心,对大规模的海量网页数据进行规范化提取、转换与清洗等,进行精确的自动化处理,数据结果可以保存到数据库中,获得结构化数据信息,提高信息获取的效率,降低人工成本。同时为数据挖掘、业务分析与决策提供有力的支持。

自动识别和提取关键信息单元,查找重复网页或者内容单元。自动识别和处理图片、表格等复杂信息结构,支持企业级网络数据建库以及网络数据信息利用。

产品功能
  • 可定制并自动抽取文档内容中的实体属性项,例如:商品属性项,价格、规格、产地、指标等;
  • 支持文本、图片、视频、商品等多种内容的数据清洗和整合,自动对内容进行查重处理;
  • 自动智能抽取网页及其所包含内容类型的多种属性,例如标题、时间、正文、作者、出处、大小、语言、格式等。
  • 自动提取插图、表格及其位置,获得高价值的精华信息。
  • 利用自然语言内容分析技术,自动生成文章关键词、摘要、语义指纹、类别、相关度,以及关联概念。
产品特性
  • 支持多语言:包括简体中文、繁体中文、英文、日文、韩文等60多种语言。
  • 数据来源丰富:面向互联网、内部网、数据库、文档库、多媒体内容库系统,与联索专业搜索产品无缝集成,提供企业级网络数据清洗的解决方案。
  • 全面支持各种复杂网页类型:包括Html、RSS、ASP、ASPX、JSP、PHP等各种静态和动态网页;