联索网页数据清洗组件运行在服务器端,安装于企业内部服务器或者IDC数据中心,对大规模的海量网页数据进行规范化提取、转换与清洗等,进行精确的自动化处理,数据结果可以保存到数据库中,获得结构化数据信息,提高信息获取的效率,降低人工成本。同时为数据挖掘、业务分析与决策提供有力的支持。
自动识别和提取关键信息单元,查找重复网页或者内容单元。自动识别和处理图片、表格等复杂信息结构,支持企业级网络数据建库以及网络数据信息利用。