信息采集技术技术原理

信息采集技术技术原理信息采集技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中,从而为各种信息服务系统提供数据输入的整个过程

Web信息采集技术是通过分析网页的HTML代码, 获取网内的超级链接信息, 使用广度优先搜索算法和增量存储算法, 实现自动地连续分析链接、抓取文件、处理和保存数据的过程. 系统在再次运行中通过应用属性对比技术, 在一定程度上避免了对网页的重复分析和采集, 提高了信息的更新速度和全部搜索率

由于网站内的资源常常分布在网内不同的机器上, 信息采集系统从某个给定的网址出发, 根据网页中提供的超链接信息, 连续地抓取网页(既可以是静态的, 也可以是动态的) 和网络中的文件, 将网内的信息进行全部提取

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关