- 博客(0)
- 资源 (9)
- 收藏
- 关注
多线程、高性能采集器爬虫.net版源码,可采ajax页面
1、数据采集基本功能
1)支持多任务、多线程数据采集,同时支持一个采集任务多个
多线程、高性能采集器爬虫.net版源码,可采ajax页面
实例运行,即将采集任务规则与采集任务运行进行剥离,方便采集任务的配置、跟踪管理;
2)支持GET、POST请求方式,支持cookie,可满足需身份认真的数据采集,cookie可预先存储,也可实时获取;
3)支持用户自定义的HTTP Header,通过此功能用户可完全模拟浏览器的请求操作,可满足所有的网页请求要求,此功能在数据web发布时尤为有用;
4)采集网址支持数字、字母、日期、自定义字典、外部数据等多种参数,最大化的简化采集网址的配置,从而达到批量化采集的目的;
5)采集网址支持导航操作(即从入口页面自动跳转到需要采集数据的页面),且导航规则支持复杂规则,导航级别不限,可进行多层网址导航;
6)支持采集网址自动翻页、导航层自动翻页,定义翻页规则后系统会自动翻页进行数据采集,同时此功能也可用户分页文章的自动合并操作;
7)网络矿工支持级联采集,即在导航基础上,可自动将不同级别的数据采集下来,并自动合并,此功能也可称为分页采集;
8)网络矿工支持翻页数据合并,即可将多页数据进行合并,典型应用为同一篇文章多页显示,系统翻页采集并合并为一条数据进行输出;
9)数据采集支持文件下载操作,可下载文件、图片、flash等内容;
10)可进行ajax技术构成网页数据的采集;
11)采集规则支持特殊符号的定义,譬如:16进制0x01的非法字符;
12)采集规则支持限定符操作,可精确匹配需要获取的数据;
13)采集网址支持:UTF-8、GB2312、Base64、Big5等编码,同时可自动识别&等符号;网页编码支持:UTF-8、GB2312、Big5等编码;
14)无论是采集网址还是采集规则都支持限定范围及自定义正则;
2、数据采集高级功能
1)支持采集延时操作,可控制系统采集频率,降低对目标网站的访问压力;
2)断点续采模式,及数据实时存储保护用户采集投资,注意:此模式仅限于非大数据量的采集;
3)支持大数据量采集,即实时采集实时入库,不会对系统性能造成任何影响;
4)提供强大的数据加工操作,并可配置多条规则对所采数据同时进行加工:
a)支持字符串截取、替换、附加等操作;
b)支持采集数据的输出控制,输出含有指定的条件,删除含有指定的条件;
c)支持正则表达式替换;
b)支持U码转汉字;
5)可自动输出所采页面地址及采集时间,提供采集日志;
6)所采数据可自动保存为文本文件、excel文件,也可自动存储到数据库,数据库支持Access、MSSqlServer、MySql,同时在数据存储过程中还可自动去重重复行,避免数据重复;
7)所采数据也可自动发布到网站,通过配置发布网站参数即可实现数据的在线发布操作(发布配置同采集配置,可定义cookie、HTTP Header等);
8)数据采集支持触发器操作;
9)提供采集规则分析器,辅助用户配置采集规则,并分析错误内容;
10)提供Mini浏览器,可自动捕获网站cookie;
11)支持采集日志,并提供容错处理;
3、触发器
触发器是一种自动化的操作手段,即当满足一定的条件后,系统会自动执行某个操作,利用触发器用户可实现采集任务的连续执行,外部程序的调用,存储过程的调用等。
1)触发器支持两种种触发方式:采集数据完成触发及发布数据完成触发;
2)触发操作支持:执行网络矿工采集任务、执行外部程序、执行存储过程;
4、任务执行计划
定时计划是一种自动化采集数据的手段,用户可根据需要自动控制数据采集的时间、频率;
1)可进行周、日及自定义的时间自动化执行采集任务,并可控制采集任务计划的失效时间;
2)可自动执行的任务有:网络矿工采集任务、外部执行程序及存储过程;
5、网络雷达
网络雷达是一项非常有用的功能,网络雷达主要是根据用户预定规则实现对互联网数据的监控,并按照用于预定的规则进行预警。此功能可用于对网络热门帖子、感兴趣的关键词、商品价格变动的进行监控,并实现对数据的采集。
1)监控源当前仅支持网络矿工定制的采集任务,通过配置网络矿工采集任务,及实现了对互联网任意数据的监控;
2)监控规则支持关键词定义、数值范围等监控规则;
3)数据处理方式支持直接入库、保存网页地址及快照、电子邮件发送等方式;
4)预警规则支持托盘图标闪烁、电子邮件预警;
6)数据加工发布套件
1)支持网络矿工数据、外部数据库、雷达监控数据的加工及发布;
2)数据加工规则支持自定义列、自动编号、字符串编辑、替换、删除重复行、固定值修改等操作;
3)数据发布支持数据库发布及web发布:
a)数据库发布支持Access、MSSqlServer、MySql;
b)web发布支持POST、cookie及自定义HTTP Header;
2014-07-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人