自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 redis哨兵机制

Redis哨兵系统用户管理多个Redis服务器,该系统执行三个任务:监控:哨兵会不间断的检查Master和Slave是否正常运行提醒:当被监控的某个Redis出现问题,哨兵通过API向管理员或者应用程序发送通知自动故障迁移:当一个Master不能正常工作,哨兵会开始一次故障迁移,然后将失效的Master的其中一个Slave升级为新的Master,并让失效的Master的其他Slave改为...

2019-08-02 19:36:23 92

原创 cookie池的维护

存储形式存储在redis中,“spider_name:username–password":cookie建立py文件及包含方法initcookies() 初始化所有账号的cookies,将所有账号对用进行登陆获取cookies并保存在redis中update_cookie(spider_name,username,password) # 重新获取账号对应的cookies,并存入red...

2019-07-21 21:35:49 305

原创 爬虫遇到接口问题,需要新接口,如何进行新接口查找

确定接口问题原因接口不可用了,寻找新接口接口参数改变,确定新的参数方式寻找新的接口通过浏览器抓包浏览器search,寻找发起接口的js代码,通过js代码查找参数的拼接方式,借助js2py生成参数抓包工具...

2019-07-21 16:21:55 899

原创 scrapy框架的流程

流程图流程分析:爬虫开启,通知管道open_spiderstart_urls中所有请求放入调度器队列从调度器中取出一个请求通过引擎 --> 下载器中间件 --> 交给下载器下载器去Internet获得响应响应通过下载器中间件 --> 引擎 --> 爬虫中间件 --> 交给爬虫爬虫经过处理若是请求对象,返回爬虫中间件 --> 引擎 --&gt...

2019-07-21 11:31:26 88

原创 scrapy_redis笔记

scrapy_redis介绍scarpy_redis,是scrapy的一个组件,实现增量式爬虫与分布式爬虫。1.增量式爬虫,请求持久化,下次接着爬取数据。2.分布式爬虫,通过redis共享数据。scrapy_redis流程流程:带抓取的对象和去重的指纹都存在所有服务器的公用redis中所有服务器公用一个redis中request对象所有request对象存入redis前,会在...

2019-07-21 10:50:31 127

原创 常见的反爬手段与解决方法

通过headers字段反爬headers中的User-Agent字段反爬解决:随机生成User-Agentpip install fake-useragentfrom fake_useragent import UserAgentua = UserAgent()for i in range(10): # 随机生成各种浏览器的ua print(ua.random) ...

2019-07-21 09:06:13 295

原创 爬虫数据去重、存入数据库

三种数据去重方式1.数据存入mongodb时,可以对关键字进行复合索引。2.对数据的关键字进行哈希映射,生成的指纹判断是否存在redis的指纹集合中,如果存在,说明数据重复。3.布隆过滤器,可以实现大量数据去重。...

2019-07-20 21:18:27 1344 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除