爱吃cat的鱼-CSDN博客

原创 redis哨兵机制

Redis哨兵系统用户管理多个Redis服务器，该系统执行三个任务：监控：哨兵会不间断的检查Master和Slave是否正常运行提醒：当被监控的某个Redis出现问题，哨兵通过API向管理员或者应用程序发送通知自动故障迁移：当一个Master不能正常工作，哨兵会开始一次故障迁移，然后将失效的Master的其中一个Slave升级为新的Master,并让失效的Master的其他Slave改为...

2019-08-02 19:36:23 92

原创 cookie池的维护

存储形式存储在redis中，“spider_name:username–password":cookie建立py文件及包含方法initcookies() 初始化所有账号的cookies，将所有账号对用进行登陆获取cookies并保存在redis中update_cookie(spider_name,username,password) # 重新获取账号对应的cookies，并存入red...

2019-07-21 21:35:49 305

原创爬虫遇到接口问题，需要新接口，如何进行新接口查找

确定接口问题原因接口不可用了，寻找新接口接口参数改变，确定新的参数方式寻找新的接口通过浏览器抓包浏览器search，寻找发起接口的js代码，通过js代码查找参数的拼接方式，借助js2py生成参数抓包工具...

2019-07-21 16:21:55 899

原创 scrapy框架的流程

流程图流程分析：爬虫开启，通知管道open_spiderstart_urls中所有请求放入调度器队列从调度器中取出一个请求通过引擎 --> 下载器中间件 --> 交给下载器下载器去Internet获得响应响应通过下载器中间件 --> 引擎 --> 爬虫中间件 --> 交给爬虫爬虫经过处理若是请求对象，返回爬虫中间件 --> 引擎 --&gt...

2019-07-21 11:31:26 88

原创 scrapy_redis笔记

scrapy_redis介绍scarpy_redis,是scrapy的一个组件,实现增量式爬虫与分布式爬虫。1.增量式爬虫，请求持久化，下次接着爬取数据。2.分布式爬虫，通过redis共享数据。scrapy_redis流程流程：带抓取的对象和去重的指纹都存在所有服务器的公用redis中所有服务器公用一个redis中request对象所有request对象存入redis前，会在...

2019-07-21 10:50:31 127

原创常见的反爬手段与解决方法

通过headers字段反爬headers中的User-Agent字段反爬解决：随机生成User-Agentpip install fake-useragentfrom fake_useragent import UserAgentua = UserAgent()for i in range(10): # 随机生成各种浏览器的ua print(ua.random) ...

2019-07-21 09:06:13 295

原创爬虫数据去重、存入数据库

三种数据去重方式1.数据存入mongodb时，可以对关键字进行复合索引。2.对数据的关键字进行哈希映射，生成的指纹判断是否存在redis的指纹集合中，如果存在，说明数据重复。3.布隆过滤器，可以实现大量数据去重。...

2019-07-20 21:18:27 1344 1

weixin_42241324的博客