Kosmoo-CSDN博客

原创 python + selenium多进程爬取淘宝搜索页数据

selenium操作chrome滑动滚动条的几种方法分析页面滚动条滑动self.driver.execute_script(“window.scrollTo(0,document.body.scrollHeight);”) # 将页面滚动条滑到底部 self.driver.execute_script(“arguments[0].scrollIntoView();”, el) # 向...

2018-07-24 17:52:25 4173

原创 python下selenium如何处理日期控件的几种方法

参考文章：https://blog.csdn.net/huilan_same/article/details/52385401# -*- coding: utf-8 -*-from selenium import webdriverfrom time import sleepdriver = webdriver.Firefox()driver.get('http://ww...

2018-07-09 18:58:36 13769 1

原创 scrapy-redis分布式爬虫的搭建过程（代码篇）

阿里云ECS服务器环境搭建（6） —— Windows 与 Ubuntu16.04 之间利用 WinSCP 进行文件传输参考两篇文章： https://blog.csdn.net/g_ithot/article/details/73002567 https://jingyan.baidu.com/article/ed2a5d1f346fd409f6be179a.html...

2018-06-14 18:16:55 1625

原创阿里云ECS服务器环境搭建（5） —— ubuntu 16.04 下为mongodb各个数据库设置用户名和密码

阿里云ECS服务器环境搭建（5） —— ubuntu 16.04 下为mongodb各个数据库设置用户名和密码1. 环境阿里云 ECS服务器（4核 8G 4M）Ubuntu16.04-64-bit 图形界面MongoDB v3.6.52. 前提须知开启mongodb服务的命令：service mongod start关闭mongodb服务的命令：service...

2018-06-04 19:55:28 3838

原创阿里云ECS服务器环境搭建（4） —— ubuntu 16.04下 mongodb无法从公网进行远程连接

阿里云ECS服务器环境搭建（4） —— ubuntu 16.04下 mongodb无法从公网进行远程连接的解决方案Mongodb 远程连不上，如何解决？ https://www.aliyun.com/jiaocheng/124222.html使用这个帖子，并未能解决这个问题。开始尝试阿里云的官方文档！ https://help.aliyun.com/document_detail/...

2018-06-04 19:54:56 3827 1

原创阿里云ECS服务器环境搭建（3） —— ubuntu 16.04 安装mongodb，并实现可视化

阿里云ECS服务器环境搭建（3） —— ubuntu 16.04 安装mongodb，并实现可视化1. 环境阿里云 ECS服务器（4核 8G 4M）Ubuntu16.04-64-bit 图形界面2. 下载mongodb，并安装使用系统自带的火狐浏览器下载 Ubuntu 16.04 Linux 64-bit x64 版本的mongodb安装包，官网地址为 http:...

2018-06-01 17:10:49 4342

原创阿里云ECS服务器环境搭建（2） —— ubuntu 16.04 安装中文输入法（搜狗输入法）

阿里云ECS服务器环境搭建（2） —— ubuntu 16.04 安装中文输入法（搜狗输入法）1. 环境阿里云 ECS服务器（4核 8G 4M）Ubuntu16.04-64-bit 图形界面2. 安装中文语言包安装好之后，在语言列表中，会存在汉语这个选项： 3. 下载搜狗输入法 For linux，并安装进入搜索输入法官网，https://piny...

2018-06-01 15:15:07 4632

原创阿里云ECS服务器环境搭建（1） —— ubuntu 16.04 图形界面的安装

阿里云ECS服务器环境搭建（1） —— ubuntu 16.04 图形界面的安装使用密码，通过网页连接到服务器然后执行： apt-get update 在按照帖子： https://blog.csdn.net/dk_0228/article/details/54571867 配置图形界面安装好图形界面之类的之后：输入：vncserver输入一个8位数的密码，密码你需要...

2018-05-31 18:20:38 48607 25

原创反爬技术研究 — 网站常用的反爬技术有哪些？

反爬技术研究 —— 网站常用的反爬技术有哪些？user-agent.htaccessjs基于流量的拒绝基于IP连接的拒绝iptables的控制

2018-05-25 14:35:31 7492 1

原创反爬技术研究 — 网站是通过什么方式来发现爬虫的？

反爬技术研究 —— 网站是通过什么方式来发现爬虫的？单一IP非常规的访问频次单一IP非常规的数据流量大量重复简单的网站浏览行为只下载网页，没有后续的js、css请求通过一些陷阱来发现爬虫，例如一些通过CSS对用户隐藏的链接，只有爬虫才会访问...

2018-05-21 19:08:54 3937

原创故障分析系列（01） —— scrapy爬虫速度突然变慢原因分析

反爬技术研究 —— 网站的反爬技术有哪些？

2018-05-21 12:24:28 8096

原创如何去除网页噪声提取数据（02） —— 汽车之家（字体反爬）

如何去除网页噪声提取数据（02） —— 汽车之家（自定义字体）1. 需求介绍继去哪儿网之后，我又盯上了汽车之家这个网站，这个网站的反爬策略挺有意思的，采用了时下最流行的字体反爬技术，激起了我的挑战欲，对它动起了歪心思……嘿嘿我的目标是爬取汽车之家论坛上的帖子内容。捣鼓了一番之后，捣捣捣……终于成功获取了所有信息，让数据赤裸相见了，下面讲解详细的分析过程。2. 环境py...

2018-05-14 09:01:34 8338 6

原创如何去除网页噪声提取数据（01） —— 去哪儿网

如何去除网页噪声提取数据（01） —— 去哪儿网1. 需求介绍今天的目标是爬取 “去哪儿网” 上的数据信息，去哪儿网上的数据是非常珍贵的，所以这个数据被保护的也很严格，不仅仅是原始数据获取较为困难，而且渲染后的数据也加入了大量的混淆。尽管难度很大，但是作为一直修炼千年的蜘蛛精，是没有爬不下来的数据滴。下面就看我如何织网，如何捕获猎物……呃，不对，是爬取数据……2. 环境...

2018-05-08 23:41:37 4271

原创如何利用网站的分布式部署（多IP）提高爬虫爬取速度？

如何利用网站的分布式部署（多IP）提高爬虫爬取速度？利用virtual host和服务器的分布式部署，我们就可以手动的对多个IP进行数据爬取 virtual host：https://blog.csdn.net/yanwushu/article/details/38360631详细过程见下图： ...

2018-05-03 23:23:16 3658

参考文章：https://blog.csdn.net/fgf00/article/details/52917154一、Redis简介 redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash（哈希类型）。这些数据类型都支持pus...

2018-04-29 02:07:16 3398

原创 python爬虫如何POST request payload形式的请求

python爬虫如何POST request payload形式的请求1. 背景最近在爬取某个站点时，发现在POST数据时，使用的数据格式是request payload，有别于之前常见的 POST数据格式（Form data）。而使用Form data数据的提交方式时，无法提交成功。于是上网查了下二者的区别：http://xiaobaoqiu.github.io/blog/2...

2018-04-17 23:31:50 93047 10

原创 scrapy无法使用xpath解析？特殊网页的信息提取（1） — 百度贴吧

scrapy无法使用xpath解析？特殊网页的信息提取（1） — 百度贴吧1. 背景最近在使用scrapy爬取百度贴吧帖子内容时，发现用xpath无法解析到页面元素。但是利用xpath helper这个插件，很明显可以看到xpath路径是没有问题的。 articleList = response.xpath("//li[contains(@class, 'j_thread...

2018-04-15 00:22:31 5636

原创 scrapy爬虫利用selenium实现用户登录和cookie传递（百度云俱乐部）

scrapy爬虫利用selenium实现用户登录和cookie传递1. 背景上篇讲解了如何在scrapy中集成selenium爬取一些特别复杂的页面（传送门：https://blog.csdn.net/zwq912318834/article/details/79773870），而事实上，在平时的爬取任务中，往往登录过程是最复杂的，其他页面相对来说比较简单。如果把过多的时间花费在破解...

2018-04-09 18:10:30 8765 3

原创如何在scrapy中集成selenium爬取网页

如何在scrapy中集成selenium爬取网页1.背景我们在爬取网页时一般会使用到三个爬虫库：requests，scrapy，selenium。requests一般用于小型爬虫，scrapy用于构建大的爬虫项目，而selenium主要用来应付负责的页面（复杂js渲染的页面，请求非常难构造，或者构造方式经常变化）。在我们面对大型爬虫项目时，肯定会优选scrapy框架来开发，但是在解...

2018-04-03 16:30:21 24184 11

原创网络请求分析实战篇（01）—— 爬取amazon搜索栏的关联关键词

网络请求分析实战篇（01）—— 爬取amazon搜索栏的关联关键词1. 需求介绍在amazon搜索商品，当输入部分单词时，下面会自动弹出一些关联关键词。这些关键词是amazon内部总结，统计的热门搜索关键词。我们现在的需求就是，给出一些关键词，然后把对应的关联关键词抓出来。 2. 环境系统：win7python 3.6.1requests 2.14.2 （通过pip...

2018-03-29 17:58:37 8655

原创 scrapy-redis分布式爬虫如何在start_urls中添加参数

scrapy-redis分布式爬虫如何在start_urls中添加参数1.背景介绍有这样一个需求，需要爬取A，B，C，D四个链接下的数据，但是每个链接下要爬取的数据量不同：url链接：指定爬取的商品数A: 10B: 20C: 5D: 32首先通过下面的文章了解一下scrapy-redis分布式爬虫的基本框架。 ...

2018-03-27 22:43:41 20037 11

原创 python3下使用scrapy实现模拟用户登录与cookie存储—— 中级篇（百度云俱乐部）

python3下使用scrapy实现模拟用户登录与cookie存储—— 中级篇（百度云俱乐部）1. 背景相关基础知识点回顾： python3下使用requests模拟用户登录 —— 中级篇（百度云俱乐部）：https://blog.csdn.net/zwq912318834/article/details/79665863python3下使用scrapy实现模拟用户登录与coo...

2018-03-25 23:44:33 5857

原创 python3下使用requests模拟用户登录 —— 中级篇（百度云俱乐部）

python3下使用requests模拟用户登录 —— 中级篇（百度云俱乐部）1. 背景建议先看一下初级篇，了解一些爬虫模拟登录的基本常识： python3下使用requests实现模拟用户登录 —— 初级篇（马蜂窝）：https://blog.csdn.net/zwq912318834/article/details/79571110 2. 环境系统：win7p...

2018-03-23 12:29:52 6192

原创 python3下使用scrapy实现模拟用户登录与cookie存储 —— 基础篇（马蜂窝）

python3下使用scrapy实现模拟用户登录与cookie存储 —— 基础篇（马蜂窝）1. 背景相关基础知识点回顾： python3下使用requests实现模拟用户登录（马蜂窝）： http://blog.csdn.net/zwq912318834/article/details/795711102. 环境系统：win7python 3.6.1scrapy 1...

2018-03-19 17:09:52 10332 1

原创 python3下使用requests实现模拟用户登录 —— 基础篇（马蜂窝）

python3下使用requests实现模拟用户登录 —— 基础篇（马蜂窝）1. 了解cookie和session首先一定要先了解到cookie和session是什么，这是后面理解网站交互，模拟用户登录的基础。1.1. 无状态协议：Http如上图所示，HTTP协议是无状态的协议，用户浏览服务器上的内容，只需要发送页面请求，服务器返回内容。对于服务器来说，并不关心，也...

2018-03-15 17:20:17 130439 67

原创如何使用scrapy中的ItemLoader提取数据？

如何使用scrapy中的ItemLoader提取数据？1. 简述我们在用scrapy爬取数据时，首先就要明确我们要爬取什么数据。scrapy提供了Item对象这种简单的容器，我们可以通过Item定义提取数据的格式，需要爬取哪些字段，其提供了类似于字典的API以及用于声明可用字段的简单语法。如下所示：下面以爬取伯乐在线文章详情页为范例：http://blog.jobbole.com/...

2018-03-12 18:32:28 14349 6

原创手机抓包工具Fidder的使用：环境搭建篇

手机抓包工具Fidder的使用：环境搭建篇1.概述Fiddler是一个http协议调试代理工具，它能够记录并检查所有你的电脑和互联网之间的http通讯，设置断点，查看所有的“进出”Fiddler的数据（指cookie,html,js,css等文件，这些都可以让你胡乱修改的意思）。 Fiddler 要比其他的网络调试器要更加简单，因为它不仅仅暴露http通讯还提供了一个用户友好的格式。...

2018-03-02 11:57:12 3941

原创 scrapy爬虫的搭建过程（实战篇）

scrapy爬虫的搭建过程（实战篇）1. 爬虫功能以 http://bbs.fengniao.com/forum/forum_125_1_lastpost.html 为起始页，爬取前十页的信息，包括文章的标题、链接地址和图片地址，保存到mongodb中。并下载对应的图片到本地目录。 2. 环境系统：win7Scrapy 1.4.0mongodb v3.2pyt...

2018-02-08 14:40:25 5608 1

原创 scrapy爬虫的搭建过程（理论篇）

scrapy爬虫的搭建过程（理论篇）1. 概述Scrapy是一个纯Python实现的，为了爬取网站数据、提取结构化数据而编写的应用框架，用途非常广泛。只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页的内容以及各种图片，非常方便。Scrapy 使用了 Twisted （其主要对手是Tornado）异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，...

2018-02-08 09:05:52 4205

原创 python + selenium + chrome 在实现back，forward，refresh时的注意事项

python + selenium + chrome 在实现back，forward，refresh时的注意事项1. 背景在使用selenium模拟浏览器时，经常会使用到导航栏的三个按钮：后退，前进，刷新。来达到在浏览过的页面之间进行切换。对应到selenium中的方法分别是：back()，forward()， refresh() 。但是如果直接使用之前定位到的元素，会出现一个问题，那

2018-02-06 11:15:27 5219

原创 python + selenium + chrome 如何操作滚动条

python + selenium + chrome 如何操作滚动条1. 背景在使用selenium模拟浏览器时，经常会需要下拉滚动条，一般是有两个目的：拟人操作，突破精妙的反爬系统。有些元素正常情况下不加载出来，需要拖动下拉条，才能慢慢加载出来，类似于淘宝这样的网站。2. 环境python 3.6.1系统：win7IDE：pycharm安装过chrome浏览

2018-02-05 17:46:50 27467

原创 python + selenium + chrome 如何清理浏览器缓存

python + selenium + chrome 如何清理浏览器缓存1. 背景在使用selenium + chrome浏览器渲染模式爬取数据时，如果并发任务过多，或者爬虫的运行时间很长，那么很容易出现浏览器崩溃的现象，如下：这一般是资源消耗过大造成的（据说chrome浏览器有内存泄漏的情况。或者是浏览器缓存过大，越堆越多）。selenium模拟浏览器会产生大量的临时文件，

2018-01-31 12:04:17 48769 6

原创 python语言常见问题

python语言常见问题1. 编译错误1.1. TabError: inconsistent use of tabs and spaces in indentationC:\timer>python getAllTitles.py File "getAllTitles.py", line 192 startTime = datetime.datetime.now

2018-01-31 09:50:45 4168

原创 python + selenium + chrome 如何打开新窗口，并实现窗口切换

python + selenium + chrome 如何打开新窗口，并实现窗口切换1. 背景在使用selenium时，经常会有打开一个新的窗口的需求，下面会提供几种窗口切换的思路。2. 环境python 3.6.1系统：win7IDE：pycharm安装过chrome浏览器配置好chromedriverselenium 3.7.03. 代码：打开

2018-01-30 16:15:14 23672

原创 selenium + python处理select标签下拉框的选项

selenium + python处理select标签下拉框的选项1. 背景在爬取网页是，有时候我们会遇到下图中的下拉框，也就是标签。按照一般的点击方案是无法成功的，而selenium提供了专门的Select类来处理这种下拉框。 2. 环境python 3.6.1系统：win7IDE：pycharm安装过chrome浏览器配置好chromedrivers

2018-01-29 17:04:32 17118 2

原创 scrapy-redis分布式爬虫的搭建过程（理论篇）

scrapy-redis分布式爬虫的搭建过程（理论篇）1. 背景Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。2. 环境系统：win7scrapy-redisredis 3.0.5python 3.6.13. 原理3.1.

2018-01-12 17:18:24 21220 4

原创 win7下计划任务提示“该任务映像已损坏或已篡改”解决方案

win7下计划任务提示“该任务映像已损坏或已篡改”解决方案1. 背景在windows下部署爬虫，经常会用到windows系统自带的任务计划。但是有时候计划任务会出现不预期的错误，发生损坏…如下所示：具体原因不详，比较粗暴有效的解决方式就是将损坏的计划镜像找出来，删掉，重新部署……2. 解决方案第一步，找出是哪些计划任务错误……1. cmd ——> 输入

2018-01-09 11:33:23 23191 1

原创 chrome浏览器爬虫崩溃，怎么办？python + selenium + chrome + headless模式

chrome浏览器爬虫崩溃，怎么办？python + selenium + chrome + headless模式1. 背景在使用selenium + chrome浏览器渲染模式爬取数据时，如果并发任务过多，或者爬虫的运行时间很长，那么很容易出现浏览器崩溃的现象，如下：这一般是资源消耗过大造成的（据说chrome浏览器有内存泄漏的情况）。那如何解决这个问题呢？这种情况下，我

2018-01-08 11:35:41 20121 3

原创 Mongodb配置主从模式，进行数据的同步与备份

Mongodb配置主从模式，进行数据的同步与备份1. 背景做数据库的人都知道要对数据做备份，避免数据库单点部署，以防止数据遭到毁灭性破坏。mongodb提供的Master/slave主从模式，刚好能支持这种双机热备份，还有读写分离，集群部署等。2. 环境。系统：win7MongoDB 3.4.63. 配置主从模式3.1. 模型图目标：就是将Master中的数据，备份到两个slave中。

2018-01-04 15:20:23 22854

原创 python + selenium多进程分摊爬虫任务基础

python + selenium多进程分摊爬虫任务基础1. 背景现在有这样一个需求：爬取淘宝商品信息，具体的流程是，在搜索栏输入关键字，然后爬取搜索结果列表中的商品信息。分析这个需求会发现具有如下特点：第一，淘宝请求url具有一定的反爬措施，构造起来困难 ——> 应对这种问题的方案就是采用selenium浏览器渲染技术去爬取。第二，实践发现，目前淘宝对这个爬取频率并没有做很

2018-01-03 16:34:43 18122 5

python面试题大全

SVN安装与详细使用教程

Python网络编程基础

C经典100例的python实现

Django中文手册

Python经典面试题

python340参考手册_英文

空空如也