自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kosmoo的博客

记录自己学习python过程中的经验与心得

  • 博客(73)
  • 资源 (7)
  • 收藏
  • 关注

原创 python + selenium多进程爬取淘宝搜索页数据

selenium操作chrome滑动滚动条的几种方法分析页面滚动条滑动self.driver.execute_script(“window.scrollTo(0,document.body.scrollHeight);”) # 将页面滚动条滑到底部 self.driver.execute_script(“arguments[0].scrollIntoView();”, el) # 向...

2018-07-24 17:52:25 4173

原创 python下selenium如何处理日期控件的几种方法

参考文章:https://blog.csdn.net/huilan_same/article/details/52385401# -*- coding: utf-8 -*-from selenium import webdriverfrom time import sleepdriver = webdriver.Firefox()driver.get('http://ww...

2018-07-09 18:58:36 13769 1

原创 scrapy-redis分布式爬虫的搭建过程(代码篇)

阿里云ECS服务器环境搭建(6) —— Windows 与 Ubuntu16.04 之间利用 WinSCP 进行文件传输参考两篇文章: https://blog.csdn.net/g_ithot/article/details/73002567 https://jingyan.baidu.com/article/ed2a5d1f346fd409f6be179a.html...

2018-06-14 18:16:55 1625

原创 阿里云ECS服务器环境搭建(5) —— ubuntu 16.04 下为mongodb各个数据库设置用户名和密码

阿里云ECS服务器环境搭建(5) —— ubuntu 16.04 下为mongodb各个数据库设置用户名和密码1. 环境阿里云 ECS服务器 (4核 8G 4M)Ubuntu16.04-64-bit 图形界面MongoDB v3.6.52. 前提须知开启mongodb服务的命令:service mongod start关闭mongodb服务的命令:service...

2018-06-04 19:55:28 3838

原创 阿里云ECS服务器环境搭建(4) —— ubuntu 16.04下 mongodb无法从公网进行远程连接

阿里云ECS服务器环境搭建(4) —— ubuntu 16.04下 mongodb无法从公网进行远程连接的解决方案Mongodb 远程连不上,如何解决? https://www.aliyun.com/jiaocheng/124222.html使用这个帖子,并未能解决这个问题。开始尝试阿里云的官方文档! https://help.aliyun.com/document_detail/...

2018-06-04 19:54:56 3827 1

原创 阿里云ECS服务器环境搭建(3) —— ubuntu 16.04 安装mongodb,并实现可视化

阿里云ECS服务器环境搭建(3) —— ubuntu 16.04 安装mongodb,并实现可视化1. 环境阿里云 ECS服务器 (4核 8G 4M)Ubuntu16.04-64-bit 图形界面2. 下载mongodb,并安装使用系统自带的火狐浏览器下载 Ubuntu 16.04 Linux 64-bit x64 版本的mongodb安装包,官网地址为 http:...

2018-06-01 17:10:49 4342

原创 阿里云ECS服务器环境搭建(2) —— ubuntu 16.04 安装中文输入法(搜狗输入法)

阿里云ECS服务器环境搭建(2) —— ubuntu 16.04 安装中文输入法(搜狗输入法)1. 环境阿里云 ECS服务器 (4核 8G 4M)Ubuntu16.04-64-bit 图形界面2. 安装中文语言包安装好之后,在语言列表中,会存在汉语这个选项: 3. 下载搜狗输入法 For linux, 并安装进入搜索输入法官网,https://piny...

2018-06-01 15:15:07 4632

原创 阿里云ECS服务器环境搭建(1) —— ubuntu 16.04 图形界面的安装

阿里云ECS服务器环境搭建(1) —— ubuntu 16.04 图形界面的安装使用密码,通过网页连接到服务器然后执行: apt-get update 在按照 帖子: https://blog.csdn.net/dk_0228/article/details/54571867 配置图形界面 安装好图形界面之类的之后: 输入:vncserver输入一个8位数的密码,密码你需要...

2018-05-31 18:20:38 48607 25

原创 反爬技术研究 — 网站常用的反爬技术有哪些?

反爬技术研究 —— 网站常用的反爬技术有哪些?user-agent.htaccessjs基于流量的拒绝基于IP连接 的拒绝iptables的控制

2018-05-25 14:35:31 7492 1

原创 反爬技术研究 — 网站是通过什么方式来发现爬虫的?

反爬技术研究 —— 网站是通过什么方式来发现爬虫的?单一IP非常规的访问频次单一IP非常规的数据流量大量重复简单的网站浏览行为只下载网页,没有后续的js、css请求通过一些陷阱来发现爬虫,例如一些通过CSS对用户隐藏的链接,只有爬虫才会访问...

2018-05-21 19:08:54 3937

原创 故障分析系列(01) —— scrapy爬虫速度突然变慢原因分析

反爬技术研究 —— 网站的反爬技术有哪些?

2018-05-21 12:24:28 8096

原创 如何去除网页噪声提取数据(02) —— 汽车之家(字体反爬)

如何去除网页噪声提取数据(02) —— 汽车之家(自定义字体)1. 需求介绍继去哪儿网之后,我又盯上了汽车之家这个网站,这个网站的反爬策略挺有意思的,采用了时下最流行的字体反爬技术,激起了我的挑战欲,对它动起了歪心思……嘿嘿我的目标是爬取汽车之家论坛上的帖子内容。捣鼓了一番之后,捣捣捣……终于成功获取了所有信息,让数据赤裸相见了,下面讲解详细的分析过程。2. 环境py...

2018-05-14 09:01:34 8338 6

原创 如何去除网页噪声提取数据(01) —— 去哪儿网

如何去除网页噪声提取数据(01) —— 去哪儿网1. 需求介绍今天的目标是爬取 “去哪儿网” 上的数据信息,去哪儿网上的数据是非常珍贵的,所以这个数据被保护的也很严格,不仅仅是原始数据获取较为困难,而且渲染后的数据也加入了大量的混淆。尽管难度很大,但是作为一直修炼千年的蜘蛛精,是没有爬不下来的数据滴。下面就看我如何织网,如何捕获猎物……呃,不对,是爬取数据……2. 环境...

2018-05-08 23:41:37 4271

原创 如何利用网站的分布式部署(多IP)提高爬虫爬取速度?

如何利用网站的分布式部署(多IP)提高爬虫爬取速度?利用virtual host和服务器的分布式部署,我们就可以手动的对多个IP进行数据爬取 virtual host:https://blog.csdn.net/yanwushu/article/details/38360631详细过程见下图: ...

2018-05-03 23:23:16 3658

原创 python下操作redis数据库的基本方法

参考文章:https://blog.csdn.net/fgf00/article/details/52917154一、Redis简介 redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash(哈希类型)。这些数据类型都支持pus...

2018-04-29 02:07:16 3398

原创 python爬虫如何POST request payload形式的请求

python爬虫如何POST request payload形式的请求1. 背景最近在爬取某个站点时,发现在POST数据时,使用的数据格式是request payload,有别于之前常见的 POST数据格式(Form data)。而使用Form data数据的提交方式时,无法提交成功。 于是上网查了下二者的区别:http://xiaobaoqiu.github.io/blog/2...

2018-04-17 23:31:50 93047 10

原创 scrapy无法使用xpath解析?特殊网页的信息提取(1) — 百度贴吧

scrapy无法使用xpath解析?特殊网页的信息提取(1) — 百度贴吧1. 背景最近在使用scrapy爬取百度贴吧帖子内容时,发现用xpath无法解析到页面元素。但是利用xpath helper这个插件,很明显可以看到xpath路径是没有问题的。 articleList = response.xpath("//li[contains(@class, 'j_thread...

2018-04-15 00:22:31 5636

原创 scrapy爬虫利用selenium实现用户登录和cookie传递(百度云俱乐部)

scrapy爬虫利用selenium实现用户登录和cookie传递1. 背景上篇讲解了如何在scrapy中集成selenium爬取一些特别复杂的页面(传送门:https://blog.csdn.net/zwq912318834/article/details/79773870),而事实上,在平时的爬取任务中,往往登录过程是最复杂的,其他页面相对来说比较简单。如果把过多的时间花费在破解...

2018-04-09 18:10:30 8765 3

原创 如何在scrapy中集成selenium爬取网页

如何在scrapy中集成selenium爬取网页1.背景我们在爬取网页时一般会使用到三个爬虫库:requests,scrapy,selenium。requests一般用于小型爬虫,scrapy用于构建大的爬虫项目,而selenium主要用来应付负责的页面(复杂js渲染的页面,请求非常难构造,或者构造方式经常变化)。在我们面对大型爬虫项目时,肯定会优选scrapy框架来开发,但是在解...

2018-04-03 16:30:21 24184 11

原创 网络请求分析实战篇(01)—— 爬取amazon搜索栏的关联关键词

网络请求分析实战篇(01)—— 爬取amazon搜索栏的关联关键词1. 需求介绍在amazon搜索商品,当输入部分单词时,下面会自动弹出一些关联关键词。这些关键词是amazon内部总结,统计的热门搜索关键词。我们现在的需求就是,给出一些关键词,然后把对应的关联关键词抓出来。 2. 环境系统:win7python 3.6.1requests 2.14.2 (通过pip...

2018-03-29 17:58:37 8655

原创 scrapy-redis分布式爬虫如何在start_urls中添加参数

scrapy-redis分布式爬虫如何在start_urls中添加参数1.背景介绍有这样一个需求,需要爬取A,B,C,D四个链接下的数据,但是每个链接下要爬取的数据量不同:url链接: 指定爬取的商品数A: 10B: 20C: 5D: 32首先通过下面的文章了解一下scrapy-redis分布式爬虫的基本框架。 ...

2018-03-27 22:43:41 20037 11

原创 python3下使用scrapy实现模拟用户登录与cookie存储—— 中级篇(百度云俱乐部)

python3下使用scrapy实现模拟用户登录与cookie存储—— 中级篇(百度云俱乐部)1. 背景相关基础知识点回顾: python3下使用requests模拟用户登录 —— 中级篇(百度云俱乐部):https://blog.csdn.net/zwq912318834/article/details/79665863python3下使用scrapy实现模拟用户登录与coo...

2018-03-25 23:44:33 5857

原创 python3下使用requests模拟用户登录 —— 中级篇(百度云俱乐部)

python3下使用requests模拟用户登录 —— 中级篇(百度云俱乐部)1. 背景建议先看一下初级篇,了解一些爬虫模拟登录的基本常识: python3下使用requests实现模拟用户登录 —— 初级篇(马蜂窝):https://blog.csdn.net/zwq912318834/article/details/79571110 2. 环境系统:win7p...

2018-03-23 12:29:52 6192

原创 python3下使用scrapy实现模拟用户登录与cookie存储 —— 基础篇(马蜂窝)

python3下使用scrapy实现模拟用户登录与cookie存储 —— 基础篇(马蜂窝)1. 背景相关基础知识点回顾: python3下使用requests实现模拟用户登录(马蜂窝): http://blog.csdn.net/zwq912318834/article/details/795711102. 环境系统:win7python 3.6.1scrapy 1...

2018-03-19 17:09:52 10332 1

原创 python3下使用requests实现模拟用户登录 —— 基础篇(马蜂窝)

python3下使用requests实现模拟用户登录 —— 基础篇(马蜂窝)1. 了解cookie和session首先一定要先了解到cookie和session是什么,这是后面理解网站交互,模拟用户登录的基础。1.1. 无状态协议:Http如上图所示,HTTP协议 是无状态的协议,用户浏览服务器上的内容,只需要发送页面请求,服务器返回内容。对于服务器来说,并不关心,也...

2018-03-15 17:20:17 130439 67

原创 如何使用scrapy中的ItemLoader提取数据?

如何使用scrapy中的ItemLoader提取数据?1. 简述我们在用scrapy爬取数据时,首先就要明确我们要爬取什么数据。scrapy提供了Item对象这种简单的容器,我们可以通过Item定义提取数据的格式,需要爬取哪些字段,其提供了类似于字典的API以及用于声明可用字段的简单语法。如下所示:下面以爬取伯乐在线文章详情页为范例:http://blog.jobbole.com/...

2018-03-12 18:32:28 14349 6

原创 手机抓包工具Fidder的使用:环境搭建篇

手机抓包工具Fidder的使用:环境搭建篇1.概述Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据(指cookie,html,js,css等文件,这些都可以让你胡乱修改的意思)。 Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式。...

2018-03-02 11:57:12 3941

原创 scrapy爬虫的搭建过程(实战篇)

scrapy爬虫的搭建过程(实战篇)1. 爬虫功能以 http://bbs.fengniao.com/forum/forum_125_1_lastpost.html 为起始页,爬取前十页的信息,包括文章的标题、链接地址和图片地址,保存到mongodb中。并下载对应的图片到本地目录。 2. 环境系统:win7Scrapy 1.4.0mongodb v3.2pyt...

2018-02-08 14:40:25 5608 1

原创 scrapy爬虫的搭建过程(理论篇)

scrapy爬虫的搭建过程(理论篇)1. 概述Scrapy是一个纯Python实现的,为了爬取网站数据、提取结构化数据而编写的应用框架,用途非常广泛。只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页的内容以及各种图片,非常方便。Scrapy 使用了 Twisted (其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...

2018-02-08 09:05:52 4205

原创 python + selenium + chrome 在实现back,forward,refresh时的注意事项

python + selenium + chrome 在实现back,forward,refresh时的注意事项1. 背景在使用selenium模拟浏览器时,经常会使用到导航栏的三个按钮:后退,前进,刷新。来达到在浏览过的页面之间进行切换。对应到selenium中的方法分别是:back(),forward(), refresh() 。但是如果直接使用之前定位到的元素,会出现一个问题,那

2018-02-06 11:15:27 5219

原创 python + selenium + chrome 如何操作滚动条

python + selenium + chrome 如何操作滚动条1. 背景在使用selenium模拟浏览器时,经常会需要下拉滚动条,一般是有两个目的: 拟人操作,突破精妙的反爬系统。有些元素正常情况下不加载出来,需要拖动下拉条,才能慢慢加载出来,类似于淘宝这样的网站。2. 环境python 3.6.1系统:win7IDE:pycharm安装过chrome浏览

2018-02-05 17:46:50 27467

原创 python + selenium + chrome 如何清理浏览器缓存

python + selenium + chrome 如何清理浏览器缓存1. 背景在使用selenium + chrome浏览器渲染模式爬取数据时,如果并发任务过多,或者爬虫的运行时间很长,那么很容易出现浏览器崩溃的现象,如下: 这一般是资源消耗过大造成的(据说chrome浏览器有内存泄漏的情况。或者是浏览器缓存过大,越堆越多)。selenium模拟浏览器会产生大量的临时文件,

2018-01-31 12:04:17 48769 6

原创 python语言常见问题

python语言常见问题1. 编译错误1.1. TabError: inconsistent use of tabs and spaces in indentationC:\timer>python getAllTitles.py File "getAllTitles.py", line 192 startTime = datetime.datetime.now

2018-01-31 09:50:45 4168

原创 python + selenium + chrome 如何打开新窗口,并实现窗口切换

python + selenium + chrome 如何打开新窗口,并实现窗口切换1. 背景在使用selenium时,经常会有打开一个新的窗口的需求,下面会提供几种窗口切换的思路。2. 环境python 3.6.1系统:win7IDE:pycharm安装过chrome浏览器配置好chromedriverselenium 3.7.03. 代码:打开

2018-01-30 16:15:14 23672

原创 selenium + python处理select标签下拉框的选项

selenium + python处理select标签下拉框的选项1. 背景在爬取网页是,有时候我们会遇到下图中的下拉框,也就是 标签。按照一般的点击方案是无法成功的,而selenium提供了专门的Select类来处理这种下拉框。 2. 环境python 3.6.1系统:win7IDE:pycharm安装过chrome浏览器配置好chromedrivers

2018-01-29 17:04:32 17118 2

原创 scrapy-redis分布式爬虫的搭建过程(理论篇)

scrapy-redis分布式爬虫的搭建过程(理论篇)1. 背景Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。2. 环境系统:win7scrapy-redisredis 3.0.5python 3.6.13. 原理3.1.

2018-01-12 17:18:24 21220 4

原创 win7下计划任务提示“该任务映像已损坏或已篡改”解决方案

win7下计划任务提示“该任务映像已损坏或已篡改”解决方案1. 背景在windows下部署爬虫,经常会用到windows系统自带的任务计划。但是有时候计划任务会出现不预期的错误,发生损坏…如下所示: 具体原因不详,比较粗暴有效的解决方式就是将损坏的计划镜像找出来,删掉,重新部署……2. 解决方案第一步,找出是哪些计划任务错误……1. cmd ——> 输入

2018-01-09 11:33:23 23191 1

原创 chrome浏览器爬虫崩溃,怎么办?python + selenium + chrome + headless模式

chrome浏览器爬虫崩溃,怎么办?python + selenium + chrome + headless模式1. 背景在使用selenium + chrome浏览器渲染模式爬取数据时,如果并发任务过多,或者爬虫的运行时间很长,那么很容易出现浏览器崩溃的现象,如下: 这一般是资源消耗过大造成的(据说chrome浏览器有内存泄漏的情况)。那如何解决这个问题呢?这种情况下,我

2018-01-08 11:35:41 20121 3

原创 Mongodb配置主从模式,进行数据的同步与备份

Mongodb配置主从模式,进行数据的同步与备份1. 背景做数据库的人都知道要对数据做备份,避免数据库单点部署,以防止数据遭到毁灭性破坏。mongodb提供的Master/slave主从模式,刚好能支持这种双机热备份,还有读写分离,集群部署等。2. 环境。系统:win7MongoDB 3.4.63. 配置主从模式3.1. 模型图目标:就是将Master中的数据,备份到两个slave中。

2018-01-04 15:20:23 22854

原创 python + selenium多进程分摊爬虫任务基础

python + selenium多进程分摊爬虫任务基础1. 背景现在有这样一个需求:爬取淘宝商品信息,具体的流程是,在搜索栏输入关键字,然后爬取搜索结果列表中的商品信息。分析这个需求会发现具有如下特点: 第一,淘宝请求url具有一定的反爬措施,构造起来困难 ——> 应对这种问题的方案就是采用selenium浏览器渲染技术去爬取。第二,实践发现,目前淘宝对这个爬取频率并没有做很

2018-01-03 16:34:43 18122 5

python面试题大全

主要是一些大公司,网上流传的python岗位面试题,主要体现在python的语言特性上,比较基础

2018-03-26

SVN安装与详细使用教程

SVN安装与详细使用教程,包含了 SVN服务器(VisualSVN server)搭建和使用,SVN客户端(Tortoise SVN)的安装配置,以及客户端的详细使用,以及注意事项

2018-02-09

Python网络编程基础

Python网络编程基础

2017-02-15

C经典100例的python实现

C经典100例的python实现

2017-02-15

Django中文手册

Django 中文手册

2017-02-15

Python经典面试题

Python经典面试题

2017-02-15

python340参考手册_英文

python340参考手册_英文

2017-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除