小佐佐123-CSDN博客

原创使用scrapy-redis实现分布式爬虫

一、准备工作用来实现分布式爬虫的项目是：爬取知乎用户信息项目注册了两个服务器：阿里云服务器和腾讯云服务器，使用的系统都是windows系统二、scrapy-redis组件的使用将知乎用户项目下载至本地，并使用git命令新建分支以方便对项目进行更改而不影响之前的项目：git checkout -b distributed #新建分支git branch #切换分支在项目settings.py中加

2017-11-08 17:13:13 3668

原创从Github克隆项目至本地修改的常用命令

下载项目至本地：git clone http://Github.com/xxxx/xxxx新建一个分支：git checkout -b distributed切换至新的分支：git branch将在新的分支上的修改后的项目上传至GitHub：git add Agit commit -m "add distributed"git push origin distributed将新的分支上的项目下

2017-11-07 16:12:40 562

原创将本地项目上传至Github

1、首先要注册一个Github账号 2、点击Your profile，进入到仓库管理界面，并新建一个新的仓库 3、在本地项目文件夹内右击，选择“Git Bash Here”,进入到Git命令行中执行如下命令：git init #将项目中的文件加入到git管理git add . #将项目中的全部内容添加到gitgit commit -m "提交的信息"

2017-11-07 15:49:32 339

原创使用redis数据库报错: MISCONF Redis is configured to save RDB snapshots

在使用redis数据库过程中报错: redis.clients.jedis.exceptions.JedisDataException: MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands that may modify the data

2017-11-07 14:51:05 471

原创 Python爬虫-基于深度优先策略的百度百科爬虫

深度优先策略：优先往纵向挖掘深入，直到到达指定的深度或者该节点不存在邻接节点，才会访问第二条路。广度优先策略：先访问完一个深度的所有节点，再访问更深一层的所有节点。简单的看：深度优先爬虫路径：A-B-E-F-C-D 广度优先爬虫路径：A-B-C-D-E-Fimport requestsimport reimport timeexist_urls=[]headers={ 'Us

2017-10-26 16:57:56 3529 1

原创 Linux目录管理

处理目录的常用命令：ls:列出目录cd:切换目录pwd:显示目前的目录mkdir:创建一个新的目录rmdir:删除一个空的目录cp:复制文件或目录rm:移除文件或目录一、ls:列出目录选项与参数： -a : 全部的文件，连同隐藏档( 开头为 . 的文件) 一起列出来 -d : 仅列出目录本身，而不是列出目录内的文件数据 -l ：长数据串列出，包含文件的属性与权限等等数据二、cd:切

2017-10-26 16:57:07 386

原创 Python爬虫-利用百度地图API接口爬取数据并保存至MySQL数据库

首先，我这里有一份相关城市以及该城市的公园数量的txt文件：其次，利用百度地图API提供的接口爬取城市公园的相关信息。所利用的API接口有两个：1、http://api.map.baidu.com/place/v2/search?q=公园&region=北京&output=json&ak=用户的访问密匙2、http://api.map.baidu.com/place/v2/detail

2017-10-25 16:35:36 22749 6

在命令窗口下输入命令：ls /会看到如下：/bin目录：这个目录存放着最经常使用的命令/boot目录：这里存放的是启动Linux时使用的一些核心文件，包括一些连接文件以及镜像文件/dev目录：此目录下存放的是Linux的外部设备，在Linux中访问设备的方式和访问文件的方式是相同的/etc目录：这个目录用来存放所有的系统管理所需要的配置文件和子目录/home目录：用户的主目录，在Linux中，每个用

2017-10-24 16:17:07 375

原创 Python爬虫-尝试使用人工和OCR处理验证码模拟登入

此次是我第一次模拟登入，目标站点是知乎。刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码，我打开自己的知乎登入页面，发现只有账号和密码，他们说的倒立的验证码去哪了，后面仔细一想我之前登入过知乎，应该在本地存在cookies,然后我将cookies删除掉果然就有需要验证码了：参考了大多数的意见，可以模拟登入移动端，验证码形式是我们常见的字母数字组合，避开这个点击倒立的验证码形式

2017-10-24 12:34:04 4921

原创 Python爬虫-爬取腾讯小视频

这两天在爬TX的视频的原始下载地址，遇到的问题挺多，感觉这个网站的规律变化多端的，中间也忘了修改过多少次代码了，而且有时候抓包也抓不到一些想要的内容，最后也只能抓到一些像《拜托啦学妹》、《国产整蛊大师》类似的小视频，长时间的视频最后我看了一下只能拿到前五分钟的视频，现在先记录一下，供后续再研究。我是利用Chrome直接进行抓包的，可以拿到视频的真实地址(ps.但是后续多次尝试其他小视频竟然抓不

2017-10-16 16:45:56 21827 3

原创 Python爬虫-爬取爆米花视频下载至本地

打开爆米花的网站，然后打开其中一个视频：打开F12，然后刷新，可以看到:这个URL为视频的真实地址：http://59.56.28.122/vm48002.baomihua.com/d1b3a2d4195a6e40629c68a03f564af6/59DF39B1/3707/37061900_9_b5948e40ae8611e79ee1003048cc668a.mp4?star

2017-10-12 23:49:24 12477 8

原创 Python爬虫入门-利用scrapy爬取淘女郎照片

最近看到有个相对来说比较简单的可以爬取淘女郎的链接地址，它主要可以通过改变URL中page参数来实现翻页。我们这个这个链接进入到一个淘女郎的页面，进入相册页面，里面有很多相册，我们打开其中一个，可以发现照片是慢慢加载出来的，打开F12，刷新，过滤出所有的JS请求，然后不断下拉照片，可以发现也不断有一些JS请求加载出来,打开response，可以看到里面返回的是json格式的数据，里面就有我们要

2017-09-28 16:43:07 3566

原创 Python爬虫入门-小试ImagesPipeline爬取pixabay和煎蛋之为什么是‘404’

第一部分、利用ImagesPipeline爬取pixabay里面的美女图进入pixabay网站在搜索框中输入关键字beauty,并且简化一下URL中的参数：尝试进行翻页，可见URL中只有一个参数pagi发生变化：随便进入一个页面打开F12，刷新，在原始的请求中有相关进入到详情页面的链接：进入到详情页面，同样F12，刷新，在原始请求中也能找到我们最后想要的图片下载链接(注

2017-09-27 12:07:18 1201

原创 Python爬虫入门-小试CrawlSpider

首先，先转载一张原理图：再贴一下官方文档的例子：import scrapyfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors import LinkExtractorclass MySpider(CrawlSpider): name = 'example.co

2017-09-26 13:51:13 641

原创 Python爬虫入门-fiddler抓取手机新闻评论

之前一直都听过抓包，抓包，但是一直没有在手机上抓过包，这次一试，当做是一次小练习，在网上有挺多Fiddler安装和配置的教程的，我也找了一些，大家可以借鉴：1、Fiddler|Fiddler安装与配置 2、抓包工具Fidder详解(主要来抓取Android中app的请求) 3、使用Fiddler抓到包后分析之前在安装配置Fiddler的过程中因为使用某国产手机的原因无法使用代理被狠狠坑

2017-09-24 17:44:14 4549 1

原创 Python爬虫入门-利用requsets库爬取煎蛋网妹子图

其实之前是想利用煎蛋网来联系一下scrapy的ImagesPipeline爬取煎蛋网的妹子图并下载下来保存到本地，无奈这个ImagePipeline一点都不给面子一直报404错误，而且我还不知道问题出在哪里，所以一怒之下就不用框架了，直接爬一下。先来一张：从下图可以看出总的页数：在翻页的过程中URL中只有页数是在发生改变的，这个就比较好构建URL了，而且图片的信心在原始的请求里

2017-09-24 17:43:18 4911 2

原创 Python爬虫入门-scrapy爬取唯一图库高清壁纸

首先，就是进入到唯一图库,点击上面的高清壁纸项目：进入之后，下拉，发现是正常的下拉没有Ajax加载，拉到最后面点击末页，可以看出这个栏目里面总共有292页：翻页看一下URL有什么变化，可以发现只有最后面代表这个页码的数字在发生变化：打开F12，刷新，在原始请求代码里面有能进入到进入详情页的链接地址，可以抓取下来：打开任意一张图片，进入到详情页码中，同样的F12，再刷新

2017-09-21 16:48:09 2982

原创 Python爬虫入门-scrapy爬取拉勾网

之前就爬过拉勾网，但是遇到一些错误一直没有办法解决，果断放弃了，今天又重新试着写写看，对于一个菜鸟来说，真的都是处处是坑，写篇文章记录一些，供接下去学习参考。首先就是打开拉勾网，在搜索栏中输入Python，打开F12，刷新：在这个原始的请求的response中是没有我们要的数据的，一般这种情况下我就切换到XHR中取中取找：

2017-09-21 16:45:37 1504

原创 Python爬虫入门-python之jieba库制作词云图

在简书上看了很多人分享高大上的词云图的制作，在研究了一番之后，决定自己也动手试一试，奈何小白一个，中间碰到问题老是卡壳老半天，写一写制作过程，啥什么忘了我再来看看。在看了向右奔跑大哥的文章后，知道了词云制作过程大致可以分为这么几个过程：1、利用Python进行数据的抓取2、进行分词（例如利用jieba）3、进行分类汇总（例如利用excel）4、使用词云工具

2017-09-21 16:42:47 6962

原创 Python爬虫入门-python之爬取pexels高清图片

先上张图片：首先打开网址：https://www.pexels.com/,然后下来会发现下面的图片是慢慢的加载出来的，也就是通过Ajax请求得到的。在搜索框中输入关键字：beauty,打开F12，刷新，选中XHR,然后一直下拉下拉:会发现左侧中的URL只有一个page是在发生变化的，在通过对URL中参数的分析我尝试的将URL中的参数js和format去掉，构造出类似于：https:

2017-09-21 16:25:28 6388 4

《用Python写网络爬虫》-[澳]理查德劳森（Richard Lawson）

《用Python写网络爬虫》介绍了如下内容：通过跟踪链接来爬取网站；使用lxml从页面中抽取数据；构建线程爬虫来并行爬取页面；将下载的内容进行缓存，以降低带宽消耗；解析依赖于JavaScript的网站；与表单和会话进行交互；解决受保护页面的验证码问题；对AJAX调用进行逆向工程；使用Scrapy创建高级爬虫。

2017-09-24

Git教程-廖雪峰

Git快速入门

2017-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

suwenkun1126的博客

原创使用scrapy-redis实现分布式爬虫

原创从Github克隆项目至本地修改的常用命令

原创将本地项目上传至Github

原创使用redis数据库报错: MISCONF Redis is configured to save RDB snapshots

原创 Python爬虫-基于深度优先策略的百度百科爬虫

原创 Linux目录管理

原创 Python爬虫-利用百度地图API接口爬取数据并保存至MySQL数据库

原创 Linux系统目录结构

原创 Python爬虫-尝试使用人工和OCR处理验证码模拟登入

原创 Python爬虫-爬取腾讯小视频

原创 Python爬虫-爬取爆米花视频下载至本地

原创 Python爬虫入门-利用scrapy爬取淘女郎照片

原创 Python爬虫入门-小试ImagesPipeline爬取pixabay和煎蛋之为什么是‘404’

原创 Python爬虫入门-小试CrawlSpider

原创 Python爬虫入门-fiddler抓取手机新闻评论

原创 Python爬虫入门-利用requsets库爬取煎蛋网妹子图

原创 Python爬虫入门-scrapy爬取唯一图库高清壁纸

原创 Python爬虫入门-scrapy爬取拉勾网

原创 Python爬虫入门-python之jieba库制作词云图

原创 Python爬虫入门-python之爬取pexels高清图片

《用Python写网络爬虫》-[澳]理查德劳森（Richard Lawson）

Git教程-廖雪峰

空空如也

《用Python写网络爬虫》-[澳]理查德 劳森（Richard Lawson）

Git教程-廖雪峰

空空如也

《用Python写网络爬虫》-[澳]理查德劳森（Richard Lawson）