自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (2)
  • 收藏
  • 关注

原创 使用scrapy-redis实现分布式爬虫

一、准备工作用来实现分布式爬虫的项目是:爬取知乎用户信息项目 注册了两个服务器:阿里云服务器和腾讯云服务器,使用的系统都是windows系统二、scrapy-redis组件的使用将知乎用户项目下载至本地,并使用git命令新建分支以方便对项目进行更改而不影响之前的项目:git checkout -b distributed #新建分支git branch #切换分支在项目settings.py中加

2017-11-08 17:13:13 3668

原创 从Github克隆项目至本地修改的常用命令

下载项目至本地:git clone http://Github.com/xxxx/xxxx新建一个分支:git checkout -b distributed切换至新的分支:git branch将在新的分支上的修改后的项目上传至GitHub:git add Agit commit -m "add distributed"git push origin distributed将新的分支上的项目下

2017-11-07 16:12:40 562

原创 将本地项目上传至Github

1、首先要注册一个Github账号 2、点击Your profile,进入到仓库管理界面,并新建一个新的仓库 3、在本地项目文件夹内右击,选择“Git Bash Here”,进入到Git命令行中执行如下命令:git init #将项目中的文件加入到git管理git add . #将项目中的全部内容添加到gitgit commit -m "提交的信息"

2017-11-07 15:49:32 339

原创 使用redis数据库报错: MISCONF Redis is configured to save RDB snapshots

在使用redis数据库过程中报错: redis.clients.jedis.exceptions.JedisDataException: MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands that may modify the data

2017-11-07 14:51:05 471

原创 Python爬虫-基于深度优先策略的百度百科爬虫

深度优先策略:优先往纵向挖掘深入,直到到达指定的深度或者该节点不存在邻接节点,才会访问第二条路。 广度优先策略:先访问完一个深度的所有节点,再访问更深一层的所有节点。简单的看: 深度优先爬虫路径:A-B-E-F-C-D 广度优先爬虫路径:A-B-C-D-E-Fimport requestsimport reimport timeexist_urls=[]headers={ 'Us

2017-10-26 16:57:56 3529 1

原创 Linux目录管理

处理目录的常用命令:ls:列出目录cd:切换目录pwd:显示目前的目录mkdir:创建一个新的目录rmdir:删除一个空的目录cp:复制文件或目录rm:移除文件或目录一、ls:列出目录选项与参数: -a : 全部的文件,连同隐藏档( 开头为 . 的文件) 一起列出来 -d : 仅列出目录本身,而不是列出目录内的文件数据 -l :长数据串列出,包含文件的属性与权限等等数据二、cd:切

2017-10-26 16:57:07 386

原创 Python爬虫-利用百度地图API接口爬取数据并保存至MySQL数据库

首先,我这里有一份相关城市以及该城市的公园数量的txt文件: 其次,利用百度地图API提供的接口爬取城市公园的相关信息。 所利用的API接口有两个:1、http://api.map.baidu.com/place/v2/search?q=公园&region=北京&output=json&ak=用户的访问密匙2、http://api.map.baidu.com/place/v2/detail

2017-10-25 16:35:36 22749 6

原创 Linux系统目录结构

在命令窗口下输入命令:ls /会看到如下:/bin目录:这个目录存放着最经常使用的命令/boot目录:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件/dev目录:此目录下存放的是Linux的外部设备,在Linux中访问设备的方式和访问文件的方式是相同的/etc目录:这个目录用来存放所有的系统管理所需要的配置文件和子目录/home目录:用户的主目录,在Linux中,每个用

2017-10-24 16:17:07 375

原创 Python爬虫-尝试使用人工和OCR处理验证码模拟登入

此次是我第一次模拟登入,目标站点是知乎。 刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码,我打开自己的知乎登入页面,发现只有账号和密码,他们说的倒立的验证码去哪了,后面仔细一想我之前登入过知乎,应该在本地存在cookies,然后我将cookies删除掉果然就有需要验证码了:参考了大多数的意见,可以模拟登入移动端,验证码形式是我们常见的字母数字组合,避开这个点击倒立的验证码形式

2017-10-24 12:34:04 4921

原创 Python爬虫-爬取腾讯小视频

这两天在爬TX的视频的原始下载地址,遇到的问题挺多,感觉这个网站的规律变化多端的,中间也忘了修改过多少次代码了,而且有时候抓包也抓不到一些想要的内容,最后也只能抓到一些像《拜托啦学妹》、《国产整蛊大师》类似的小视频,长时间的视频最后我看了一下只能拿到前五分钟的视频,现在先记录一下,供后续再研究。我是利用Chrome直接进行抓包的,可以拿到视频的真实地址(ps.但是后续多次尝试其他小视频竟然抓不

2017-10-16 16:45:56 21827 3

原创 Python爬虫-爬取爆米花视频下载至本地

打开爆米花的网站,然后打开其中一个视频:打开F12,然后刷新,可以看到:这个URL为视频的真实地址:http://59.56.28.122/vm48002.baomihua.com/d1b3a2d4195a6e40629c68a03f564af6/59DF39B1/3707/37061900_9_b5948e40ae8611e79ee1003048cc668a.mp4?star

2017-10-12 23:49:24 12477 8

原创 Python爬虫入门-利用scrapy爬取淘女郎照片

最近看到有个相对来说比较简单的可以爬取淘女郎的链接地址,它主要可以通过改变URL中page参数来实现翻页。 我们这个这个链接进入到一个淘女郎的页面,进入相册页面,里面有很多相册,我们打开其中一个,可以发现照片是慢慢加载出来的,打开F12,刷新,过滤出所有的JS请求,然后不断下拉照片,可以发现也不断有一些JS请求加载出来,打开response,可以看到里面返回的是json格式的数据,里面就有我们要

2017-09-28 16:43:07 3566

原创 Python爬虫入门-小试ImagesPipeline爬取pixabay和煎蛋之为什么是‘404’

第一部分、利用ImagesPipeline爬取pixabay里面的美女图进入pixabay网站在搜索框中输入关键字beauty,并且简化一下URL中的参数:尝试进行翻页,可见URL中只有一个参数pagi发生变化:随便进入一个页面打开F12,刷新,在原始的请求中有相关进入到详情页面的链接:进入到详情页面,同样F12,刷新,在原始请求中也能找到我们最后想要的图片下载链接(注

2017-09-27 12:07:18 1201

原创 Python爬虫入门-小试CrawlSpider

首先,先转载一张原理图: 再贴一下官方文档的例子:import scrapyfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors import LinkExtractorclass MySpider(CrawlSpider): name = 'example.co

2017-09-26 13:51:13 641

原创 Python爬虫入门-fiddler抓取手机新闻评论

之前一直都听过抓包,抓包,但是一直没有在手机上抓过包,这次一试,当做是一次小练习,在网上有挺多Fiddler安装和配置的教程的,我也找了一些,大家可以借鉴:1、Fiddler|Fiddler安装与配置 2、抓包工具Fidder详解(主要来抓取Android中app的请求) 3、使用Fiddler抓到包后分析之前在安装配置Fiddler的过程中因为使用某国产手机的原因无法使用代理被狠狠坑

2017-09-24 17:44:14 4549 1

原创 Python爬虫入门-利用requsets库爬取煎蛋网妹子图

其实之前是想利用煎蛋网来联系一下scrapy的ImagesPipeline爬取煎蛋网的妹子图并下载下来保存到本地,无奈这个ImagePipeline一点都不给面子一直报404错误,而且我还不知道问题出在哪里,所以一怒之下就不用框架了,直接爬一下。 先来一张:从下图可以看出总的页数:在翻页的过程中URL中只有页数是在发生改变的,这个就比较好构建URL了,而且图片的信心在原始的请求里

2017-09-24 17:43:18 4911 2

原创 Python爬虫入门-scrapy爬取唯一图库高清壁纸

首先,就是进入到唯一图库,点击上面的高清壁纸项目: 进入之后,下拉,发现是正常的下拉没有Ajax加载,拉到最后面点击末页,可以看出这个栏目里面总共有292页: 翻页看一下URL有什么变化,可以发现只有最后面代表这个页码的数字在发生变化: 打开F12,刷新,在原始请求代码里面有能进入到进入详情页的链接地址,可以抓取下来: 打开任意一张图片,进入到详情页码中,同样的F12,再刷新

2017-09-21 16:48:09 2982

原创 Python爬虫入门-scrapy爬取拉勾网

之前就爬过拉勾网,但是遇到一些错误一直没有办法解决,果断放弃了,今天又重新试着写写看,对于一个菜鸟来说,真的都是处处是坑,写篇文章记录一些,供接下去学习参考。首先就是打开拉勾网,在搜索栏中输入Python,打开F12,刷新:在这个原始的请求的response中是没有我们要的数据的,一般这种情况下我就切换到XHR中取中取找:

2017-09-21 16:45:37 1504

原创 Python爬虫入门-python之jieba库制作词云图

在简书上看了很多人分享高大上的词云图的制作,在研究了一番之后,决定自己也动手试一试,奈何小白一个,中间碰到问题老是卡壳老半天,写一写制作过程,啥什么忘了我再来看看。在看了 向右奔跑大哥的文章后,知道了词云制作过程大致可以分为这么几个过程:1、利用Python进行数据的抓取2、进行分词(例如利用jieba)3、进行分类汇总(例如利用excel)4、使用词云工具

2017-09-21 16:42:47 6962

原创 Python爬虫入门-python之爬取pexels高清图片

先上张图片: 首先打开网址:https://www.pexels.com/,然后下来会发现下面的图片是慢慢的加载出来的,也就是通过Ajax请求得到的。在搜索框中输入关键字:beauty,打开F12,刷新,选中XHR,然后一直下拉下拉:会发现左侧中的URL只有一个page是在发生变化的,在通过对URL中参数的分析我尝试的将URL中的参数js和format去掉,构造出类似于:https:

2017-09-21 16:25:28 6388 4

《用Python写网络爬虫》-[澳]理查德 劳森(Richard Lawson)

《用Python写网络爬虫》介绍了如下内容: 通过跟踪链接来爬取网站; 使用lxml从页面中抽取数据; 构建线程爬虫来并行爬取页面; 将下载的内容进行缓存,以降低带宽消耗; 解析依赖于JavaScript的网站; 与表单和会话进行交互; 解决受保护页面的验证码问题; 对AJAX调用进行逆向工程; 使用Scrapy创建高级爬虫。

2017-09-24

Git教程-廖雪峰

Git快速入门

2017-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除