自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

侍从,来我房间!

Code never lie ...

  • 博客(4)
  • 收藏
  • 关注

原创 Python-Scrapy 个人兴趣教程(三):扫尾

上一篇博文已经完成了代理IP抓取的核心部分,这一篇主要讲一下代理IP的检测。所谓HTTP代理,检测方法很简单,就是用代理去请求一个网址,看看是否能够拿到正确回应。因为我们抓取IP是周期进行的,所以代理IP的验证也要不停的进行,简单说来就是一个队列的形式,抓取系统不停往队列里扔IP,检测进程不停取出IP进行检测,检测合格的IP放入另一个队列,不合格的直接丢弃。当然,因为代理IP的时效性,存放检测

2015-05-26 15:31:04 1991 1

原创 Python-Scrapy 个人兴趣教程(二):没错,从代理IP开始

想要在Scrapy领域无限制畅游,做好伪装是第一步,于是乎,抓取代理IP成了很多教程的开始部分。我十分同意这个观点,既有实际用处,又能作为一个教学,当然,对于初次使用scrapy的我,很多东西也只是在摸索阶段,所以以下内容算不上教学,只能说是练手。完成代理IP抓取,总共分三个步骤:抓取网络上的代理IP和端口验证已经抓取的内容网络上的免费代理IP基本都有时效性,所以需要重

2015-05-25 15:24:23 6573 1

原创 Python-Scrapy 个人兴趣教程(一):买好装备再出门

出于工作原因,接触python半年,又由于工作原因,暂别python。作为一个从C直接跳跃到python的迷途码农,真的觉得编程突然好幸福,再也不用自己管内存了,再也不用重复早轮子了,再也不用检查类型了,什么东西都有库支持!当然,以上感觉只停留了一个星期。。。python就像是瑞士军刀,万能的工具,只是打开后你会发现,重复的工具比较多,选哪一个都觉得另一个好- -。吐槽结束,这

2015-05-19 14:24:15 1073

原创 再次开篇,写在前面

这个博客是在读研的时候注册的,期间也断断续续写过几篇文章,虽然有了开始,可完全没有认真维护,最终,技术总结还是选择了云端笔记的形式。    转眼间,工作已经3年,生活和工作都有了一些改变,对学习技术的初衷也有些模糊了,于是又想到了这里,给自己一个机会,重新出发。    我删掉了曾经的文章,因为逼格不够- -……    我还是会继续在笔记上记录琐碎的内容,那样更方便和高效。    这

2015-05-19 10:12:44 562

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除