自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lucifer_sam's ship

记录学习Python等.

  • 博客(7)
  • 收藏
  • 关注

原创 kindle我的剪帖文件整理脚本

"标注"是kindle很好用的一个功能。阅读时只管标注,一段时间也读了不少的书,当我想要将所有的标注移植入印象笔记的时候,发现这个文件里的内容已经变得很多,且各个书标记的内容互相穿插,需要一点一点搬运过去,这实在是太麻烦了。   将kindle中的My Clippings.txt文件复制到电脑上,打开后是这个样子的。非常的杂乱无章,我肯定想将月亮和六便士的标注放在一起,而如果我在这本书中标注了10

2016-07-02 15:31:42 1008

原创 史上最强百度贴吧图片爬虫

之前写过贴吧图片区的爬虫,一次只能下载一个主题下的一个图册,而且还要手动输入,很不方便且效率有限,学了scrapy之后,使其变得更加强大,一次性可爬到贴吧图片区的所有图片,堪称史上最强。   首先要建立一个tieba_pic的scrapy project。   改写items.py。import scrapyclass TiebaPicItem(scrapy.Item): zhutina

2016-07-01 10:21:23 806

原创 利用Scrapy爬取糗事百科段子

之前用BeautifulSoup爬过糗事百科段子,但效率太低,自从使用了Scrapy框架以后,爬取大量信息再也不是事儿。今天要用这个强大的框架来爬取段子们,并将它们保存到本地的json文件中。scrapy startproject qiushibaike  创建好项目后,首先考虑要爬取的内容,为了简洁这里只爬取作者和段子信息,可以根据需要设置其他对象如点赞数、评论数等 。import scrapyc

2016-06-30 08:57:40 1255

原创 使用Scrapy框架爬取艺龙网机票信息

学爬虫的初衷便是为了爬机票信息,因为从小到大没坐过飞机,所以有着深深的怨念。掌握了一定的爬虫技巧后,尝试过爬去哪儿网和携程网的机票,均以失败告终,所幸在最后的一根稻草艺龙网上取得了想要的结果。   用Scrapy框架来完成这次任务。   首先,创建一个新的任务:scrapy startproject Airplane  可爬的信息有很多,如果你愿意,可意得到是否有餐食的信息,在items.py里

2016-06-29 18:23:28 2449

原创 糗事百科交互式爬虫

学习爬虫的过程参考了很多静觅博客的教程及例子。其中便有这个爬取糗事百科的爬虫。   思路基本沿袭原版 ,此处对它进行了修改,用BeautifulSoup来实现,并应用到了User-agent池,来反反爬虫。   # -*- coding:utf-8 -*-__author__ = 'fybhp'import urllib2, os, os.path, urllib, randomfrom

2016-06-28 11:29:19 685

原创 百度贴吧图片区通用爬虫

很多百度贴吧都有图片区,这里以最喜欢的能年犬的贴吧为例,见下图。         根据观察发现它的网址为"http://tieba.baidu.com/photo/g?kw=” + tieba_name + “&ie=utf-8"。会发现有不同的主题,大触能年,杂志等等。需要注意的是,在这个页面,每个主题最多显示三个图册,若该图册有多于三个主题,则需要进入主题url才能进入。这里点击Blog,

2016-06-28 10:47:16 652 1

原创 爬虫整理与复习

之前学过了一阵子的爬虫,看的内容多且杂,彼时并未将内容融会贯通, 且各处收集代码较杂乱。   自己也写了一些,或是将网上的代码加以修改,当时是在Windows7的条件下均运行过至少一次可以达到预期效果。后转入ubuntu系统,现再次将之前所学代码系统得过一遍,达到复习效果的同时,使其亦可在linux上正常运行。

2016-06-27 16:43:58 420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除