自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JiShun_Wang的博客

python爬虫

  • 博客(8)
  • 收藏
  • 关注

原创 python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)

一、写在前面  这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬。所幸先来说说如何爬取顶点小说吧。  顶点小说(https://www.x23us.com)里面的内容很丰富,不过我们要爬的话最好爬已经完结的全本小说(https://www.x23us.com/quanben/)。爬完我们可以直接将.txt文件放入手机看,很过瘾的哦。(本篇博客由于内容丰富,篇...

2018-03-08 15:52:48 8692 7

原创 python3爬取天气数据存入mysql数据库

爬虫的目的往往是为了获取数据,如果爬取的数据量较小可以用csv格式存储,但在数据量大的情况下可以考虑存入数据库,不仅保存方便,查询调用效率快。本篇博文的目的是为了展示如何将爬取的数据存入数据库。如果大家想学习更多的关于mysql数据库的知识请点击: MySQL学习。 本篇博客以爬取过去时间天气数据为例,将爬取到的数据存入到数据库。关键的两点是如何连接数据库以...

2019-08-18 21:56:00 5509 7

原创 python3.6爬取凤凰网新闻-爬虫框架式思维

一、序言        先前几篇爬虫的代码,是简单的脚本代码。在爬取小网页觉得挺简单、高效,但涉及复杂网页的时候,就要考虑成熟的爬虫框架与分布式。本篇博客作为无框架式爬虫和有框架式爬虫的一个过渡,介绍具有框架式思维的爬虫^_^。二、框架结构图        通常爬虫分为五个部分,分别为:爬虫调度器、URL管理器、网页下载器、网页解析器与数据存储器。各部分的作用如下:爬虫框架模块作用说明模块名称作用...

2018-04-29 17:26:02 4844 2

原创 python3批量发送邮件

这次介绍运用python3批量发送邮件。使用这个功能,我们可以在爬虫中将程序遇到的问题发送到指定邮件,以便及时处理断掉的爬虫。在python中对发送邮件协议STMP的支持有两个模块:smtplib和email两个模块,前者负责发送邮件,后者负责构造邮件。为实现这个功能,我们首先需要两个邮箱,笔者使用网易163邮箱发送,qq邮箱接收。开始之前需要先对网易邮箱进行设置,开通SMTP服务,具体操作见下图...

2018-04-29 10:00:20 5212 2

原创 python3.6爬虫案例:爬取某网站所有PPT(下)。

上篇博客:python3.6爬虫案例:爬取某网站所有PPT(上)给大家介绍了爬取(http://www.1ppt.com/)网站中的ppt文件,爬下来的文件如下:所以,我们就要考虑将其名称修改为其在网页中显示的名字,并将其批量解压到指定文件夹。一、批量修改压缩文件名称。细心的伙伴可以从上图发现,压缩文件的格式不同有zip、rar两种格式,所以我们需要分别处理,在后续的批量解压文件中需要不同的pyt...

2018-04-15 10:21:53 7139

原创 python3.6爬虫案例:爬取某网站所有PPT(上)。

写在前面          这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT。不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋。闲话不多说,进入正题。        先来说下网站(http://www.1ppt.com/)特点,该网站的结构很清晰,但是网站中的链接如果取下来是不能直接输入浏览器访问的,即:防盗链,这带来了不少额外的工作量....

2018-04-12 20:34:15 22585 2

原创 python3.6:学会两行代码,深刻理解列表

一码友问我两行代码如何执行的,看似挺简单,但涉及的知识点还挺多,值得细细分析,所以和大家分享。这两行代码为:a = [0, 1, 2, 3, 4, 5]a[0:3],a[5]=[[2,3,4,5],7] #重点介绍这句程序执行完毕上面两行程序之后,大家猜猜,a的结果是多少?正确答案为:[2, 3, 4, 5, 7, 4, 5]不知道聪明的你答对了没。我给大家分析下:要想理解a[0:3],a[5]...

2018-03-12 21:07:36 871

原创 python3.6爬虫案例:爬取百度歌单。

一、写在前面。        由于先前实验室学术研究的需要,自己开始学习python爬虫技术。学习的过程中写了几个爬虫的案例,分别有:百度音乐歌单爬取,百思不得姐视频爬取、潮秀网图片爬取(里面尺度有点大,学习乐趣也不少^_^)、顶点小说爬取、历史天气爬取等。接下来就按照顺序一一贴出来和大家一起分享,希望对学习爬虫的朋友有所益处,也欢迎大家一起学习交流。        这次我们先聊聊爬取百度音乐歌单...

2018-03-07 17:41:27 2161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除