自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

King 学吧|King Blog

爱分享,爱折腾,爱生活,乐于分享自己在学习过程中的一些心得、体会。写博客的初衷是记录自己在学习中踩过的坑、笔记,同时,能把这些分享给更多有需要的人,让我们共同成长!

  • 博客(23)
  • 收藏
  • 关注

原创 Python基于钉钉监控发送消息提醒

Python基于钉钉监控发送消息提醒????前言:在爬虫运维的时候,我们需要及时了解取数情况,以做相关处理,那么此时,我们就很迫切需要一个能发送实时监控消息的功能,如,取数任务什么时候开始跑的,失败了多少,成功了多少,登入需要验证码等等。在之前,我们学习了使用邮件进行监控提醒,但我们在使用的过程中,会发现,很时候会有延时,监控消息不能及时通知处理。而我们在运维的过程中,可能需要人工及时介入操作,那么此时邮件提醒便不能满足我们的需求了。因此,我们又要学习新知识了——python基于钉钉监控发送消息

2021-05-15 17:17:36 1580 3

原创 Bat(批处理)文件编写手册(一)

一、批处理常用的DOS命令篇1.`echo命令`2.`@命令`3.`pause命令`4.`rem命令`5.`::命令`6.`call命令`7.`cd命令`8.`dir命令`9.`attrib命令`10.`del命令`11.`copy命令`12.`xcopy命令`13.`md命令`14.`rd命令`15.`ren命令`16.`move命令`17.`find命令`18.`findstr命令`1.echo命令显示此命令后面的字符(字符不需要加引号)【扩展】其中,^不能显示;ehco.表示换行,中间不

2021-04-22 11:56:28 2004 1

原创 爬虫之解决需要登录的网站

爬虫之解决需要登录的网站????前言:平时爬取的网站大都不需要登录就可直接获取到想要的信息,但有时我们想要的信息,需要登录之后,才可以查看,又或者说,有些网站在不登录的状态下a不能查看全部信息,因此,我们需要携带用户数据进行登入爬取。文章中介绍了三种方法解决携带登入用户进行爬取网页信息。第一种、使用Session会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie。import requestsfrom fake_useragent im

2021-02-17 10:34:09 10889 3

原创 使用Python进行IP地址查询

IP地址查询前言:可以通过指定ip,来查看ip位置及运营商,目前发现以下三种方法【淘宝ip地址查询、百度ip地址查询、太平洋IP地址查询】,较为靠谱,其中推荐使用淘宝ip地址查询的方法,百度ip地址查询方法中的timestamp未找到解决办法,有大佬解析出来的,欢迎在评论区指点指点。测试使用:1.联通: 175.43.56.122.电信: 183.166.103.893.移动: 218.204.153.1564.国外: 103.12.161.38第一种、淘宝ip地址查询[推荐]imp

2021-02-04 20:50:48 2770

原创 JavaScript常用的内置对象

JavaScript常用的内置对象>>、前言一、查阅MDN文档二、Math对象的使用三、Date对象的使用四、数组对象的使用4.1 数组的创建4.2 检测是否为数组4.3 添加数组元素4.4 删除数组元素4.5 splice() 方法4.6 reverse() 方法4.7 sort() 方法4.8 indexOf() 方法跟lastIndexOf() 方法4.9 数组转换成字符串五、字符串对象的使用5.1 charCodeAt() 方法5.2 charAt() 方法5.3 字符串的拼接、截取、替

2021-01-13 18:51:52 348

原创 JavaScript基础——猜数字游戏

JavaScript基础——猜数字游戏????前言:也没啥,就是复习下JavaScript。一、技术要点1.如何取范围之间的随机数2.判断输入的数值是否合法3.以及逻辑的书写运用二、具体代码<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width,

2021-01-11 19:21:31 738 1

原创 控制台简单实现打印显示进度条

控制台简单实现打印显示进度条前言:在测试时,为了让测试效果在控制台中更加直接、明显的展示,这时,我们可以使用进度条来显示当前测试的状态。具体使用,需要根据具体代码逻辑进行微修。一、代码如下import timeN = 1000 # 这个值为你数据的总大小(按你实际值进行更改)Loading_length = 25 # 为要显示的加载长度start_time = time.time() # 记录运行时的时间for i in range(N): time.sleep(0.01)

2021-01-04 18:55:19 943 2

原创 运用Scrapy爬取药监局信息

运用Scrapy爬取药监局信息- 1.Scrapy框架的运用- 2.如何发送POST请求?(以及当一开始就需要发送POST请求又该如何发送?)- 3.当在不同请求传输数据时,如何保持多个请求之间的数据连接?- 4.如何存储到MongoDB中?- 5.如何存储为xlsx格式文件?- 6.zip函数的应用。- ......

2020-12-23 16:40:03 1374 4

原创 抓包工具-mitmproxy前奏

教你快速学会抓包工具-mitmproxy的安装及配置

2020-12-11 10:54:44 2511 2

原创 图片伪装反爬虫

图片伪装反爬虫目标网站:广西人才网目标地址:https://www.gxrc.com/jobDetail/c4329efab8424b5d871df247f299543a爬取要求:爬取联系方式1.分析网页发现提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录图片伪装反爬虫1.分析网页前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结2.解决思路3.代码如下前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门

2020-11-14 20:57:17 676

原创 找回在PyCharm中误删的文件

找回在PyCharm中误删的文件前言:今天在整理python文件时,误删了一个文件,一开始以为可以在电脑回收站里找回,然而并没有,查找了一番之后,找到了能找回在PyCharm中误删的文件。以上就是 找回在PyCharm中误删的文件 的所有内容了,点赞收藏加评论是最大的支持哦!????编写不易,转载请注明出处,如有侵权,请联系我!...

2020-11-14 16:07:40 964 2

原创 Python之 解读 迭代器、生成器

一、迭代器1.list、str、tuple、dict等数据类型,可以使用for...in... 循环语句进行遍历,并依次返回数据。这样的我们称它是可迭代对象。2.可迭代对象的本质:1.当我们使用for…in… 进行每一次迭代时,都会依次返回一个数据直至没有数据,结束。那在这个过程中,会有这么一个“人”去给我们记录这次获取哪个数据,下次又要获取哪个数据,那这个帮我们记录数据的“人”,称为迭代器。2.iter(): 可迭代对象是通过__iter__方法向我们提供一个迭代器,也就是指向提供的那个

2020-11-11 21:31:54 92

原创 Email邮件提醒

Email邮件提醒前言:今天在看书的时候,发现一个挺有趣的玩意,就是用python写一个自动发送Email邮件的模块。那Email在Python爬虫开发中有什么作用呢?主要起到提醒作用,当爬虫在运行过程中遇到异常或者服务器遇到问题,可以通过Email及时向自己报告。代码中涉及的邮箱授权密码,QQ跟网易的获取方式如下:1.QQ邮箱授权密码获取方式:2.网易邮箱授权密码获取方式:3.完整代码直接拷贝下来,分别注释代码去查看效果,相应的代码,也写上了注释,就不一一提出来作说明了。#

2020-10-25 22:57:20 1120 1

原创 最新Scrapy(CrawlSpider)+Selenium全站数据爬取(简书)

Scrapy(CrawlSpider)+Selenium全站数据爬取【进阶】前言:学习了 Scrapy基于CrawlSpider进行全站数据爬取 之后,我们进阶学习Scrapy(CrawlSpider)搭载Selenium进行全站数据爬取。为什么要搭载Selenlium呢?在我们之前的学习中,知道网站上有些数据是通过js动态加载出来的,我们不能直接获取这部分数据 ,需要单独对ajxa数据对应的url,进行请求,但有了Selenium的加入,网页能展示给我们看的,我们就能直接去获取到,不需要单独再去

2020-10-09 20:31:50 3253 6

原创 Scrapy基于CrawlSpider进行全站数据爬取(链家租房信息)

使用CrawlSpider进行全站数据爬取前言:CrawlSpider是基于Scrapy类的一个子类,其主要用作于全站数据爬取。本次训练的网站是【链家】,使用CrawlSpider进行全站数据爬取,厦门的租房-整租信息。(这个训练也不算全站啦~哈哈哈????)点击下载【完整代码】一.前期工作1.创建项目:scrapy startproject 项目名称2.cd 进入项目3.创建爬虫文件:scrapy genspider -t crawl 爬虫文件名 网站域名(xxx.com)4.

2020-10-06 09:43:46 1399 3

原创 最新爬取全网代理IP【隐藏标签混淆+端口加密】(二)

爬取全网代理IP【隐藏标签混淆+端口加密】(二)最新爬取全网代理IP【隐藏标签混淆+端口加密】(一)上一篇文章,我们剔除掉了混淆在其中的隐藏标签,这篇我们讲讲如何对端口进行解密。前言:其实我一开始剔除掉混淆在其中的隐藏标签的时候,以为就结束了(心想:也不过如此嘛),直到我把这些爬取下来的ip拿去验证时,没一个有效,才慢慢发觉其端口有猫腻,居然进行了加密。二、端口解密1.再次造访由于上一回的大意,这回得好好分析下它的网页结构了。直接点,将其响应内容给下载下来(或者在浏览器中查看ur

2020-10-04 13:46:09 570

原创 最新爬取全网代理IP【隐藏标签混淆+端口加密】(一)

爬取全网代理IP【隐藏标签混淆+端口加密】(一)起因:这两天,在学习Scrapy爬取某家租房信息时,被频繁封IP,去网上找免费的代理IP,时间长,还要测试有效性,去购买套餐,又不值得,毕竟只是学习。于是,就打算搭建一个代理池,在网上爬取公开免费的代理IP,并进行维护,做有效性检测。前言:在爬取前几家(西拉代理、泥马代理等)公开的免费代理IP时,都没问题,很顺利的就爬取下来了,但在爬取全网代理时,让我的脚步,一度放慢,为什么呢?【完整代码点击下载】坐好坐好,开始表演啦~~????‍????

2020-10-04 13:32:58 2097 4

原创 Scrapy使用伪装术

Scrapy中伪装UA跟使用代理IP为什么要伪装UA跟使用代理IP问题就直接跳过了,直接进入正题。我们知道,要想伪装UA跟代理IP就要在发起请求时进行拦截,然后更改数据之后,进行重新提交,那在Scrapy中,我们怎么去拦截请求?——中间件(middlewares)这里我们只需要了解中间件middlewares中下载中间件的作用:下载器中间件是介于Scrapy的request <====> response处理的钩子框架我们再看看下载中间件的结构:class CnblogsDo

2020-09-30 15:10:35 1069 4

原创 讲讲Scrapy翻页的那些事

Scrapy翻页的那些事常见的两种是通过分析每页URL或者是请求体发现规律写通用URL跟查找当前页面中下一页面的URL实现翻页!一、通过当前页面获取下一页URL适用于有【下一页】按钮的网站,且能获取到【下一页】URL的。而往往我们获取的下一页URL并不是完整的,那该怎么去补全URL?以下介绍了三种方法 拼接法、补全法、自动识别。【注】part_next_url:是通过xpath获取的部分下一页 url ; self.start_urls[0]:是我们第一次启动爬虫请求的reques

2020-09-26 17:40:35 927

原创 10分钟带你搞定Selenium

Selenium的基本使用一、环境的安装命令:pip install selenium二、浏览器驱动安装这里以谷歌浏览器为例,下载Chromedriver浏览器驱动,地址:https://npm.taobao.org/mirrors/chromedriver下载对应的版本驱动才行,其他的浏览器可以去百度,下载对应的浏览器驱动程序。如何下载对应的版本驱动?(谷歌浏览器)安装浏览器驱动教程直接上图三、开始使用前期工作我们都做完了,那我们就开始编写代码了1.实例化一个浏览器对象

2020-09-25 22:18:18 1373

原创 Scrapy中管道类的使用及如何将数据存储到MySQL数据库

Scrapy中管道类的使用及如何将数据存储到MySQL数据库在Scrapy中,我们知道管道是负责数据的清洗、保存。就是将每一个Item对象进行存储,一般在管道文件中一个管道类对应将一组数据存储到一个平台或者载体中。所以今天的MySQL数据存储跟管道文件就不得不合起来说说了前提条件:安装好了MySQL。没有安装MySQL的可以参考我博文 安装MySQL ,最好就是再安装一个 Navicat 图形化工具,后期操作起来更简单。1.创建一个管道类打开管道文件pipelien.py, 添加一个存储到

2020-09-23 14:30:57 1493

原创 Windows下安装MySQL,小白式图文教程

Windows下安装MySQL,小白式图文教程1.进入MySQL官网1.1点击DOWNLOADS1.2往下滑,找到MySQL Community (GPL) Downloads »点击进入1.3点击MySQL Community Server1.4选择对应的版本,点击Download进行下载,这里我们选第一个在线下载的就行了,第二个没有必要。下载完成后,进行解压(建议放在除系统盘以外的磁盘中,创建一个MySQL文件夹存放,比如我的放在D:\MySQL\mysql-8.0.21-winx6

2020-09-19 21:57:55 1841

原创 python中用remove()为什么删除不干净列表中的多个相同元素

如何删除列表中多个相同元素如题:删除num_list列表中所有的 3 。第一种情况,如果相同的元素不是连续的:num_list=[1, 3, 5, 3, 2]num_list = [1, 2, 3, 3, 3, 4, 5, 5, 5, 3, 3, 3, 6, 11, 3, 7, 8, 9]我看到题目的...

2020-02-29 08:58:26 8324 12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除