自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_41641028的博客

原创【模拟登陆】—如何用验证码平台获取验证码来模拟登录

模拟登录：1.用开发这工具检查headers请求头是否携带cookie请求头2.使用图鉴平台获取验证码text3.登陆参数是否为动态加载数据

2023-03-22 22:32:28 137

原创【requests的高级用法—代理池】

有些时候，需要对网站服务器发起高频的请求，网站的服务器会检测到这样的异常现象，则会将请求对应机器的ip地址加入黑名单，则该ip再次发起的请求，网站服务器就不在受理，则我们就无法再次爬取该网站的数据。使用代理后，网站服务器接收到的请求，最终是由代理服务器发起，网站服务器通过请求获取的ip就是代理服务器的ip，并不是我们客户端本身的ip。高匿：网站服务器不知道你使用了代理，也不知道你的真实ip（推荐）透明：网站的服务器知道你使用了代理，也知道你的真实ip。proxies={'代理类型':'ip:port'}

2023-03-13 23:50:04 242

原创【requests的高级用法】

Cookie什么是cookie？cookie的本质就是一组数据（键值对的形式存在）是由服务器创建，返回给客户端，最终会保存在客户端浏览器中。如果客户端保存了cookie，则下次再次访问该服务器，就会携带cookie进行网络访问。典型的案例：网站的免密登录。

2023-03-12 23:01:05 49

原创用xpath解析批量下载简历模板

【代码】用xpath解析批量下载简历模板。

2023-03-11 23:15:38 122

原创用xpath解析爬取热门城市和全部城市的名称

将返回的html字符串转换为lxml.etree._Element对象。此外，热门城市和全部城市的名称都是包含在。标签中的，所以可以使用xpath管道符'|'来合并解析热门城市和全部城市的代码。使用xpath时需要使用。

2023-03-11 19:53:38 95

原创用xpath解析爬取多页图片案例讲解

2.调用etree对象的xpath方法结合着不同形式的xpath表达式，进行标签定位和数据提取。1.创建一个etree类型的对象，然后把即将被解析的页面源码数据加载到该对象中。切记:xpath表达式中不可以出现tbody标签，如果有直接将其删除跨过即可！环境安装：pip install lxml。html中的标签是遵从树状结构的。xpath表达式如何理解？xpath解析的编码流程。

2023-03-11 16:25:18 257

原创【批量爬取代理网站数据】

由于请求获取页面的过程需要时间，而代码是同步执行的，即在请求获取到页面内容前代码不会继续执行，所以需要等待一定时间，才能确保页面的内容已经被加载完成并返回。放在请求发起之后，让程序等待一段时间，确保页面已经被完全加载，然后再对页面内容进行解析。来让程序等待一段时间，从而确保请求返回页面的内容已经完全加载。需求：将前5页的所有id和port解析且存储到文件中。注意：解析前，先检查是否是动态加载数据。1.请求获取到主页的页面源码数据。3.将解析内容进行持久化存储。在这个案例中，我们可以将。

2023-03-11 01:43:50 88

原创抓取千图网图片

- 概念：就是将爬取到数据中局部的指定的数据进行提取- 作用：实现聚焦爬虫- 数据解析通用原理： - html是用来展示数据，html中展示的数据正是我们要爬取或者采集的数据 - html所展示的数据/想要爬取的数据只会存在于标签之间或者标签的属性中 - 数据解析的通用原理： - 标签定位 - 提取标签中存储的数据- 聚焦爬虫编码流程 - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储

2023-03-09 20:56:07 174 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除