自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一只小爬虫的博客

偶尔记录一下工作中遇到的问题

  • 博客(34)
  • 收藏
  • 关注

原创 【AES】四库一平台列表页

接着 在数据包里面打断点,我同事是个老爬虫了 直接打在了APP.js 里面 两下就找到了,我还是中规中矩的打在了最后一个…跟到这个地方,就发现了加密的地方了就是这个b函数 点进去。按照惯例F12 翻页,抓包。这玩意就是加密的地方了。

2024-03-21 16:17:30 421

原创 【URL加密|事件断点练习】某公共资源交易平台

我选择的是下一个事件断点,为什么,因为他新开了一个页面,抓不到包…得出结论 这是一个URL加密的网站,需要逆向他的URL生成逻辑。HRML里面却是这样的,并且这个URL点开之后是404打不开。点击事件断点直接断住了,看样子是加密的地方,单步跟一下。直接秒了 之后就是开始扣代码。详情的URL是这样的。

2024-03-20 15:13:01 286

原创 准备入门python的一些建议

最初我的代码都是从头写到为,全是面向过程,没有面向对象,所有的代码逻辑一团糟。

2023-05-30 17:44:48 1066 1

原创 【python】换源和虚拟环境

打开 appdata 文件夹,在资源管理器的地址栏输入 %appdata% 后回车,找到pip.ini,在配置文件中输入如下内容后保存即可。

2023-05-03 23:18:43 227

原创 【Linux】wine

我的电脑安装的是deepin系统,但是有事需要用到exe程序,记录一下。

2023-04-30 15:13:53 1129

原创 【scrapy】关于scrapy有用的设置

meta添加dont_redirect可以禁止重定向,dont_filter是否过滤。dont_redirect=True # 添加到请求的meta中。这段代码可以通过更改一个配置参数实现测试环境和生产环境的配置。REDIS_HOST redis地址。REDIS_PORT redis端口。‘password’: ‘你的密码’,‘db’: ‘你的数据库’

2023-04-27 17:31:50 255

原创 【RC4 python】猿人学63题解析

刷题刷到一个ARC4加密的东西,记录一下。

2023-04-26 14:15:21 138

原创 【企业微信监控】python发送消息至企业微信群监控

公司要求给爬虫项目添加监控,要求可以检测每天爬虫是否存活和数据流量,我的想法是直接监控爬虫并且通过机器人发送到企业微信的群里。

2023-04-25 15:52:42 537

原创 【JS逆向】DOM断点

最近刷题,刷到一个页面返回的数据是加密的网站,可以通过dom断点快速定位到加密位置,特此记录一下。

2023-04-24 09:25:16 369

原创 docker高频使用命令

docker stop 容器名称 //关闭容器docker rm 容器名称 //删除容器docker rmi 容器名称 //删除镜像docker build -t 容器名称(自己起的名字). // 以当前目录下的工程文件创建容器 注意最后有个点docker run -d --restart=always --name 容器名称 容器名称 // 运行容器docker logs -f 容器名称 // 查看容器运行日志dockers ps -a // 查看所有容器。

2023-04-23 09:22:32 35

原创 回顾我的大学

大一一年 同学和室友都在积极的参加各类社团和各种学生组织,但是我的大一呢 除了正常的上课学习之外 就是在寝室打游戏,甚至因为远离了父母的监督 偶尔逃课,但是当时还是学会了C++(虽然现在早忘了)当时有很多的数学课程 比如令人头疼的高数 看不懂的线性代数 当时这些在我眼中毫无用处的学科 现在成为了我需要用的知识 因为处理验证码和训练神经网络时也许需要用到这方面的数学知识。如果能重来,我想我大三也会这样过吧,毕竟那时的我有足够的危机意识,而且能够安静的去学习。5,大四了,就要毕业了。

2023-04-21 17:10:37 48

原创 五矿集团param加密定位分析

写一篇实战的逆向文章 只提供逆向思路不提供源码只可用于学习研究 禁止商用。

2023-04-21 16:37:39 442 4

原创 python OCR识别中文

今天写脚本的时候遇见了一个点选 必须破解了才能拿到详情页的信息,弄了一上去特此记录一下。

2023-03-31 17:07:32 701

原创 猿人学----内部题库第一题

【代码】猿人学----内部题库第一题。

2022-12-29 14:22:53 140

原创 爬虫脚本ttwid参数

今天研究了搜索引擎的ttwid参数,站点其实不难 就是弄完了有点无语 特别记录一下 这个坑。

2022-10-09 17:37:09 2901 5

原创 WSGI,uWSGI和uwsgi的区别

(图片来源网络)在网上扒拉了一张挺不错的图片来进行总结(只看第二条) 用户通过浏览器访问站点 首先经过nignx服务器 传输到uWSGI服务器上面 再通过WSGI与uwsgi协议(图片有错)传输到web应用上面(网上扒拉的第二张图片)WSGI 是一种协议作用于web server 与web application的传输 --------》是一种协议uwsgi 是uWSGI服务器自带的一种协议 它用于定义传输信息的类型(二进制)--------》是一种协议。

2022-10-03 15:12:46 650

原创 部署到服务器上的pyppeteer定时项目

部门老大 要求使用爬虫抓取对应网站的公司账号的余额 并且能提供一个API供公司内部其他公示网站调用 原本商议每次请求都用爬虫请求一次,但是最好出于账号安全和系统稳定性考虑决定设置一个定时任务 每两个小时抓取一次 数据存放到缓存当中 但是也需要提供接口。第一个难点 需要登录 我首先想到的是逆向,抓包查看逆向登录,开发过程中途也确实是快实现了 但是奈何这个网站的参数太多而且因为整个网站采取的IFRAME标签加载的H5如果要使用requests+逆向个人感觉很麻烦。5、请求iframe的请求路径 获取到H5。

2022-09-26 14:41:33 442

原创 python生成验证码

1、后期需要封装成一个接口 我希望这个接口可以返回图片路径(方便登录成功之后删除图片)和验证码的数值(方便验证 当然也可以从路径当中解析)注意 需要下载第三方库captcha 直接使用命令 pip install captcha。逻辑很简单 数字和字母大小写的列表 然后随机选取4个 用这4个随机码生成一个字符串并且返回。需要传入保存的路径和随机字母 image.write直接生成验证码 最好返回了一个路径。在写个人网站的时候做到登录界面需要使用到验证码登录 写个博文记录一下。这里需要下载一个第三方库。

2022-09-06 14:41:16 933

原创 注意python实例属性

理解实例属性 和变量之间的区别。

2022-08-25 17:36:33 151

原创 python读取excel数据

2、数字会读取为小数 比如电话号码 130xxxxxxxx会读取为130xxxxxxxx.0这种数据会失真 需要特别处理。函数使用到的第三方包为xlrd 版本号为1.2.0 请不要安装过高的版本 过高的版本某些功能不支持。1、对于不同的编码可能出现乱码问题。根据下标和名字来选取。...

2022-08-17 14:09:43 2712

原创 python 闭包

在一些语言中,在函数中可以(嵌套)定义另一个函数时,如果内部的函数引用了外部的函数的变量,则可能产生闭包。闭包可以用来在一个函数与一组“私有”变量之间创建关联关系。在给定函数被多次调用的过程中,这些私有变量能够保持其持久性。我的理解1、一个函数在内部定义了一个函数deff1()deff2()pass2、内部函数f2使用了外部函数f1的变量deff1()deff1()这是我们就可以在外部看到函数f1的私有值num这样的函数就称之为闭包。...

2022-07-28 16:10:14 206

原创 python 小白实现搜索引擎匹配模式

部门需要实现一个匹配规则,例如 输入 格力空调维修 可以检索到格力空调维修电话、格力空调上面维修服务等等 和输入的关键词相关的数据库中的文章 类似于一个搜索引擎的检索模式2、synonyms判断句子相关度传入K1,K2这两个句子 会返回他们俩的相关度 这个方法可以粗略的实现需求,根据需求对返回的相关系数进行判断可以自己设置一个阈值,但是依旧会发生匹配得不够准确的情况,例如 空调维修 和车载空调维修,这并不是希望看到的结果,这种方案可以当做一个备选方案某一天早上 需求方来问这个功能的进度,我当时心

2022-07-08 11:26:27 389

原创 你真的了解了python for循环吗

首先构建一个列表 0-9循环打印删除a列表当中的元素i这些都是没有问题的 但是当我有一个需求 遍历列表 当i等于某些特定值的时候 从列表a中删除元素i比如 判断7 和8是否在列表当中 如果存在 的话 删除列表当中的7和8 我编写的代码如下:看着没有问题吧 但是当我看见输出的时候 我直接宏机了在 print(i)时 8 并没有输出出来 输出7之后 直接输出了9 并且在最后的结果当中8也没有被删除掉在for循环当中 python根据下标读取数据在上面的例子当中数字和下标对应的 但是当

2022-07-06 18:32:54 261

原创 python验证码识别

这是需要处理的验证码的样子 我们需要去除干扰因素来增加OCR的识别成功率(但是最好别照着抄代码,得根据情况自己调整0首先导入需要处理的图片和需要用到的第三方库弄好了可以去除干扰线和干扰因素,但是需要注意别把字母和数字调没了处理之后你的图片只有灰色二值化处理之后非黑即白 需要自己定义全局阈值 当然你也可以选择其他模式处理完之后你会得到这样一张图片:识别结果:咱们当然不会就这样放弃了 咱们要学会下面马上介绍第二种白嫖的方法建议换源一句话搞定还不用自己训练模型 维尔古德...

2022-06-28 18:53:09 1056

原创 scrapy 自定义UA、代理中间件

scrapy框架自定义中间件

2022-06-02 16:05:41 611

原创 某翻译爬虫脚本

某翻译接口调用请求分析输入内容找到请求查看请求参数参数分析参数破解代码编写加密参数完整代码其他问题请求分析第一步,打开开发者工具;第二步在翻译窗口输入待翻译的内容;第三步查看请求输入内容找到请求首先在框内随便输入内容然后查看筛选请求 找到我们需要的接口查看请求参数参数分析“i”: 需要的翻译的内容,“from”: “AUTO”, 输入的是什么语言 这里默认AUTO就好“to”: “AUTO”, 需要翻译成什么内容 这么选择默认 也可以去页面上点击翻译为其他语言查看这

2022-05-27 15:36:40 74

原创 python 迭代器和列表推导式对比

代码import timestart_time = time.time()for a in (i*2 for i in range(100000000)): passend_time = time.time()print(' 生成器 花费时间{}'.format(end_time - start_time))start_time = time.time()for a in [i*2 for i in range(100000000)]: passend_time =

2020-12-30 16:46:41 124

原创 学习笔记-numpy(2)

学习笔记numpy-2布尔索引随机值where方法array数值计算基础运算截断排序操作插入操作布尔索引创建array数组的时候指定dtype为bool结构在上次学习当中,说到array结构会自动向下转换,如果有多个类型的数据可以将类型设置为object随机值num = np.random.rand(x)会随机构建x个数字a = np.linspace(x,y,z)从x开始...

2020-03-29 22:47:04 85

原创 学习笔记-numpy(1)

学习笔记-numpy(1)导入基本操作shape值array数组基本操作导入import numpy as np基本操作对一个列表进行加一操作报错,列表没有这个操作,当使用numpy时,再执行该操作,就不会报错,numpy的底层数据结构为numpy.ndarray结构同时array数组是可以和array数组进行基本的算数操作的,但是shape值(每一个数组的元素个数)必须相同,取数...

2020-03-18 00:11:56 85

原创 python学习笔记-对文件操作

python对文件进行操作对word文档操作运用到的库:docx运行代码的时候发现报错:ModuleNotFoundError: No module named ‘exceptions’之后查询博客成功解决https://blog.csdn.net/huijiaaa1/article/details/80616842用三个不同的类型来表示.docx文件的结构,Document的对象...

2020-03-06 16:58:25 111

转载 python之禅

import thisThe Zen of Python, by Tim PetersBeautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than complicated.Flat is better than nes...

2020-01-10 23:29:08 212

原创 python学习笔记-数据类型

python学习笔记-数据类型欢迎使用Markdown编辑器1类型检测函数type()2空对象(None)3布尔类型 (只有两个值,true或者false4整型5浮点型6复数类型(实部和虚部),虚部用大写或者小写的j表示7数字运算符8数字类型转换函数9浮点型精度处理10 python内置的数字运算函数11列表12元组13字典14字符串15集合欢迎使用Markdown编辑器1类型检测函数type...

2020-01-10 00:06:48 608

原创 一个简单的Ajax加载post请求的爬虫实例)

一个简单的Ajax加载post请求的爬虫实例内容简介![在这里插入图片描述](https://img-blog.csdnimg.cn/20191023161729301.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80N...

2019-10-23 17:17:10 1694

原创 一个简单的python爬虫实例

用爬虫爬取重邮教师信息结果展示代码实现主网页分析教师界面分析主要代码分析后记结果展示由于数据量比较大,我结果只截取了一部分。代码实现import requestsfrom requests.exceptions import RequestExceptionfrom lxml import etreeimport jsonimport timedef get_url(num)...

2019-09-03 22:36:43 1344

python爬虫UA大合集

适合于python爬虫工程师,可以使用随机的UA请求头,包含web端各大浏览器常用版本的UA 一千多个,可以放入高效伪装浏览器,防止被服务器识别,UA很常见但是这个合集有一千多个!!!

2023-05-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除