自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 【Python微信机器人】第一篇: 在windows11上编译python

我打算写一个系列,内容是将python注入到其他进程实现inline hook和主动调用。本篇文章是这个系列的第一篇,后面用到的案例是注入python到PC微信实现基本的收发消息。文章着重于python方面的内容,所以对于微信找收发消息的call不会去讲过程,有兴趣的可以直接百度搜PC微信逆向。

2023-11-23 17:11:43 136

转载 centos服务器搭建代理

买了两个腾讯云的学生机,一直放着没什么用。以前将jupyter配置在服务器上,感觉还不错。但这也太浪费服务器了。于是就像搭建代理供爬虫使用,遇到一些坑,记录一下。第一步(说明一下,这里无法使用vi,因为是内存中的文件)# 确认服务器端ip_forward转发开启echo 1 > /proc/sys/net/ipv4/ip_forward# 查看是否设置成功, 如果修改成功会有net...

2019-05-23 09:16:26 1344 1

转载 manjaro初体验

笔记本使用Windows时间长了以后发现越来越卡了,使用体验贼差。个人觉得我使用电脑的习惯还是可以的,对文件分类很明确,软件也使用一个单独的盘来装,将所有自启动都关了等。但还是顶不住电脑卡的问题,百度找大神发现一堆重装系统、买内存条加固态硬盘等,这说了和没说一样,当然有经济条件的话升级一下配置体验会更好。于是就想着折腾一下Linux(最初我也想过双系统的,但是好像还挺麻烦,反正我就使用笔记本敲敲...

2019-05-23 09:16:15 339

转载 拉勾cookie解析(2019-05-20更新)

最近在爬拉勾,遇到一些问题,给后来的小伙伴总结一些经验。这里我们只谈技术,不谈代码。如果不是为了学习经验的话,还请移步百度。首先说一下拉勾的反爬:IP频率限制,头信息限制,cookie时时验证。IP频率限制:这是最常用,也是最有效的反爬机制之一,并没有测试拉勾的爬取阈值是多少。有兴趣的可以自己去测一下。头信息限制:拉勾对头信息的要求很高,如果你的头信息不全,会得到302或者无法访问的情况,...

2019-05-23 09:16:03 788

转载 scrapy爬取实习僧全站

最近想爬一下各大招聘网站来分析一下,首先我们从实习僧开始。首先我们打开首页分析,我需要的是整站的数据,所以就需要将所有的分类都爬下来,如果你只是想分析某一个行业的数据,实习僧的接口也非常简单。https://www.shixiseng.com/interns?k=%s&p=1 ,这里k就是搜索关键字了,p是页码。我们需要获取的是包括IT互联网到媒体设计的所有分类下的链接。都在网页源...

2019-05-23 09:15:46 280

转载 字体反爬之实习僧

字体反爬是爬虫不可避免的一道关卡,因为这是成本比较低,而且效果还不错的一种方式。今天我们先看看实习僧的字体爬虫怎么破解。首先我们先随便搜索一个职业,https://www.shixiseng.com/interns?k=数据库&p=1。F12查看源码发现,职业的某些汉字字母和所有数字都是框框,这基本可以确定使用了自定义字体。这里可以看到li标签有一个font属性,点击一下这个标签,右...

2019-05-23 09:15:29 285 1

转载 scrapy使用心得(入门教程)

scrapy官网:https://doc.scrapy.org/en/latest/topics/settings.html基本上没有什么教程可以媲美官方文档的,所有的教程不过是在解读官方文档。所以,如果你有耐心的话可以自己看官方文档。使用谷歌浏览器自带的谷歌翻译可以看得懂,不像python官方的文档,机翻出来基本天书。关于各组件的功能,我觉得这个博客写的很好。可以看一下https://www...

2019-05-23 09:15:13 124

转载 异步代理池

前言我们从代理商买了代理后,代理商提供的接口返回的代理其实可用率还是值得深思的。如果你有钱,买的是代理商自建的代理,那可用率很高,也就不需要使用代理池筛选了。如果像我这样的学生党,只能买得起测试级别的代理,这种代理一般是代理商扫描出来的,可用时间和可用率可想而知,这样就需要一个代理池筛选出有用的代理并提供接口给爬虫。既然只是为了测试代理的可用性,那么asyncio+aiohttp再合适不过了(...

2019-05-22 09:34:14 92

转载 B站视频下载

看B站的时候,有时候看到很喜欢的总想下载下来,虽然APP里提供了下载,但奈何下载的格式不知道是什么格式,无法在其他播放器里看,于是就想下载到电脑本地播放。当然,就目前而言,WiFi和流量其实足以替代大部分硬件存储。所以这个需求不是很高,只是个人爱好。那么什么视频是可以下载,什么视频不能下载呢?可以这么说:只要你能在网页观看的视频,都是可以下载的,因为你的浏览器接受到了视频文件才能播放,而我们只需...

2019-05-22 09:33:25 917

转载 抓取B站所有用户信息

有时候没有实际需求,那学习就只能从爱好入手了。目前我所想到的一些感兴趣的任务有:B站所有用户B站视频下载B站弹幕和评论分析虎牙和斗鱼直播视频和弹幕实时获取网易云评论获取和分析招聘网站全站爬虫和分析CSDN关注所有与Python有关的博主第三个就有点意思了,弹幕和评论是可以知道是谁发的,那么当你有了B站所有弹幕和评论的时候,你就可以从一个人发的弹幕和评论分析这个人的性格特点,不...

2019-05-22 09:32:33 8115 3

转载 数据操作基础库numpy-下(常用函数)

数据操作基础库numpy-中一、numpy常用函数1、读取矩阵文件和保存二维数组矩阵文件:由若干行若干列的数据项组成,每行数据的项数必须相等,每列数据项的类型必须相同,而且数据项之间有明确的分隔符。比如列数据类型相同的CSV文件。numpy.loadtxt(fname, dtype=<class ‘float’>, comments=’#’, delimiter=None, c...

2019-05-22 09:31:40 493

转载 服务器搭建jupyter notebook环境

目的:访问服务器IP(或者域名)可以在浏览器使用jupyter notebook,这样换一个电脑也能测试一些简单的代码(复杂的代码还是重新安装第三方包吧),用来学习测试一些第三方库别提多方便。jupyter notebook:一个在浏览器运行的编辑器,非常好用。效果图:以下是针对Ubuntu16的服务器,其他的可能有部分区别。第一步,下载anaconda3:wget https://r...

2019-05-22 09:30:51 415

转载 数据可视化Matplotlib-下

上一篇:数据可视化Matplotlib-中提示:为了避免文章过长,代码全托管到码云,直接点超链接就可以看到和下载。import matplotlib.pyplot as mp16、网格线ax = mp.gca()ax.grid(which=刻度类型,axis=哪个轴,linewidth=线宽,linestyle=线型,color=颜色)which:主次刻度,major/minora...

2019-05-22 09:30:09 137

转载 数据可视化Matplotlib-中

上一篇:数据可视化Matplotlib-上import matplotlib.pyplot as mp提示:为了避免文章过长,代码全托管到码云,直接点超链接就可以看到和下载。10、刻度定位器ax = mp.gca()ax.xaxis.set_major_locator(刻度定位器) # 主刻度ax.xaxis.set_minor_locator(刻度定位器) # 次刻度常用 刻度定...

2019-05-22 09:28:56 227

转载 数据可视化Matplotlib-上

提示:为了避免文章过长,代码全托管到码云,直接点超链接就可以看到和下载。import matplotlib.pyplot as mp1、mp.plot(x, y, linestyle=线型, linewidth=线宽, color=颜色, …)功能:将x,y数组对应的值组成坐标上的点依次连接,如果xy都只有一个值,则是一条线段,xy是包含多个值的一维数组,则是很多条线段。线型: - / –...

2019-05-22 09:27:18 130

转载 数据操作基础库numpy-中

数据操作基础库numpy-上一、创建数组1.arangea = numpy.arange(0, 16)# 生成0-16的数组b = numpy.arange(0, 16).reshape(4, 4)# 生成一个4x4的数组,数据为a的数据a.shape = (2, 2, 2, 2)# 修改a的维度为(2,2,2,2)a.shape = (2,-1,2,2)# -1表示自动计算该...

2019-05-22 09:24:58 143

转载 数据操作基础库numpy-上

numpy:数据分析和机器学习的底层库,完全由C语言实现,用于高效的操作数据。而且是开源的,经过了很多大牛的完善。numpy.ndarray(numpy数组):由实际数据和元数据组成,实际数据必须是数据类型相同的数据集,元数据则是存储数据的维度和长度。例如:a = [[2 3] [4 5] [6 7]] 的实际数据是2 3 4 5 6 7,元数据(a.shape)是(3,2),不加逗号是为了区...

2019-05-22 09:15:54 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除