- 博客(4)
- 收藏
- 关注
原创 爬虫的技术问题
爬虫的技术问题一、JS加密如何突破熟练掌握 Chrome 的开发者工具的各个功能,Elements,Network,Source认真观察,善于思考,Network 查看加载流程,找可疑的 xhr 请求,设置 xhr 断点,通过 CallStack 回溯 js 执行过程,边回溯便查看上下文代码。能读懂 js 代码,知道 js 的相关知识,比如 js 里面的 window 变量以上是通过 debug js 找到 js 加密解密的代码,然后通过 Python 重新实现,这个过程很长,可能消耗你几天的时间,
2021-08-26 17:35:35 806 1
原创 python execjs 执行报错 ‘gbk‘ codec can‘t decode byte 0xad in position 208: illegal multibyte sequence
点击进入如图中箭头方向进入subprocsee.py文件将encoding=None 修改为encoding = "utf-8"
2021-07-29 15:00:34 219 1
原创 记录 python 逆向 登录某fang网站
目标网站:链接:https://passport.fang.com/?backurl=http%3a%2f%2fmy.fang.com%2fHead%2fLoginOut.do如图 通过关键字pwd 搜索可查看js的加密方法,通过分析,并通过 execjs (pip install PyExecJS) 第三方库模拟执行js函数, , 徐创建一个js文件来执行具体代码如下:import execjsimport requestsuseaname = "帐号...
2020-09-03 18:08:05 557
原创 Scrapy原理
1、Scrapy Engine(Scrapy引擎)Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。2、Scheduler(调度)调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。3、Downloader(下载器)下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。4、Spid...
2018-07-06 15:57:31 518
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人