- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 selenium 实战之 A级纳税人信息
预前分析抓取A级纳税人信息主政府主站: http://hd.chinatax.gov.cn/nszx/InitCredit.html主站反爬措施比较严格,封禁IP 比较严重,尝试后,无法全部抓完所有数据改为抓取各城市分站例如: http://beijing.chinatax.gov.cn/bjswj/index.shtml通过selenium 模拟的方式抓取,话不多说,直接上代码抓取方式通过selenium + 输入指定页数的方式来获取第一步: 先获取第一页数据+ 总页数信息第二步:根据
2022-04-18 17:08:44 599 5
原创 安装 pyspider 遇到的常见报错问题解决
场景:windows 下 安装pyspider安装环境win10 64位python版本: 3.8.1pyspider版本:0.3.10问题1:提示async 关键字问题这个是网上答案比较多的一个问题,主要是python版本在3.5以后,将async 和 await 作为了关键字导致File “c:\users\one\appdata\local\programs\python\python38\lib\site-packages\pyspider\run.py”, line 231a
2021-09-01 14:15:20 873
原创 fake-useragent 使用报错fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached
fake-useragent 库的作用不用多介绍了吧!! 相信大家都了解这个库,即能返回一个随机的ua请求头(当然自己也可以实现这个库的功能)好了,话不多说,出现这个错误的情况下,有以下几种解决方案1. 禁用服务器缓存from fake_useragent import UserAgentua = UserAgent(use_cache_server=False)还是无效2. 不缓存数据,不使用ssl 验证from fake_useragent import UserAge.
2021-07-14 11:14:52 985
原创 2020.8.31,文书网又更新啦,这次直接加入了登录后才能查看。
文书网自上线以来一直是大家热衷于攻坚的网站。我因公司的业务,也爬取了该网站,再爬取一段时间后,获得了大概30w的数据,发现文书网又更新了2020.08.31-----可以看到文书网直接显示需要登录后才能查看,登录操作以使用代码模拟成功。返回success{'code': '000000', 'data': None, 'message': '操作成功', 'success': True}但是问题来了,登录成功后,后续的操作不知道如何进行,分析不出来登录后的哪些东西是后面获取数据需要的。
2020-09-09 09:47:35 4758 3
原创 豆瓣电影网API,2020.08.20日更新
网上找到的douban api,目前老版本的接口 http://api.douban.com 已经都失效了最新的API只需要将 http://api.douban.com 替换为 http://t.yushu.im 即可## 豆瓣API 说明新版本接口已由 http://api.douban.com 更改为 http://t.yushu.im#### 正在热映接口示例```python#老版http://api.douban.com/v2/movie/in_theaters?.
2020-08-21 09:10:33 4712 15
AMap_adcode_citycode.xlsx
2020-08-21
武汉地图数据mapinfo
2016-10-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人