徐尚-CSDN博客

原创文字验证码处理-超级鹰打码平台示例

一：使用超级鹰需要注册账号并购买题分（10块钱一万分）超级鹰官网地址http://www.chaojiying.com/二：示例代码import requestsimg_pth=r"C:\Users\ThinkPad\Desktop\2.png"im = open(img_pth, 'rb').read()files = {'userfile':im}params = { 'user': 'xxxx', #你的平台用户名 'pass':'xxxx', #你的平台密码

2020-06-02 16:07:45 1014

原创 python常用函数与基础数据结构

整数转二进制bin(3)'0b11'列表推导式s='255.255.255.32'.split('.')print(s)print([bin(int(i))[2:] for i in s])print(''.join([bin(int(i))[2:] for i in s]))['255', '255', '255', '32']['11111111', '11111111', '11111111', '100000']111111111111111111111111100000

2020-06-01 18:27:33 213

原创微博爬虫一（Selenium）

背景一般企业做舆情分析，新浪微博是必不可少需要关注的。看看有没有负面消息尽早介入处理。人工查找筛选这些信息显然效率不够高，不够智能；毕业以后，很少主动去关注母校的一些情况。借学习爬虫的机会，看看母校最近发生了什么。目标如下图，准备爬取母校微博账号【南京师范大学】近期发布的内容与互动情况。爬取的数据包括：微博发布的时间；微博的文字内容；图片信息（URL）；转发数量；评论数量，评论人ID与评论内容；点赞数量探索下拉网页，可以看到微博内容是Ajax动态加载的，细心探

2020-05-14 21:40:45 1281

原创 python爬虫进阶-滑块验证码破解（bilibili）

目标如下图，利用selenium模拟拖动滑块完成验证关键问题我们知道selenium可以定位到用户名和密码，用send_keys可以实现输入账号密码。同样我们可以用selenium定位到滑块，用click_and_hold方法可以实现拖动滑块。关键问题是：1）如何计算滑块拖动的距离？2）知道了滑块拖动的距离后，如何设计路径，使得浏览器操作更像人而不被识别出来。思路1）滑块拖动距离...

2020-05-03 21:14:21 3195

原创 Python爬虫-头条街拍（Ajax处理）

目标爬取今日头条街拍内容中前20组照片（如下图），保存至本地网址：https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D探索1）通过request.get方法解析出来的文本中，无法获取任何图片信息；2）F12打开开发者模式，选择Network，再选择XHR，将左侧网页的滑块往下拉，可以看到有相似标题内容陆续被加载出来（Aja...

2020-05-01 21:07:47 567

原创 python爬虫进阶-突破字体反爬虫

目标：爬取论坛上的整篇文章，如下图所示：网址：https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23问题描述：1）如下图所示，审查元素中一句话被拆分成好几段，而且个别文字被神秘符号代替了，比如【人生中的】的“的”，和【第一台】中的“一”，在审查元素中搜索“font-face”，“ur...

2020-04-30 15:59:47 538 2

转载 aiohttp 简易使用教程（转发）

0. 前言本文翻译自aiohttp的官方文档，如有纰漏，欢迎指出。aiohttp分为服务器端和客户端，本文只介绍客户端。由于上下文的缘故，请求代码必须在一个异步的...

2019-12-30 16:41:36 922

原创 Python爬虫之豆瓣排行榜（正则表达式)

Python爬虫之豆瓣排行榜（xpath)1. 网页分析1）使用Chrome浏览器打开网页https://maoyan.com/ ，切换到【榜单】，【TOP100榜】2）网页翻到最后，点击“下一页”，发现网址变成了“https://maoyan.com/board/4?offset=10”；再点击下一页，网址又变成“https://maoyan.com/board/4?offset=2...

2019-12-26 12:26:08 1037

weixin_45042620的博客