自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

triangle的技术博客

你不勤奋老板都不拿你当人看

  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy-splash学习

材料清单dockerscrapy当我们经常遇到js加载的页面,用scrapy来抓取其实挺麻烦的。Splash是做来加载渲染后的页面,可以支持scrapy使用。由于Splash和Scrapy都支持异步处理,而Selenium的对接过程中每个页面渲染下载过程是在Downloader Middleware里面完成的,所以整个过程是堵塞式的,Scrapy会等待这个过程完成后再继续处理和调度其他请求...

2019-09-30 18:26:21 388

原创 pycharm解决关闭flask后依旧可以访问服务

这种问题一般是退出flask服务时选择了disconected而不是选择terminate,dicconected是一种伪断开,只是在pycharm这里中止了,但是python解释器依旧在运行这个服务。默认选项是ask,但是一般情景下,我们退出的话应该是关闭程序,而不是缩小化到托盘,所以更改上图的默认设置为退出该进程。如果已经手贱点了disconnect,那么一种好方法是直接在任...

2019-09-04 09:10:09 17305 1

原创 python一些常用代码块

centos下 python3无法print中文UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-10: ordinal not in range(128这类问题多来源于python控制台的编码问题,进入python环境>>> import sys>>> s...

2019-07-18 08:55:31 345

原创 阿里系纯滑块验证码破解思路

本文旨在经验交流,如若侵犯利益,请联系删除。组团购买阿里云2019.09.10下面的例子已经改为阿里的人机认证了,但是其实用selenium启动浏览器后,依旧可以用pynput来操控键鼠来完成模拟操作,单纯调用send_keys()和click()都会被识别出来了。webdriver参数太多了,有兴趣的可以考虑puppeteer来实现。阿里系滑块验证码以nc_1开头,通过调用XXX...

2019-06-21 09:36:30 39966 23

原创 python代理池搭建

熟悉爬虫的,必定会熟悉各种反爬机制。今天就讲一下自己如何建立ip代理池的。一个合格的代理池必须拥有一个爬取代理IP的爬取器、一个验证IP可否使用的校验器、一个存储IP的数据库、调用这些的调度器以及可以供获取IP的接口(这里推荐flask,比较简单)。先来说说爬取器,首先要爬取的代理IP网站尽量是无需登录的,其次是对代理IP更新较快的,前者加快代理池的效率,后者增加代理池的质量。这里我对市面...

2019-05-06 14:34:20 6735 4

原创 关于scrapy的验证码处理

之前用scrapy爬取网页时经常出现需要验证码,但是返回的是个response对象,不知道要如何进行破解。以往都是selenium进行截图验证码,模拟拖动,但是scrapy在yield请求后就直接走了,不知道如何下手。百度了一圈,后面发现原来大家都是靠中间件来完成突破验证码的首先经过爬虫的话,要处理请求的话应该调用DownloaderMiddleware里的process_req...

2019-04-23 21:44:20 2968

原创 python关于验证码

对于爬虫而言验证码是一定要经过的坎,对于网站开发而言,验证码有着大量生成方法,网站开发者为了应对爬虫以及方便用户阅读,都会有自己的一套方法。这里介绍了python PIL生成验证码的一种通用方法。import randomfrom PIL import Image, ImageDraw, ImageFont, ImageFilterimport numpy as np_letter_c...

2019-04-20 16:46:48 160

原创 scrapy+selenium爬取淘宝商品信息

本文仅作经验分享,不做商业用途,如涉及权利问题,请通知删除。scrapy+selenium爬取淘宝商品信息建立scrapy项目对目标网站进行分析selenium模拟登录合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTe...

2019-04-11 19:11:46 3784 12

原创 Selenium EC 与 Wait

爬虫经常出现错误,多半是没等待控件加载出来。利用selenium虽然方便,但是还是需要控制一下等待时间。Selenium有两个常见的模块来控制等待。EC(expected_conditions)EC作为预期条件,经常与util()和util_not()连用。这是EC的16个方法#这两个条件类验证title,验证传入的参数title是否等于或在driver.title中EC....

2019-04-05 09:46:55 4481 1

原创 爬取Django 绕过csrf实现批量注册

本文只是提供一些经验,实际情况下因地制宜。自己做了个Django项目,缓存用的是redis,部署到云服务器上,想要通过爬虫自动化注册账号。话不多说,一步步做。首先要准备账号数据,chorme利用ctrl+shift+i看一下注册提交的是什么数据。因为post提交有个csrf验证的东西,还有个验证码,这个我们先不管,先把其余数据处理好。当然也可以做成json格式,这里用的是...

2019-03-25 13:09:19 697

原创 Django 数据传递 个人汇总贴

后端到前端普通的字典传递exam_list = ExamList.objects.filter(id=exam_id)title = exam_list[0]return render(request, "exam/exam_question.html", {"title": title})对于queryset对象可以通过[索引进行]取值 <div class="he...

2019-03-23 22:51:43 222

原创 python bytes和str转换

bytes 转换为 strstr(b,encoding="utf-8")str(b,encoding="gbk")encoding中写的是原来byte变量的编码什么类型的编码的字节就要转换成什么类型的编码的字符串通过import chardetret = chardet.detect(变量)可以查看原有变量的编码类型enncoding或者...

2019-03-21 14:19:04 113544 1

原创 Centos7 登录mysql 出现mysql.sock不存在

记一次纠错大战本来今天开开心心地部署nginx和uwsgi到我的Django服务器,刚想给老师演示一遍我这项目如何酷炫时,一登陆就出现mysql连接不上了(2003, "Can't connect to MySQL server on 'localhost' ([Errno 111] Connection refused)")19-04-15百度云作妖,不知啥问题,重启一下就行了...

2019-03-15 21:19:24 1779

原创 CentOS7 + Django2.1 + uwsgi + nginx配置

假设已经可以运行Django项目,可以runserver。也已经安装了uwsgi和nginx现在需要进行配置。刚开始进行uwsgi测试就不行,提示bash:‘uwsgi’ Command not found执行如下命令增加软链,可以解决uwsgi找不到的问题,不过使用的是uwsgi3命令ln -s /usr/local/python3/bin/uwsgi /usr/bin/uws...

2019-03-15 11:29:51 282

原创 python3 爬取搜狗微信的文章

目标地址:http://weixin.sogou.com/weixin?这个地址是搜狗微信的文章搜索,可以搜索到微信的文章,而我们目标就是这些文章内容这个url经过测试,当我们没登陆微信只能看到10页的内容,我们登陆后才可以查看100页的内容,而且翻页多次会出现ip检测的反爬机制,出现302重新跳转到验证码输入页面,输入验证码后才可以继续浏览网页于是我们就利用代理池来解决这个反爬。...

2019-03-10 21:25:05 3998 4

原创 win10 64位 安装scrapy

在学习python时,不可避免下载了Anaconda,当我打算写爬虫时,urllib,requests,selenium,pyspider都已经安装好了,可以直接使用了,但是有一天我想要使用scrapy模块时,发现竟然没有安装,于是自己参照网上教程写下win64安装scrapy步骤:1.升级pippython -m pip install --upgrade pip2.安装whe...

2019-03-08 17:24:31 255

原创 requests+正则爬取猫眼电影前100

最近复习功课,日常码农生活。import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonfrom multiprocessing import Pool#requests.get()调用完记得抓异常def get_one_page(url): try: ...

2019-03-01 22:14:43 216

原创 Django forms表单 select下拉框的传值

今儿继续做项目,学习了Django的forms生成前端的代码。forms.pyclass SignupForm(forms.Form): username = forms.CharField(validators=[user_unique_validate, username_rule_validate, ], required=True, ...

2019-02-26 21:47:29 5733 1

原创 更改静态图片后,前端依旧显示之前的图片

今天做Django的时候改了一个图片,然后runserver后还是原来的图片,查看了原来配置静态文件的地方,发现没错STATIC_URL = '/static/'STATICFILES_DIRS = ( os.path.join(BASE_DIR, 'static'),)后面在更改其他的图片发现也是之前的。最后,发现是浏览器缓存搞的鬼,清楚缓存后之前的图片就不会出...

2019-02-23 15:12:58 2503 1

原创 阿里云远程连接CentOS

1.购买一个CentOS的ECS服务器;2.修改安全组,开放SSH/22的端口号;这里是22/22为SSH连接的端口号;3389为远程桌面的默认端口号3.利用xshell或者SecureCRT连接用公网IP进行SSH连接然后新建连接,用户名如今默认为root,SSH密码是实例密码,不是远程连接密码...

2019-02-20 20:10:12 2185

原创 Python 知识小tips

python进制转换函数:二进制转换成十进制:v = “0b1111011”    # int(v,2)十进制转换成二进制:v = 18                   # bin(v)八进制转换成十进制:v = “011”               # int(v, 8)十进制转换成八进制:v = 30                   # oct(v)十六进制转换成十进制:...

2018-11-23 16:04:01 108

原创 探索微信小程序之路

记录一下每日的知识点,时不时温习一下。 视图与渲染对于页面中的数据,以json的方式存放在js文件的data中 判断的使用:&lt;view wx:if='{{true}}'&gt; 为真时显示&lt;/view&gt;&lt;view wx:else&gt; 为假时不显示&lt;/view&gt;根据判断语句的真假来判断是否要显示内容。也可以在data...

2018-07-23 12:24:52 209

原创 Unable to instantiate Action, xxxAction, defined for 'xxxAction' in namespace '/'xxx

最近写SSH2的项目时,遇到一些小问题,action得不到service实例,遂将struct2委托给spring进行管理,然后修改了bean的id和action的class,但是运行后发现找不到action.报了这个错误Unable to instantiate Action, roomtypeAction,  defined for 'roomtypeAction' in namespace ...

2018-06-30 21:25:42 2375 1

原创 [小技巧] 对日常文件处理的小技巧

对于想要删除文件时弹出找不到该文件,并且查看属性时该文件0字节。今天要删除一个东西死活都删除不了,提示这个文件位置不对,后面打开属性又发现是0字节,但是这文件又能打开,感觉束手无策后寻求度娘帮助,于是乎找到一个好技巧。新建一个文本文件,在其中输入如下内容,DEL /F /A /Q  \\?\%1RD /S /Q \\?\%1将此文件文体后辍修改成“bat”批处理文件。然后把想要删除文件拖到这个批处...

2018-06-14 21:08:05 184

selenium爬取矢量图

小白用selenium爬取视觉中国的矢量图,可以用作素材收集。简单实用的小爬虫。

2018-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除