自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 [jQuery]可输入下拉框样例

选择:<input list="select_code" placeholder="输入&下拉" value="" class="select"/> <datalist id="select_code" class="select_code"> <option value="111"/> <opti...

2020-04-08 10:35:08 899

原创 [docker]unauthorized: authentication required

检查登录状态docker logout [addr]docker login [addr]我日常用私有库,所以在login/logout时要加仓库地址,login时要输入账号密码。测试docker pull有没有问题,pull如果没问题说明认证已经通过。如果push还是报这个错误,基本确定是超时,docker push连接默认5分钟,超过时间也报unauthorized的错误...

2020-02-04 11:52:02 5604 2

原创 1688图搜API

需求:电商业务找同款货源,爬虫业务找相似商品等准备条件:http代理IP池(必要)第一步:先简单封装一下requests模块,能在主要逻辑里少写几行代码。代理IP池是必须要有的,阿里系包括1688、淘宝都对IP做了请求的限制,单位时间内超过一定次数会弹出登录,自动登录是另一码事儿,这里不解决。class myRequests: headers = { 'use...

2019-10-09 11:59:25 1503

原创 python-十进制转任意进制

def func(num, conversion_num): ''' :param num:要被转换的十进制整数 :param conversion_num:要转换的进制,整数 :return: 转换后的结果 ''' a = "0123456789abcdefghijklmnopqrstuvwxyz" res = '' if num...

2019-07-17 15:58:20 2230

原创 sql——手机号码归属地、身份证前六位归属地、省市区级联

欢迎自取,什么C币不C币的,提钱伤感情,下载完直接在mysql上执行就好手机号码归属地:运营商不包括,但是匹配了前7位链接: https://pan.baidu.com/s/1MgTaoz84j0XhzBDo2grnOQ 提取码: cfeq身份证前六位归属地:包括了曾经已经取消的行政区划,比较全链接: https://pan.baidu.com/s/1o3UHh4qspj...

2019-05-20 14:37:38 4993 10

原创 爬虫——记一次奇妙的异步请求爬取

公司的需求,爬取某某查的企业信息,为防止律师函,全文不提该友站名称。这篇文章主要讲的是一个反反爬的思路,初学者爬数据过程中遇到问题也别慌,开发过程中没有灵异事件,所有奇怪的结果都是有原因的,塌下心来一步步捋顺,毕竟反爬的措施也是人写的。也许这篇文章比较长,但是也别怕,图片较多。获取异步响应的数据是很常见的事,为什么把这次单拿出来分享呢,听我娓娓道来。某查的反爬真是酸爽,这次我遇到的反爬过程...

2019-05-17 11:50:02 1613 1

原创 selenium使用chrome驱动,关闭页面后进程还存在

在工作中,我需要用到selenium进行登录,偶然发现进程中有很多chrome浏览器的进程类似这样几个月前的快要上百条,包括了chromedriver(浏览器驱动),还有browser(浏览器)虽然CPU和内存的使用可以忽略不计,但是这么挂着也相当辣眼睛。错误定位比较快,看了一下webdriver.close()的源码,发现还有个.quit()方法: def close(sel...

2019-05-08 16:54:12 5290

原创 爬虫必备——ProxyPool代理池

这几年流行微服务,好处很多,比如解耦:各个功能原子化,互不干扰;比如开发更规范:自己管自己的项目,出了问题容易找到责任方。这里给大家分享一个代理池的服务,用的是收费的蘑菇代理,比较过全网的代理IP这家还算良心。首先我确定了几个功能:随时获取代理IP; 为了应对并发和网速等实际问题,我需要获取独占IP,不和其他客户端共享这些IP; 更新代理池; 修改代理池中IP数量; 开启/关闭自动...

2019-04-30 14:40:52 2031

原创 分享一个flask高并发部署方案

python作为服务端语言来说还是比较吃力的,毕竟不像java有那么完善的解决方案。这里分享一个用flask+gunicorn+gevent来实现高并发的后台。代码只是一个功能的抽象表达,只不过刚好可以在计算机上运行而已,所以这个项目结构很多地方是可以个性化修改的,我这里只是展示了我的用法。关键词:python、flask、restful、gunicorn、gevent项目地址:https...

2019-04-28 17:27:11 31430 7

原创 flask-csv实际使用浅谈

一个接口写好了,开发小伙伴们可以直接调用响应到json数据,但是运营老板们都是看不懂json的,他们只要Excel,python操作Excel也是可以的,比如常用的xlwt,xlrd,分别是写和读Excel,不过用起来比较麻烦也是真的。此时想到了csv格式的文件,而且查了一下flask响应csv有开源的模块,nice。附上地址:https://pypi.org/project/Flask-CS...

2019-04-02 12:12:42 2091 2

原创 docker几个最基础的命令

我是docker初学这,命令用的是最浅的,满足个人基本使用,继续学习继续往里加。镜像和容器我个人的理解:实际操作中,操作的是容器,但是流通过程中是镜像在运动,比如push和pull,是镜像在上传和下载登陆docker login -u [用户名] 回车后再输入密码查:docker images 查看现有所有镜像docker ps 查看正在运行的容器docker ps -a 查看所...

2018-08-02 12:08:24 133

原创 python3使用smtplib发邮件被退回

背景:公司自己的邮件服务器,不支持ssl退回信息:This is the mail system at host mail.*****.net.cn.I'm sorry to have to inform you that your message could notbe delivered to one or more recipients. It's attached below.F...

2018-07-13 11:03:32 3451 1

原创 centos6.9配置python3.6.4,mysql5.7,git

安装Python3.6.41.进入src[root@localhost /]# cd /usr/local/src2.安装python依赖包[root@Python src]# yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make3...

2018-06-28 15:25:27 150

原创 Scrapy框架的去重机制

今天在做了个练习,爬取一个新闻列表页的所有新闻内容。在爬取的时候发现少了两条数据,找了半天才发现该网站的前一页最后两条新闻默认为下一页的前两条。看一下控制台scrapy的log,可以发现:no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicate)大概意思是不再显示重复的内容。原来Scra...

2018-04-18 17:36:37 10891

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除