自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Voccoo的博客

做好没有女朋友的准备了吗?

  • 博客(39)
  • 资源 (1)
  • 收藏
  • 关注

原创 京东云接入【风险识别】接口

京东云sdk采坑

2023-08-29 16:42:59 627 2

原创 Python命令行参数启动脚本只需要两行代码

只需要两行代码就可以在命令行运行python脚本

2022-01-17 16:56:01 921 1

原创 程序员起名

qiming 【起名】程序猿的起名大法主程序是【起名demo-数据库-双姓.py】其中引用的【OwnTools】是自己封装的包。引用的OperationsMysql也就是自建的连接数据库的方法了使用准备:1.安装requirements.txt2.mysql数据库新增data中的四个sql文件。并给数据库起名【qiming】3.修改自建的OperationsMysql方法,做到可以自行连接到【qiming】数据库使用脚本使用了flask做了是三个接口。主接口是【qiming】,会根据传入

2021-09-07 15:17:25 1392 1

原创 得物数据抓取+参数加密解析

环境:python 3.6脚本最后一次修改于 2021-08-27本次解析的参数为sign,解析的来源为微信小程序源码和H5页面JS文件咱也不废话,直接上干活应产品的需求要求需要相关的品类数据(详情数据也验证过,都是相同的方式,没问题的)需要获取产品列表页的数据,通过两个post接口获取。接口1【https://app.poizon.com/api/v1/h5/search/fire/commodity/detail_brand"】 参数:{“sign”: 加密参数, “brandId”:

2021-09-02 10:12:16 6519 5

原创 过cloudflare,使用cfscrape,以及cfscrape挂代理的方式

一个简单的python模块,可以绕过cloudflare的反bot页面(也称为"我处于攻击模式"或iuam),它通过请求实现。支持Python2.6-3.7版本。PS:下面所有运行环境都是在外网的服务器上只需运行pip install cfscrape。您可以使用pip install-u cfscrap进行升级。pypi包位于 https://pypi.python.org/pypi/cfscrape/github https://github.com/Anorov/cloud

2021-04-21 15:57:06 4140 2

原创 frida学习(一):环境配置

本文是在win10电脑上,连接mumu模拟器,该模拟器端口是7555安装python3.6以上并配置好环境变量(方法自行百度)安装frida模块,命令为pip install frida(会很慢,放那等着就行)安装frida-tools模块,命令同上,pip install frida-tools下载在目标机器上运行的frida-server端,官方下载地址:https://github.com/frida/frida/releases,下载时要选择对应的版本下载,根据自己的情况进行

2020-08-04 15:57:59 1530 1

原创 python +ip2region +淘宝IP查询 组合查询IP信息,做到毫秒级查询

环境:python 3.6运行环境: Windows 10前言:非常感谢大佬做的这个项目,可以很快速的解决查询IP地址的事情。可以很方便的解决一些业务上的需求。拜谢!大佬项目地址:GitHub项目地址PS:现已经支持:java、C#、php、c、python、nodejs、php扩展(php5和php7)、golang、rust、lua、lua_c, nginx。语言的集成因为大佬的数据源来源80%是淘宝的IP地址库,因此在大佬提供的数据集无法检索出的内容,可以通过淘宝IP查询来完

2020-07-28 17:25:28 497

原创 Windows中pyTorch安装及遇到的xfeatures2d未找到问题解决过程

我的python环境是3.6版本的安装系统是win10首先是到官网进行pytorch安装命令的查询Torch官网,点击进入网站反映略慢,原因嘛,大家都懂。加载完毕,下拉。会看到如下图前两我不解释了,按照各自的情况自行选择。主要是讲讲下面几个。如果你的工作电脑是用anaconda安装的,那么你可以使用conda安装。但我的实际情况是,Conda安装比不是太好使。最终使用的还是pip语言选的是PythonCuda的选择是None。 这里介绍下啥事是CUDA,cuda就是指N卡显卡的运算平台(

2020-06-17 15:22:43 1165

原创 Python安装hanlp 2.0 出现的问题解决

虽然现在的hanlp2.0 还是处于测试版,但是官方已经能给出了python 源,可以直接pip install hanlp进行安装。 这里要注意。pyhanlp是1.0版本的,hanlp是2.0版本的这里多嘴提一句pyhanlp安装时候的坑。pip install pyhanlp 这个安装的是 1.0 版本的,请注意分别1.首先,要改一下自己pip的镜像源拉取环境,如何操作,请...

2020-04-29 11:00:44 3120 2

原创 nodejs总是提示找不到第三方包

如果在使用nodejs时,需要引入第三方包。npm install -g 包名 这是安装一个全局都可用的第三方包。然而我在使用当中,总是会出现提示这不到我刚装好包的提示。那么你就需要知道一件事情。1.新建一个文件夹(英文名最好)2.shift + 右键, 选择cmd运行3.npm init (这个叫初始化项目,生成了项目配置信息:package.json)4.npm install...

2019-10-26 11:37:28 1562 1

原创 python中使用splash如何挂代理?

我之前写过scrapy-splash挂代理的方式这次应项目需求,没必要用scrapy做,只需要做一个动态获取指定网页的splash中间件即可。但目标源有ip访问量检测。因此需要挂代理那么…该如何挂上代理呢。如下图:昨天捣鼓这个挂代理的事情捣鼓了两个小时,一直不成功。各种百度,google,看官方文档(不得不说,官方文档写的真的是坑爹。)但一直都没成功。不成功的问题在于,我proxy...

2019-10-24 10:06:50 1344

原创 关于PEP8报too long问题的解决方式

最近我司要上kpi考核,其中一个点就是代码规范问题。于是就引出了今天要讲的事情。众所周知,Pycharm中,右侧有一条虚线,那个是表明最大的书写规范长度,也就是一行允许的最长的长度,为120字符。如果没做过设置,那么当你的行代码超过这个长度后,就会给你提示有条波浪线在行代码线面。有点强迫症的人不能忍啊,于是在pycharm的右下角,把警告登记登记给调整到了中等,那么,pycharm中就不会给...

2019-09-28 16:52:29 9004

原创 windows下Kafka的环境配置和启动以及测试(Kafka-python API)

环境:python 3.5kafka-python 1.4.6kafka环境:2.11-2.30zookeeper环境:同上(ps:现在下载kafka环境包的时候,会同时搭载zookeeper,不需要专门安装了)第一步:去网址:https://kafka.apache.org/downloads 下载kafka的压缩包用解压工具解压缩到你想要的位置,我这里直接放到了D根目录上。在...

2019-09-09 16:47:32 962 1

原创 动态gif图按照帧数提取后,合成一张图片

运行环境:python 3.5win10from PIL import Imageimport osdef cutList(): gifFileName = 'test.gif' # 使用Image模块的open()方法打开gif动态图像时,默认是第一帧 im = Image.open(gifFileName) pngDir = gifFileName[...

2019-06-20 11:58:31 1254

原创 查找列表中最大或最小的 N 个元素(包含字典元素)

怎样从一个集合中获得最大或者最小的 N 个元素列表?python自带的heapq模块里的nlargest(最大)和nsmallest(最小)方法就能完美解决了例子1:import heapqnums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]print(heapq.nlargest(3, nums)) # Prints [42, 37, 23]p...

2019-05-25 16:36:47 652

原创 python 根据条件快速生成一个新的字典

通常处理dict类型的数据的时候,都是需要根绝字典的key来进行操作在python中,可以通过特定的方法来进行获取peoples = { '广东省': 104303132, '山东省': 95793065, '河南省': 94023567, '四川省': 80418200, '江苏省': 78659903, '河北省': 71854202, ...

2019-05-25 11:49:56 4300

原创 裁判文书网爬虫

裁判文书数据获取本脚本发布日期为2019年5月20日,距发布日期,该脚本依旧能运行成功PS:本脚本仅供学习使用,请勿作用于任何商业用途发生任何事情,与本人无关。再PS:若对你有帮助,请不要吝啬你的star,靴靴本脚本的逻辑结构为1:生成需要获取的时间范围2:根据时间范围list,和所有省份列表,开始进行接口请求,获取中级法院列表3:根据中级法院列表里当天的文书数量,进行二次判断,是否...

2019-05-20 10:51:47 3748 14

原创 搜狗微信爬虫获取文章信息

author:Voccootime:2019-4-1"""1.本demo只是为了爬取指定公众号或指定关键字下公众号,限定时间内所发送的文章。 若要获取公众号信息,一并存取,请根据第一条gzhurl做以修改,或者从文章中直接获取2.本demo只是匆忙间完成的,还有许多细节并不够完美。 比如对返回值为空的判断等。 若要使用请根据自己的需求加以修改3.本次代理使用了redis来...

2019-04-01 15:52:09 1644

原创 爬虫的艺术:善用www.***.com/robots.txt

说到爬虫,大家吃IT这行饭的人,肯定不陌生了。 什么事爬虫我就不在这里解释了。我今天只是想给吃这行饭的人一个善意的提醒。1:爬虫中最让人挠头的就是各种验证限制,天眼查,企查查,美团,饿了么等等,为啥他们一定要做各种反爬措施? 一时为了保证数据安全,另外就是保证服务器的正常运行。爬虫就是模拟请求发送到服务器,让服务器反馈正常的数据到你手里。那么,高线程,多并发,多服务器的发送海量请求,你还...

2019-03-30 10:21:02 901

原创 CSV读取大文件报错_csv.Error: field larger than field limit

该问题出现在用csv读取文件的时候,出现大字段,导致超过字段默认限制,而无法读取。因此,需要在使用csv读取文件前,先设置下csv字段显示大小。csv.field_size_limit(500 * 1024 * 1024) for i in range(1, 5): # 21 print('开始读取第%d个' % i) csv_reader = csv...

2019-01-15 12:08:20 8155

原创 schedule和CrawlerProcess定时执行多个爬虫

import smtplib,schedule# 通过CrawlerProcess同时运行几个spiderfrom scrapy.crawler import CrawlerProcessfrom spiders.liepin_spider import LiepinSpiderSpider as lie_1from spiders.liepin_spider_2 import Liepi...

2019-01-09 13:10:02 1608

原创 scrapy+ selenium的小案例两则,爬取食品药品监管和twitter用户数据。

环境:python 3.6scrapyseleniumchromechrome-driverwindows 10如何安装python selenium 和对应谷歌版本的chrome-driver请自行在csdn中搜索。已经有很多大手子做过很详细的教程了。在这里我就不一一赘述了。本次只是单纯的提供两个在工作中使用到的小例子,以供大家更直观的使用scrapy+selenium的组合。...

2018-11-29 11:10:13 1727 2

原创 python运行js的包-----execjs

其几天在爬取百度信用的商标图片的过程中,有一个tot参数是根据页面返回的动态tk值然后运行js加密后生成的结果。所以需要先获取该段js后在用execjs运行该段js对获取的数据进行加密,就能获取想要的数据了。如下图:tk_func就是使用正则匹配,从源页面中获取对应的内容。而第二个横线中的tk就是使用execjs运行该段js的方式。如何正确的安装和使用该包呢?请点击:https://...

2018-11-29 10:17:31 3430

原创 信用百度公司商标信息爬取

信用百度公司商标信息和图片爬取,ip代理和动态header没做,这只是个测试小脚本,可以在这个基础上继续修改,小改动后再选择自己的存储方式直接存储就好。希望对大家有帮助。直接复制粘贴即可使用import reimport timeimport requestsfrom lxml import etreeimport jsonimport execjsimport uuid,oss2...

2018-11-10 10:51:00 1975 2

原创 scrapy中Post不成功的解决办法

有时候在爬取数据分析目标网站的过成功,会发现F12中,请求的数据类型为post,发送的数据位FormData,可是自己已经按照post请求的FormRequest做了请求,data数据也按照F12中的格式填写完毕了。但请求的结果要不就请求不到,一直堵塞着,要不就是无论换成多少页数,返回的数据都是第一页的数据。当有这种情况的时候,只需要一步验证就能解决。那就是用postman或者在浏览器中直接...

2018-10-26 10:46:47 1932 1

原创 scrapy中Request请求使用Request payload参数 json或text

今天做爬虫,又被payload的参数坑了一次,还是要记录下,否则下次还是容易忘。如下图所示,在这个请求中,payload中有个参数在F12中有个‘str’=null的参数,在大家需要写的时候,如果真的在dict中也这么写,很容易会出现问题的。要不返回400,要不没有数据。那么在这里详细的说下在scrapy中payload参数的构成方式。首先要明确下:1、在F12中虽然提示的是post请求,...

2018-10-24 10:06:18 4293 1

原创 scrapy_splash动态ip代理和请求头的动态修改

在使用过程中,不可以常规的scrapy使用习惯来进行splash的ip代理替换和请求头的替换。经过我的测试,直接在SplashRequest中进行二者替换都是会使程得到错误的返回结果。经过我的使用确保正确的ip代理替换方式有两种:1.脚本里ip替换:splash:on_request(function(request)request:set_proxy{host = “112.195....

2018-10-23 11:28:38 3245 1

原创 python scrapy.Request传递给parse参数的方法

爬虫在使用中,难免会遇到需要将在start_request中的某个关键在,传给parse,然后通过item存入数据库中,那么怎么才能呢?如上图,在callback中,使用lambda函数例子:callback=lambda response,port=1,port_2=2: self.parse(response,port,port_2)def parse(self,response,po...

2018-10-15 15:12:27 3819

原创 acfun网站400W用户数据分析和pyecharts可视化

首先在这给我心爱的Acfun说句抱歉了,这几天进行的数据爬取如果对猴山产生了不好的影响,请接受我的道歉。本次所有代码都会上传到GitHub上:爬虫部分和ip搜索部分sql文件地址:百度云盘 密码:5xov项目代码分成三个部分:1、爬取基础数据2、根据ip地址查询相对应的省市地址3、统计:将你想查看的html复制下来然后网页打开就能看到效果了本次实例是通过分析A站获取用户数据的接口,通...

2018-09-26 01:56:11 2183

原创 scrapy-redis实例,分布爬虫爬取腾讯新闻,保存在数据库中

项目结构: setting# -*- coding: utf-8 -*-import randomfrom newsSpider.userAgent import USER_AGENT_LISTBOT_NAME = 'newsSpider'SPIDER_MODULES = ['newsSpider.spiders']NEWSPIDER_MODULE = 'newsSpi...

2018-09-15 19:14:36 3067 2

原创 最简单的分布式爬虫组合

这两天写爬虫,用了下redis,突然想起来没有写过有关于redis的使用指南,其实也是自己使用过程中遇到的坑罢了,如果有不对的地方,希望大家能指正。本篇文章主要介绍的是redis和scrapy的使用,也就是主要做分布式爬虫时候需要用到的 新手们也不要对redis这个东西有抵触,很简单的,一教就会。 比如:在一场运动会中,田径比赛中有各个项目,如果只有一个选手(scrapy)要把所有的项目都...

2018-09-12 23:17:32 265

原创 python 3.X 使用selenium破解通用一二代滑块验证(有原图的),以虎X网为列子(图片像素对比)

前几天看到有位大大写的破解极验证码,也就是二十滑块验证滑块验证。 本偏文章主要借鉴了其中的图片像素对比的方法,在原基础上尽心的修改创作。让本demo更适用于多个网站和一二代的滑块验证。 还有一个原因是原作者的demo我跑不通,逻辑出现了bug。 原作者地址:https://mp.weixin.qq.com/s/_SKphxxGg7Plgv9iG_LOkw 代码中我会详细的解释每一步的作用,...

2018-09-06 15:31:21 1187

原创 scrapy框架下的豆瓣电影评论爬取以及登录,以及生成词云和柱状图

由于豆瓣在今年5月份已经禁止展示所有短评,只展示最热的500条数据,并且在爬取到240条的时候,如果没有登录的话,会提示登录。 因此几天的爬虫,包括豆瓣的自动登录和数据爬取后批量存入pymysql数据库。在这个爬虫完成后,其实我也在页面上找了下,在全部评论里还是能看到带有页数分页的评论的,在下面代码的基础上修改下路径和爬取数据的逻辑,其实也是能爬取的。本文是基于scrapy框架,pyth...

2018-09-04 14:27:45 1163 1

原创 python 3.X 使用jieba.wordcloud.pandas等库分析小说后生成云图和柱状图

本篇文章,主要是使用jieba分词,对文章分析后,将常用词去掉,进行图表的展示。在写这个demo的过程中,踩到的坑。 1:读取txt文件的时候,文件编码和读取编码不同,导致读取报错 2:读取的数据会带有\n和空格,最好在读取停止词后,先打印出来,查看下是不是每个词都没有其他的制表符存在 3:停止词要生成list集合才可使用,最好不要直接list()转化,容易出错 4:生成云图的时候,在...

2018-08-31 16:10:07 1026

原创 爬取某招聘网站的招聘信息(猎聘)

这该找工作了,俗话说的胡奥,金九银十嘛。一个一个招聘信息找着看,有点麻烦。所以心动了下,不如把我想找的信息都爬取下来,直接sql语句查询所有相关信息,多方便,是吧~该内容主要是从我上篇博文:https://blog.csdn.net/qq_38044574/article/details/82111035 修改而来,这里主要提供详细更改的地方 希望对看官有所帮助。 如果有错误,欢迎指出。...

2018-08-30 19:26:46 3710 7

原创 基础Scrapy项目空白版本,直接填细节,进行细节调试后,即可使用(方便!)

首先,电脑上要安装了scrapy 如何安装,可以参考:https://blog.csdn.net/yctjin/article/details/70658811新建文件夹,shift + 右键,选择在该处打开命令窗口, 键入 scrapy startproject 项目名称 稍等片刻,即可自动生成一个爬虫项目文件夹结构应该是这样的: 我们需要自己手动建立上图中csdnBlog_...

2018-08-27 13:36:09 639

原创 Python 3.x 使用QQ邮箱进行邮件的发送

在python 3.x中,email,smtplib模块可以直接引用 若想将邮件发送给多人,可以讲下面的代码作为一个方法体,接收地址为传入参数,在外部经过自己的逻辑判断后,多次传入即可。在python爬虫中的邮件,主要起到的就是提醒的作用。可以让运维或爬虫撰写人员,即时收到爬虫运行故障的信息,减少了在最终数据成型后才发现数据存在异常,然后再一个个排除的问题。希望这篇文章对您有帮助。这...

2018-08-25 17:24:04 860

原创 模拟动态登录,获取cookie和图片验证码登录(AcFun和豆瓣)

#模拟登录acfun#导入第三方库import requestsimport picklefrom bs4 import BeautifulSoupfrom fake_useragent import UserAgentimport refrom PIL import Image#提交表单获取cookiedef get_cookie_from_net(): #d登录的u...

2018-08-21 13:44:56 1327

原创 爬取笔趣阁小说

# 爬取‘笔趣阁’小说网站小说# 给定小说的地址页面,进行所有章节爬取# 还有一个问题目前无法结局# 问题1:Cookie中的数据会定时变化,当变化后,页面即无法访问# 解决:可以调用第三方的Selenium和PhantomJS,进行无头访问# 网上很多这两个第三方库的使用方法,就不测试举例了。# 导入第三方库import requestsimport urllibimpor...

2018-08-20 18:09:53 1044

kafka初尝试.7z

适用于windows下python环境,kafka-python操作的kafka环境。 kafka和zookeeper已经在里面了。 修改下启动的bat路径即可,我在里面写的是绝对路径,打击可以修改下 实例demo也已经存在了。更多功能,大家可以继续扩展。

2019-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除