Voccoo-CSDN博客

原创 Python命令行参数启动脚本只需要两行代码

只需要两行代码就可以在命令行运行python脚本

2022-01-17 16:56:01 921 1

qiming 【起名】程序猿的起名大法主程序是【起名demo-数据库-双姓.py】其中引用的【OwnTools】是自己封装的包。引用的OperationsMysql也就是自建的连接数据库的方法了使用准备：1.安装requirements.txt2.mysql数据库新增data中的四个sql文件。并给数据库起名【qiming】3.修改自建的OperationsMysql方法，做到可以自行连接到【qiming】数据库使用脚本使用了flask做了是三个接口。主接口是【qiming】，会根据传入

2021-09-07 15:17:25 1392 1

原创得物数据抓取+参数加密解析

环境：python 3.6脚本最后一次修改于 2021-08-27本次解析的参数为sign，解析的来源为微信小程序源码和H5页面JS文件咱也不废话，直接上干活应产品的需求要求需要相关的品类数据（详情数据也验证过，都是相同的方式，没问题的）需要获取产品列表页的数据，通过两个post接口获取。接口1【https://app.poizon.com/api/v1/h5/search/fire/commodity/detail_brand"】参数：{“sign”: 加密参数, “brandId”:

2021-09-02 10:12:16 6519 5

原创过cloudflare，使用cfscrape，以及cfscrape挂代理的方式

一个简单的python模块，可以绕过cloudflare的反bot页面（也称为"我处于攻击模式"或iuam），它通过请求实现。支持Python2.6-3.7版本。PS:下面所有运行环境都是在外网的服务器上只需运行pip install cfscrape。您可以使用pip install-u cfscrap进行升级。pypi包位于 https://pypi.python.org/pypi/cfscrape/github https://github.com/Anorov/cloud

2021-04-21 15:57:06 4140 2

原创 frida学习（一）：环境配置

本文是在win10电脑上，连接mumu模拟器，该模拟器端口是7555安装python3.6以上并配置好环境变量（方法自行百度）安装frida模块，命令为pip install frida（会很慢，放那等着就行）安装frida-tools模块，命令同上，pip install frida-tools下载在目标机器上运行的frida-server端，官方下载地址：https://github.com/frida/frida/releases，下载时要选择对应的版本下载，根据自己的情况进行

2020-08-04 15:57:59 1530 1

原创 python +ip2region +淘宝IP查询组合查询IP信息，做到毫秒级查询

环境：python 3.6运行环境： Windows 10前言：非常感谢大佬做的这个项目，可以很快速的解决查询IP地址的事情。可以很方便的解决一些业务上的需求。拜谢！大佬项目地址：GitHub项目地址PS：现已经支持：java、C#、php、c、python、nodejs、php扩展(php5和php7)、golang、rust、lua、lua_c, nginx。语言的集成因为大佬的数据源来源80%是淘宝的IP地址库，因此在大佬提供的数据集无法检索出的内容，可以通过淘宝IP查询来完

2020-07-28 17:25:28 497

原创 Windows中pyTorch安装及遇到的xfeatures2d未找到问题解决过程

我的python环境是3.6版本的安装系统是win10首先是到官网进行pytorch安装命令的查询Torch官网，点击进入网站反映略慢，原因嘛，大家都懂。加载完毕，下拉。会看到如下图前两我不解释了，按照各自的情况自行选择。主要是讲讲下面几个。如果你的工作电脑是用anaconda安装的，那么你可以使用conda安装。但我的实际情况是，Conda安装比不是太好使。最终使用的还是pip语言选的是PythonCuda的选择是None。这里介绍下啥事是CUDA，cuda就是指N卡显卡的运算平台（

2020-06-17 15:22:43 1165

原创 Python安装hanlp 2.0 出现的问题解决

虽然现在的hanlp2.0 还是处于测试版，但是官方已经能给出了python 源，可以直接pip install hanlp进行安装。这里要注意。pyhanlp是1.0版本的，hanlp是2.0版本的这里多嘴提一句pyhanlp安装时候的坑。pip install pyhanlp 这个安装的是 1.0 版本的，请注意分别1.首先，要改一下自己pip的镜像源拉取环境，如何操作，请...

2020-04-29 11:00:44 3120 2

原创 nodejs总是提示找不到第三方包

如果在使用nodejs时，需要引入第三方包。npm install -g 包名这是安装一个全局都可用的第三方包。然而我在使用当中，总是会出现提示这不到我刚装好包的提示。那么你就需要知道一件事情。1.新建一个文件夹（英文名最好）2.shift + 右键，选择cmd运行3.npm init (这个叫初始化项目，生成了项目配置信息：package.json)4.npm install...

2019-10-26 11:37:28 1562 1

原创 python中使用splash如何挂代理？

我之前写过scrapy-splash挂代理的方式这次应项目需求，没必要用scrapy做，只需要做一个动态获取指定网页的splash中间件即可。但目标源有ip访问量检测。因此需要挂代理那么…该如何挂上代理呢。如下图：昨天捣鼓这个挂代理的事情捣鼓了两个小时，一直不成功。各种百度，google，看官方文档（不得不说，官方文档写的真的是坑爹。）但一直都没成功。不成功的问题在于，我proxy...

2019-10-24 10:06:50 1344

原创关于PEP8报too long问题的解决方式

最近我司要上kpi考核，其中一个点就是代码规范问题。于是就引出了今天要讲的事情。众所周知，Pycharm中，右侧有一条虚线，那个是表明最大的书写规范长度，也就是一行允许的最长的长度，为120字符。如果没做过设置，那么当你的行代码超过这个长度后，就会给你提示有条波浪线在行代码线面。有点强迫症的人不能忍啊，于是在pycharm的右下角，把警告登记登记给调整到了中等，那么，pycharm中就不会给...

2019-09-28 16:52:29 9004

原创 windows下Kafka的环境配置和启动以及测试（Kafka-python API）

环境：python 3.5kafka-python 1.4.6kafka环境：2.11-2.30zookeeper环境：同上（ps:现在下载kafka环境包的时候，会同时搭载zookeeper，不需要专门安装了）第一步：去网址：https://kafka.apache.org/downloads 下载kafka的压缩包用解压工具解压缩到你想要的位置，我这里直接放到了D根目录上。在...

2019-09-09 16:47:32 962 1

原创动态gif图按照帧数提取后，合成一张图片

运行环境：python 3.5win10from PIL import Imageimport osdef cutList(): gifFileName = 'test.gif' # 使用Image模块的open()方法打开gif动态图像时，默认是第一帧 im = Image.open(gifFileName) pngDir = gifFileName[...

2019-06-20 11:58:31 1254

原创查找列表中最大或最小的 N 个元素（包含字典元素）

怎样从一个集合中获得最大或者最小的 N 个元素列表？python自带的heapq模块里的nlargest（最大）和nsmallest（最小）方法就能完美解决了例子1：import heapqnums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]print(heapq.nlargest(3, nums)) # Prints [42, 37, 23]p...

2019-05-25 16:36:47 652

原创 python 根据条件快速生成一个新的字典

通常处理dict类型的数据的时候，都是需要根绝字典的key来进行操作在python中，可以通过特定的方法来进行获取peoples = { '广东省': 104303132, '山东省': 95793065, '河南省': 94023567, '四川省': 80418200, '江苏省': 78659903, '河北省': 71854202, ...

2019-05-25 11:49:56 4300

原创裁判文书网爬虫

裁判文书数据获取本脚本发布日期为2019年5月20日，距发布日期，该脚本依旧能运行成功PS：本脚本仅供学习使用，请勿作用于任何商业用途发生任何事情，与本人无关。再PS：若对你有帮助，请不要吝啬你的star,靴靴本脚本的逻辑结构为1：生成需要获取的时间范围2：根据时间范围list，和所有省份列表，开始进行接口请求，获取中级法院列表3：根据中级法院列表里当天的文书数量，进行二次判断，是否...

2019-05-20 10:51:47 3748 14

原创搜狗微信爬虫获取文章信息

author：Voccootime:2019-4-1"""1.本demo只是为了爬取指定公众号或指定关键字下公众号，限定时间内所发送的文章。若要获取公众号信息，一并存取，请根据第一条gzhurl做以修改，或者从文章中直接获取2.本demo只是匆忙间完成的，还有许多细节并不够完美。比如对返回值为空的判断等。若要使用请根据自己的需求加以修改3.本次代理使用了redis来...

2019-04-01 15:52:09 1644

原创爬虫的艺术：善用www.***.com/robots.txt

说到爬虫，大家吃IT这行饭的人，肯定不陌生了。什么事爬虫我就不在这里解释了。我今天只是想给吃这行饭的人一个善意的提醒。1：爬虫中最让人挠头的就是各种验证限制，天眼查，企查查，美团，饿了么等等，为啥他们一定要做各种反爬措施？一时为了保证数据安全，另外就是保证服务器的正常运行。爬虫就是模拟请求发送到服务器，让服务器反馈正常的数据到你手里。那么，高线程，多并发，多服务器的发送海量请求，你还...

2019-03-30 10:21:02 901

原创 CSV读取大文件报错_csv.Error: field larger than field limit

该问题出现在用csv读取文件的时候，出现大字段，导致超过字段默认限制，而无法读取。因此，需要在使用csv读取文件前，先设置下csv字段显示大小。csv.field_size_limit(500 * 1024 * 1024) for i in range(1, 5): # 21 print('开始读取第%d个' % i) csv_reader = csv...

2019-01-15 12:08:20 8155

原创 schedule和CrawlerProcess定时执行多个爬虫

import smtplib,schedule# 通过CrawlerProcess同时运行几个spiderfrom scrapy.crawler import CrawlerProcessfrom spiders.liepin_spider import LiepinSpiderSpider as lie_1from spiders.liepin_spider_2 import Liepi...

2019-01-09 13:10:02 1608

原创 scrapy+ selenium的小案例两则，爬取食品药品监管和twitter用户数据。

环境：python 3.6scrapyseleniumchromechrome-driverwindows 10如何安装python selenium 和对应谷歌版本的chrome-driver请自行在csdn中搜索。已经有很多大手子做过很详细的教程了。在这里我就不一一赘述了。本次只是单纯的提供两个在工作中使用到的小例子，以供大家更直观的使用scrapy+selenium的组合。...

2018-11-29 11:10:13 1727 2

原创 python运行js的包-----execjs

其几天在爬取百度信用的商标图片的过程中，有一个tot参数是根据页面返回的动态tk值然后运行js加密后生成的结果。所以需要先获取该段js后在用execjs运行该段js对获取的数据进行加密，就能获取想要的数据了。如下图：tk_func就是使用正则匹配，从源页面中获取对应的内容。而第二个横线中的tk就是使用execjs运行该段js的方式。如何正确的安装和使用该包呢？请点击：https://...

2018-11-29 10:17:31 3430

原创信用百度公司商标信息爬取

信用百度公司商标信息和图片爬取，ip代理和动态header没做，这只是个测试小脚本，可以在这个基础上继续修改，小改动后再选择自己的存储方式直接存储就好。希望对大家有帮助。直接复制粘贴即可使用import reimport timeimport requestsfrom lxml import etreeimport jsonimport execjsimport uuid,oss2...

2018-11-10 10:51:00 1975 2

原创 scrapy中Post不成功的解决办法

有时候在爬取数据分析目标网站的过成功，会发现F12中，请求的数据类型为post，发送的数据位FormData，可是自己已经按照post请求的FormRequest做了请求，data数据也按照F12中的格式填写完毕了。但请求的结果要不就请求不到，一直堵塞着，要不就是无论换成多少页数，返回的数据都是第一页的数据。当有这种情况的时候，只需要一步验证就能解决。那就是用postman或者在浏览器中直接...

2018-10-26 10:46:47 1932 1

原创 scrapy中Request请求使用Request payload参数 json或text

今天做爬虫，又被payload的参数坑了一次，还是要记录下，否则下次还是容易忘。如下图所示，在这个请求中，payload中有个参数在F12中有个‘str’=null的参数，在大家需要写的时候，如果真的在dict中也这么写，很容易会出现问题的。要不返回400，要不没有数据。那么在这里详细的说下在scrapy中payload参数的构成方式。首先要明确下：1、在F12中虽然提示的是post请求，...

2018-10-24 10:06:18 4293 1

原创 scrapy_splash动态ip代理和请求头的动态修改

在使用过程中，不可以常规的scrapy使用习惯来进行splash的ip代理替换和请求头的替换。经过我的测试，直接在SplashRequest中进行二者替换都是会使程得到错误的返回结果。经过我的使用确保正确的ip代理替换方式有两种：1.脚本里ip替换：splash:on_request(function(request)request:set_proxy{host = “112.195....

2018-10-23 11:28:38 3245 1

原创 python scrapy.Request传递给parse参数的方法

爬虫在使用中，难免会遇到需要将在start_request中的某个关键在，传给parse，然后通过item存入数据库中，那么怎么才能呢？如上图，在callback中，使用lambda函数例子：callback=lambda response,port=1,port_2=2: self.parse(response,port,port_2)def parse(self,response,po...

2018-10-15 15:12:27 3819

原创 acfun网站400W用户数据分析和pyecharts可视化

首先在这给我心爱的Acfun说句抱歉了，这几天进行的数据爬取如果对猴山产生了不好的影响，请接受我的道歉。本次所有代码都会上传到GitHub上：爬虫部分和ip搜索部分sql文件地址：百度云盘密码：5xov项目代码分成三个部分：1、爬取基础数据2、根据ip地址查询相对应的省市地址3、统计：将你想查看的html复制下来然后网页打开就能看到效果了本次实例是通过分析A站获取用户数据的接口，通...

2018-09-26 01:56:11 2183

原创 scrapy-redis实例，分布爬虫爬取腾讯新闻，保存在数据库中

项目结构： setting# -*- coding: utf-8 -*-import randomfrom newsSpider.userAgent import USER_AGENT_LISTBOT_NAME = 'newsSpider'SPIDER_MODULES = ['newsSpider.spiders']NEWSPIDER_MODULE = 'newsSpi...

2018-09-15 19:14:36 3067 2

原创最简单的分布式爬虫组合

这两天写爬虫，用了下redis，突然想起来没有写过有关于redis的使用指南，其实也是自己使用过程中遇到的坑罢了，如果有不对的地方，希望大家能指正。本篇文章主要介绍的是redis和scrapy的使用，也就是主要做分布式爬虫时候需要用到的新手们也不要对redis这个东西有抵触，很简单的，一教就会。比如：在一场运动会中，田径比赛中有各个项目，如果只有一个选手（scrapy）要把所有的项目都...

2018-09-12 23:17:32 265

原创 python 3.X 使用selenium破解通用一二代滑块验证(有原图的)，以虎X网为列子（图片像素对比）

前几天看到有位大大写的破解极验证码，也就是二十滑块验证滑块验证。本偏文章主要借鉴了其中的图片像素对比的方法，在原基础上尽心的修改创作。让本demo更适用于多个网站和一二代的滑块验证。还有一个原因是原作者的demo我跑不通，逻辑出现了bug。原作者地址：https://mp.weixin.qq.com/s/_SKphxxGg7Plgv9iG_LOkw 代码中我会详细的解释每一步的作用，...

2018-09-06 15:31:21 1187

原创 scrapy框架下的豆瓣电影评论爬取以及登录，以及生成词云和柱状图

由于豆瓣在今年5月份已经禁止展示所有短评，只展示最热的500条数据，并且在爬取到240条的时候，如果没有登录的话，会提示登录。因此几天的爬虫，包括豆瓣的自动登录和数据爬取后批量存入pymysql数据库。在这个爬虫完成后，其实我也在页面上找了下，在全部评论里还是能看到带有页数分页的评论的，在下面代码的基础上修改下路径和爬取数据的逻辑，其实也是能爬取的。本文是基于scrapy框架，pyth...

2018-09-04 14:27:45 1163 1

原创 python 3.X 使用jieba.wordcloud.pandas等库分析小说后生成云图和柱状图

本篇文章，主要是使用jieba分词，对文章分析后，将常用词去掉，进行图表的展示。在写这个demo的过程中，踩到的坑。 1：读取txt文件的时候，文件编码和读取编码不同，导致读取报错 2：读取的数据会带有\n和空格，最好在读取停止词后，先打印出来，查看下是不是每个词都没有其他的制表符存在 3：停止词要生成list集合才可使用，最好不要直接list（）转化，容易出错 4：生成云图的时候，在...

2018-08-31 16:10:07 1026

原创爬取某招聘网站的招聘信息（猎聘）

这该找工作了，俗话说的胡奥，金九银十嘛。一个一个招聘信息找着看，有点麻烦。所以心动了下，不如把我想找的信息都爬取下来，直接sql语句查询所有相关信息，多方便，是吧~该内容主要是从我上篇博文：https://blog.csdn.net/qq_38044574/article/details/82111035 修改而来，这里主要提供详细更改的地方希望对看官有所帮助。如果有错误，欢迎指出。...

2018-08-30 19:26:46 3710 7

原创基础Scrapy项目空白版本，直接填细节，进行细节调试后，即可使用（方便！）

首先，电脑上要安装了scrapy 如何安装，可以参考：https://blog.csdn.net/yctjin/article/details/70658811新建文件夹，shift + 右键，选择在该处打开命令窗口，键入 scrapy startproject 项目名称稍等片刻，即可自动生成一个爬虫项目文件夹结构应该是这样的：我们需要自己手动建立上图中csdnBlog_...

2018-08-27 13:36:09 639

原创 Python 3.x 使用QQ邮箱进行邮件的发送

在python 3.x中，email，smtplib模块可以直接引用若想将邮件发送给多人，可以讲下面的代码作为一个方法体，接收地址为传入参数，在外部经过自己的逻辑判断后，多次传入即可。在python爬虫中的邮件，主要起到的就是提醒的作用。可以让运维或爬虫撰写人员，即时收到爬虫运行故障的信息，减少了在最终数据成型后才发现数据存在异常，然后再一个个排除的问题。希望这篇文章对您有帮助。这...

2018-08-25 17:24:04 860

原创模拟动态登录，获取cookie和图片验证码登录（AcFun和豆瓣）

#模拟登录acfun#导入第三方库import requestsimport picklefrom bs4 import BeautifulSoupfrom fake_useragent import UserAgentimport refrom PIL import Image#提交表单获取cookiedef get_cookie_from_net(): #d登录的u...

2018-08-21 13:44:56 1327

原创爬取笔趣阁小说

# 爬取‘笔趣阁’小说网站小说# 给定小说的地址页面，进行所有章节爬取# 还有一个问题目前无法结局# 问题1：Cookie中的数据会定时变化，当变化后，页面即无法访问# 解决：可以调用第三方的Selenium和PhantomJS，进行无头访问# 网上很多这两个第三方库的使用方法，就不测试举例了。# 导入第三方库import requestsimport urllibimpor...

2018-08-20 18:09:53 1044

kafka初尝试.7z

空空如也