自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫篇(11)高效selenium

前言:曾找过各种方式去加速selenium,然而效果都不尽人意,最后自己花了一些时间做了一个高效selenium模块,加上高效代理,一天请求百万次可能有些吃力(cpu、网速等各方面),但是几十万的请求次数在线上测试环境没什么问题。设计逻辑:使用Selenium(模拟浏览器)加上代理,一次启动可同时打开10个(可调整)页面发起请求,并使用字典绑定每个url对应的页面权柄。在等待一定加载时间后(如20秒,可调整),开始从第一个页面开始,利用Selenium显示等待WebDriverWait(在一定时

2021-07-08 20:24:56 696 6

原创 爬虫篇(10)权重代理池

前言:权重代理池是之前工作为采集亚马逊而开发,不出意外这个模块以后应该用不上了,但也是花了一些心力开发的,故写下这篇博客,一来纪念,二来分享,三来或许以后还有人会用到

2021-07-08 19:30:30 396 1

原创 学习笔记(01):Python+Vue+Django前后端分离项目实战-完成导出到Excel的功能

本季课程把基础知识拆解到项目里,让你在项目情境里学知识。 这样的学习方式能让你保持兴趣、充满动力,时刻知道学的东西能用在哪、能怎么用。 平时不明白的知识点,放在项目里去理解就恍然大悟了。 一、融汇贯通 本视频采用了前后端分离的开发模式,前端使用Vue.js+Element UI实现了Web页面的呈现,后端使用Python 的Django框架...

2020-04-02 02:40:10 871

原创 Linux Ubuntu 忘记密码时重置密码

一,重启系统并长按shift,进入GNU GRUR后选中“Ubuntu 高级选项”,回车二、选中带有“recovery mode”,按“e”,进行编辑三、找到并将“recovery nomodeset” 改成quiet splash rw init=/bin/bash四、按F10或Ctrl+x后出现界面,输入password + 用户名,然后可以输入新的密...

2019-09-07 14:45:37 550

原创 爬虫篇(9)Fiddler抓包请求一键转换成python代码

前言:前段时间由于需求,用Fiddler各种抓包,各种分析,主要是测试请求时添加cookie、添加请求头、添加url, 虽然前面有一键转换cookie/headers的工具(可以看我前面博客),但还是有些烦琐。 想着能不能将Fiddler抓到的请求一键转换成Python代码,但是在网上找了一下,无果(有知道的同学可以评论留言,十分感谢), 于是决定自己写一个能将Fiddler一键转换成Python...

2019-08-05 20:09:17 7778 19

原创 爬虫篇(8)浏览器请求一键转换成python代码——Curl转换

前言:很多时候我们想要写一个测试请求时,都要一行一行代码写,很不方便,前些天看到一篇Curl转换的代码的介绍,直呼没有早点看到,在无意义的代码上浪费了不少时间(其实最近刚好写了一个Fiddler一键转Python的代码,打算抽空写一个浏览器请求一键转换成python的代码,就看到了这篇博客,哈哈,感谢)。利用好Curl转换,我们可以一键将浏览器上的请求转换成Python代码(不仅仅是Python代...

2019-08-02 20:18:35 2067

原创 Python通过微信远程控制电脑 - python itchat

itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。使用不到三十行的代码,你就可以完成一个能够处理所有信息的微信机器人。当然,该api的使用远不止一个机器人,更多的功能等着你来发现,比如这些。该接口与公众号接口itchatmp共享类似的操作方式,学习一次掌握两个工具。如今微信已经成为了个人社交的很大一部分,希望这个项目能够帮助你扩展你的个人的微信号、方便自...

2019-07-31 19:53:06 726

原创 爬虫篇(7)一键转换爬虫请求头headers、Cookies (Fillder/各大浏览器适用)

参考:https://blog.csdn.net/qq_39802740/article/details/89884756前言:前些天看到一篇关于一键转换爬虫请求头headers的博客,不过感觉代码冗余度有些高,经过优化并添加了一些东西的东西后写了这篇博客代码:#!/usr/bin/python# -*- coding: UTF-8 -*-def get_header(hea...

2019-07-29 17:17:26 724 1

转载 爬虫篇(6)爬虫解析工具:xpath、bs4、jsonPATH

一、xpath的使用1、XML简介XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 和 HTML 的区别数据格式描述设计目标XMLExtensible Markup Language (可扩展标记语言)被设计为传输和存储数据,其焦点是数据...

2019-07-25 19:04:41 566 1

原创 Python 之 异步进程回调函数(callback())

摘要:在公司项目开发过程中遇到multiprocessing,打算进一步了解一下multiprocessing的多线程、多进程和协程方便后续的开发,无意中看到异步进程回调函数(callback()),正好运用在项目中的某个之前想要优化的模块,于是写了这篇博客需要回调函数的场景:进程池中任何一个任务一旦处理完了,就立即告知主进程:我好了,你可以处理我的结果了。主进程则调用一个函数去处理该...

2019-07-19 20:08:35 13913 6

原创 Python 常用小技巧(持续更新)

1、python any()和all()用法# any() 如果有一个不为空则返回True# all() 全部不为空才返回Trueprint(any([1, "123", False]))# Trueprint(any([0, "", False]))# Falseprint(all([1, "123", True]))# Trueprint(all([1, "123",...

2019-07-18 19:40:55 176

转载 Python中的 e-val ( ) 、ex ec() 及其相关函数(compile()、lobals()与locals() )

1. eval函数函数的作用:计算指定表达式的值。也就是说它要执行的Python代码只能是单个运算表达式(注意eval不支持任意形式的赋值操作),而不能是复杂的代码逻辑,这一点和lambda表达式比较相似。函数定义:eval(expression, globals=None, locals=None)参数说明:expression:必选参数,可以是字符串,也可以是一个任意的...

2019-07-18 19:36:44 465

转载 Django篇(5)高级

高级到此为止,关于Django框架的三大块M、V、T已经全部讲完了,接下来学习一些其它的知识点,这些知识点不在三大块范围内,Django提供了这些功能后,可以帮助我们更快更好的完成开发。主要知识点如下:静态文件处理中间件上传图片Admin站点分页示例:省市区选择,jquery,ajax1、创建示例项目1)创建项目demo5。django-admin startprojec...

2019-07-10 19:57:14 350

转载 Django篇(4)模板

模板作为Web框架,Django提供了模板,用于编写html代码,还可以嵌入模板代码更快更方便的完成页面开发,再通过在视图中渲染模板,将生成最终的html字符串返回给客户端浏览器。模版致力于表达外观,而不是程序逻辑。模板的设计实现了业务逻辑view与显示内容template的分离,一个视图可以使用任意一个模板,一个模板可以供多个视图使用。模板包含两部分:静态部分,包含html、css、js...

2019-07-10 19:39:34 220

原创 python 一次Cookie池接口开发实战(附代码)

目录第一天修改第二天修改第三天修改第四天修改前言:今天是入职第一天,被技术经理分配工作:写一个Cookie池接口Cookie池要求:1、要有一个保存cookie的接口,保存文档不限制,存入mysql,txt文本,redis都行2、要有一个提取cooike的接口3、要给cookie加一个“有效时间”的属性,并且Cookie池可以清除掉超时的cookie4、要留出足...

2019-07-10 19:29:18 543 1

转载 Django篇(3)视图

视图1. 视图的功能接收请求,进行处理,与M和T进行交互,返回应答。返回html内容 HttpResponse,也可能重定向 redirect,还可以返回json数据。1.1创建案列项目1、创建项目:django-admin startproject demo32、创建应用,python manage.py startapp app1**3、注册应用 **,打开demo3下的sett...

2019-07-01 21:10:49 279

转载 Django篇(2)模型

模型1. Django ORMO(objects):类和对象。R(Relation):关系,关系数据库中的表格。M(Mapping):映射。Django ORM框架的功能:a) 建立模型类和表之间的对应关系,允许我们通过面向对象的方式来操作数据库。b) 根据设计的模型类生成数据库中的表格。c) 通过方便的配置就可以进行数据库的切换。2. Django数据库配置2.1 创建项...

2019-06-27 23:10:53 205

转载 Django篇(1)Django入门

Django入门1. 软件框架一个公司是由公司中的各部部门来组成的,每一个部门拥有特定的职能,部门与部门之间通过相互的配合来完成让公司运转起来。一个软件框架是由其中各个软件模块组成的,每一个模块都有特定的功能,模块与模块之间通过相互配合来完成软件的开发。软件框架是针对某一类软件设计问题而产生的。2. MVC框架2.1 MVC简介MVC最初是由施乐公司旗下的帕罗奥多研究中心中的一位研...

2019-06-27 22:14:38 344

原创 Python中pymysql通过字典插入数据

引子:今天参加面试被大佬要求写一段数据库接口实操代码,首先在写字板上开头:def insert(table,data): #这里你知道table和data,其中data是一个字典,写插入数据库的代码想了一下,想到的一些方法被否定了,后来被允许查资料后找到方法一(参考:http://www.bubuko.com/infodetail-2788655.html和https://w...

2019-06-24 20:04:50 11091

转载 爬虫篇(3)scrapy 去重与 scrapy_redis 去重与布隆过滤器(转)

在开始介绍 scrapy 的去重之前,先想想我们是怎么对 requests 对去重的。requests 只是下载器,本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列,判断抓取的 url 是否在其中,如下:crawled_urls = set()def check_url(url): if url not in crawled_urls: ...

2019-06-24 09:40:31 659

翻译 爬虫篇(2.3)scrapy通用爬虫以及setting设置中一些提升效率的方式

通用爬虫(Broad Crawls)Scrapy默认对特定爬取进行优化。这些站点一般被一个单独的Scrapy spider进行处理, 不过这并不是必须或要求的(例如,也有通用的爬虫能处理任何给定的站点)。除了这种爬取完某个站点或没有更多请求就停止的”专注的爬虫”,还有一种通用的爬取类型,其能爬取大量(甚至是无限)的网站, 仅仅受限于时间或其他的限制。 这种爬虫叫做”通用爬虫(broad c...

2019-06-24 07:59:03 529

原创 爬虫篇(2.2)使用scrapy-jsonrpc简单教程

首先安装scrapy-jsonrpc:pip install scrapy-jsonrpc打开你的爬虫项目中setting.py文件,加入如下代码进行配置:EXTENSIONS = { 'scrapy_jsonrpc.webservice.WebService': 500,}JSONRPC_PORT = [6025]JSONRPC_ENABLED = True运行...

2019-06-23 23:38:07 971

转载 爬虫篇(2.1)selenium开启开发者模式

from selenium import webdriverclass IPPOOlS(object): def __init__(self,ip=""): chromeOptions = webdriver.ChromeOptions() # chromeOptions.add_argument('-headless') # 设为无头模式 ...

2019-06-21 10:35:20 6463

原创 爬虫篇(2)使用pyexecjs破解js中cookies

首先下载pyexecjs:pip install PyExecJS如果有需要,自行下载PyV8 , Node.js , PhantomJS等使用参考:https://github.com/doloopwhile/PyExecJSPyExecJS文档:https://pypi.org/project/PyExecJS/此次采集链接:http://www.landchi...

2019-06-20 14:18:54 3101

转载 mongodb,redis,hbase区别

【转载】原文地址:https://www.zhihu.com/question/30219620一、NOSQL1.关于NoSQLNoSQL的粗线的背景大概是因为随着数据量的扩大,在一些对数据集的分析中,传统的关系型数据库的计算成本变得很大。NoSQL凭借着它高大上的“易扩展、大数据、高可用、高性能、灵活性”,强势登场。2.关于NoSQL的种类二、mongodb,...

2019-05-31 11:40:42 275

原创 仿射加密-C语言

1、[仿射加密概念](https://baike.baidu.com/item/%E4%BB%BF%E5%B0%84%E5%AF%86%E7%A0%81/2250198?fr=aladdin)2、代码:#include<stdio.h>#include<string.h>void pritext(char text[128]);void cryp(ch...

2019-03-26 16:17:30 1369

转载 爬虫篇(1)-Scrapy - 基础(转)

ScrapyScrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。一、scra...

2019-03-09 16:38:02 1317

原创 1、渗透之利用sqlmap对dvwa进行sql注入

测试环境:dvwa+Kail1、寻找注入点:http://192.168.43.75/dvwa/vulnerabilities/sqli/1.2、注入点初步测试: 1' union select user, password from users#1.3、继续测试:1'or'1'='12、使用Kail工具测试:sqlmap -u http://192.168.43....

2019-02-28 18:01:55 7088 1

原创 机器学习四(学习笔记) 回归算法(转)

回归算法回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归...

2018-12-18 16:39:41 2243

原创 机器学习三(学习笔记) 朴素贝叶斯和随机森林1.2(转)

一、朴素贝叶斯朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。朴素贝叶斯分类器的构造基础是贝叶斯理论。1、概率论基础概率定义为一件事情发生的可能性。事情发生的概率可以 通过观测数据中的事件发生次数来计算,事件发生的概率等于改事件发生次数除以所有事件发生的总次数。举一些例子:扔出一个硬币,结果头像朝上某天是晴天某个单词在未知文档中出现我们将事件的概...

2018-12-18 16:36:40 3493

转载 数据分析-04数据分析之Pandas(二)(转)

一、Pandas统计计算和描述示例代码:import numpy as npimport pandas as pddf = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])print(df)运行结果: a b c d0 1.46...

2018-12-18 16:32:55 823

转载 数据分析-03数据分析之Pandas(一)(转)

第三部分数据分析工具PandasPandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。一个强大的分析和操作大型结构化数据集所需的工具集基础是NumPy,提供了高...

2018-12-18 16:26:54 585 1

转载 数据分析-02数据分析之numpy(转)

第二部分 numpy学习安装pip install numpy1、什么是numpy一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算快速方便科学计算的基础库[1,2,3,4,5]2、numpy基础1、numpy创建数组(矩阵)start:可选数间隔的开始。在间隔包括本价值。默认启动值...

2018-12-18 16:23:58 642

转载 数据分析-01数据分析之数据可视化(转)

一、数据分析介绍什么是数据分析:百度百科:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的过程:数据收集:本地数据或者网络数据的采集与操作.数据处理:数据的规整,按照某种格式进行整合存储。数据分析:数据...

2018-12-18 16:12:11 4063 1

原创 机器学习二(学习笔记) sklearn数据集及K近邻算法(转)

机器学习应用程序的步骤(1)收集数据我们可以使用很多方法收集样本护具,如:公司自有数据制作网络爬虫从网站上抽取数据、第三方购买的数据合作机构提供的数据从RSS反馈或者API中得到信息、设备发送过来的实测数据。(2)准备输入数据得到数据之后,还必须确保数据格式符合要求。(3)分析输入数据这一步的主要作用是确保数据集中没有垃圾数据。如果是使用信任的数据来源,那么可以直接跳过这个步...

2018-12-17 12:00:03 1966

原创 机器学习一(学习笔记) 数据的特征抽取及预处理

Scikit-learn安装Scikit-learnpip3 install Scikit-learnpip3 install scipy一、数据的特征抽取现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法1、字典数据抽取...

2018-12-17 11:59:38 3882

原创 18-12-11-可视化库Seaborn学习笔记(七:Heatmap)

1、数据准备import matplotlib.pyplot as pltimport numpy as np; np.random.seed(0)import seaborn as sns;sns.set()uniform_data = np.random.rand(3, 3)print (uniform_data)heatmap = sns.heatmap(unifor...

2018-12-11 21:52:49 657

原创 18-12-11-可视化库Seaborn学习笔记(六:FacetGrid)

参数:  data :DataFrame 整洁(“长形式”)数据框,其中每列是变量,每行是观察。 row,col,hue:strings 定义数据子集的变量,将在网格中的不同构面上绘制。请参阅*_order参数以控制此变量的级别顺序。 col_wrap:int,可选 以此宽度“包裹”列变量,以便列面跨...

2018-12-11 21:47:53 1121

转载 Python 拓展之详解深拷贝和浅拷贝(转载)

总结:无拷贝--则为引用 浅拷贝--列表依旧为引用 深拷贝--完全拷贝,列表不在为引用转载地址:https://www.cnblogs.com/Rocky0429/p/10088657.html正式开始首先我在这介绍两个新的小知识,要在下面用到。一个是函数 id() ,另一个是运算符 is。id() 函数就是返回对象的内存地址;is 是比较两个变量的对象引用是否指向同一个对象,在...

2018-12-10 16:49:44 444

原创 18-12-9-可视化库Seaborn学习笔记(五:category-分类)

数据导入#!/usr/bin/python# -*- coding: UTF-8 -*-# %matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as snssns.set(styl...

2018-12-09 14:07:05 860

java游戏笨鸟

曾经老师带我们写的java游戏笨鸟(也称FlappyBird),一款简单的java游戏,初学java的人可以看一下

2018-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除