自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 Flask的使用

什么是FlaskFlask是一个使用 Python 编写的轻量级 Web 应用框架。其 WSGI 工具箱采用 Werkzeug ,模板引擎则使用 Jinja2 。Flask使用 BSD 授权。导入Flask类:from flask import Flaskapp = Flask(__name__)什么是Web框架?Web应用程序框架或简单的Web框架表示一组库和模块,它们使Web应...

2019-02-27 16:04:47 407

原创 pandas案例之消费金额和消费之间的关联与性别和吸烟与否的关系

文件内容: 总消费金额, 小费金额, 性别, 是否抽烟, 日期, 时间, 星期需求:- 分别吸烟顾客与不吸烟顾客的消费金额与小费之间的散点图;- 女性与男性中吸烟与不吸烟顾客的消费金额与小费之间的散点图关系;import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfilename = 'do...

2019-02-27 15:04:28 1386 1

原创 pandas案例之商品数据分析

文件名称: doc/chipo.csv文件描述: 每列数据分别代表如下: 订单编号, 订单数量, 商品名称, 商品详细选择项, 商品总价格需求1:1). 从文件中读取所有的数据;2). 获取数据中所有的商品名称;3). 跟据商品的价格进行排序, 降序,将价格最高的20件产品信息写入mosthighPrice.xlsx文件中;需求2:1). 统计列[item_name]中每种商品出现...

2019-02-27 14:57:56 4273

原创 Pandas应用

什么是Pandas?Pandas 是基于 NumPy 的一个开源 Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作。它的名字来源是由“ Panel data”(面板数据,一个计量经济学名词)两个单词拼成的。简单地说,你可以把 Pandas 看作是 Python 版的 Excel。常见的数据类型1)Series:一维数组,与Numpy中的一维array类似。二者与Pyth...

2019-02-27 14:46:33 676

原创 numpy实践之学生身高体重统计

需求1:获取所有男生的身高, 求平均值;获取所有女生的身高, 求平均值;并绘制柱状图显示import numpy as npfrom pyecharts import Barfname = "doc/eg6-a-student-data.txt"dtype = np.dtype([('gender', '|S1'), ('height', 'f2')])data = np.load...

2019-02-22 21:58:31 3232 1

原创 理解Numpy

什么是Numpy?一个用python实现的科学计算包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的...

2019-02-22 21:55:02 274

原创 统计图绘制

绘制多个条形图from pyecharts import Barx_movies_name = ["猩球崛起", "敦刻尔克", "蜘蛛侠", "战狼2"]y_16 = [15746, 312, 4497, 319]y_15 = [12357, 156, 2045, 168]y_14 = [2358, 399, 2358, 362]bar = Bar(title="某年内地电影票房...

2019-02-22 21:33:18 863

原创 Matplotlib实践案例之直方图练习

案例1:250部电影的时长, 电影时长的分布状态;把数据分为多少组进行统计?- 如果数据在100个以内, 一般分为5-12组;- 组距:每个小组里面端点的距离;组数 = 极差 / 组距import randomfrom matplotlib import pyplot as plty = [random.randint(60,180) for i in range(250)]...

2019-02-22 21:18:19 1088

原创 Matplotlib实践之折线图练习

需求1:绘制10点到12点每分钟的气温, 如何绘制折线图观察每分钟气温的变化情况?temps = [random.randint(20, 35) for i in range(120)]from matplotlib import font_managerfrom matplotlib import pyplot as pltmyfont = font_manager.FontPro...

2019-02-22 20:56:54 1070 1

原创 Matplotlib

什么是Matplotlib?Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形 [1] 。通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等Matplotlib基础知识1.Matplotlib中的基本图表包括的元素x轴和y轴水平和垂直的轴线x轴和y轴刻度...

2019-02-22 20:38:56 185

原创 反爬虫的策略

策略一:设置download_delay - 作用:设置下载的等待时间,大规模集中的访问对服务器的影响最大,相当与短时间中增大服务器负载。 - 缺点: 下载等待时间长,不能满足段时间大规模抓取的要求,太短则大大增加了被ban的几率策略二:禁止cookies - Cookie,有时也用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 session ...

2019-02-22 20:23:51 177

原创 Scrapy框架

Scrapy介绍Scrapy一个开源和协作的框架,其最初是为了页面抓取(更确切来说,网络抓取)所设计的,使用它可以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如挖掘、监测和自动化测试等领域,也可以应用在API所返回的数据(例如Amazon Associates Web Services)或者通用的网络爬虫。Scrapy是基于twisted框架开发而...

2019-02-20 20:18:15 183

原创 保存cookie信息

什么是cookie:Cookie,有时也用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。cookie某些网站为了辨别用户身份, 只有登陆某个页面才可以访问;登陆信息保存方式: 进行一个会话跟踪(session),将用户的相关信息保存到本地的浏览器中;保存cookie1.获取cookie信息保存到变量Cooki...

2019-02-20 15:04:20 1255

原创 爬取mooc网课程(xpath爬取实例)

代码描述:爬取的链接: http://www.imooc.com/course/list爬取的内容: 课程链接, 课程的图片url, 课程的名称, 学习人数, 课程描述爬取的内容如何存储:文件(.csv, );mysql数据库;分析爬取的信息;词云import reimport requestsimport lxml.etree as etreeimport...

2019-02-20 13:59:33 1110

原创 简单了解xpath

什么是xpath?XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。xpath的语法选取节点 XPath 使用路径表达式...

2019-02-20 11:37:50 755

原创 理解CSV格式

什么是CSV?逗号分隔值(Comma-Separated Values,CSV),其文件以纯文本形式存储表格数据(数字和文本),文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,用逗号分隔。使用逗号作为字段分隔符是此文件格式的名称的来源,因为分隔字符也可以不是逗号,有时也称为字符分隔值。CSV广泛用于不同体系结构的应用程序之间交换数据表格信息,解决不兼容数据格式的互通问题,一般按照传...

2019-02-20 11:24:28 540

原创 中国大学排名(定向爬虫实例代码)

import requestsfrom bs4 import BeautifulSoupimport bs4def get_content(url,): try: user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.307...

2019-02-20 10:59:30 1537

原创 走进bs4

一. bs4模块的简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为tiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编一下原始编码方式就可以了。人工智能行业的发展是以大数据为基础的,在人工智能行业当中,数据比模型本身要重要的多...

2019-02-20 10:48:29 191

原创 python中的反爬虫设置代理

Ip代理为什么?如何防止IP被封?2. 如何防止IP被封?设置延迟: time.sleep(random.randint(1,3))使用IP代理, 让其他的IP代替你的IP访问页面;如何获取代理IP?https://www.xicidaili.com/ (西刺代理网站提供)ProxyHandler ======> Request()Opener ====...

2019-02-18 20:51:02 241

原创 python中的反爬虫模拟浏览器

什么是爬虫?就是在互联网上一直爬行的蜘蛛, 如果遇到需要的资源, 那么它就会抓取下来(html内容);模拟浏览器快速访问页面的内容.浏览网页的过程中发生了什么?浏览器输入http://www.baidu.com/bbs/;1). 根据配置的DNS获取www.baidu.com对应的主机IP;2). 根据端口号知道跟服务器的那个软件进行交互。3). 百度的服务器接收客户端...

2019-02-18 20:48:10 293

原创 python中的正则表达式

字符匹配: r'westos'字符类: [pP]ython westos[pP] [aeiou] [a-z] [A-Z] [a-zA-Z0-9] [^aeiou] [^0-9]特殊字符类: .: 匹配除了\n之外的任意字符; [.\n] \d: digit--(数字), 匹配一个数字字符, 等价于[0...

2019-02-18 20:35:29 110

原创 python中的mytimeit

import timedef timeit(f): def wrapper(*args, **kwargs): start_time = time.time() res = f(*args, **kwargs) end_time = time.time() print("%s函数运行时间:%.8f" % (f.__name...

2019-01-21 21:52:25 298

原创 python中的进程间的通信之管道Pipe

代码描述:$ 1). Pipe管道,进程间通信的方式, l类似于 ls | wc -l;2). Pipe()返回两个连接对象, 分别代表管道的两边;3). 管道通信操作的方法: send(), recv;4). 管道间的通信是双向的, 既可以发送,也可以接收;import multiprocessing# 线程通信=====(队列) ---- from queue import Que...

2019-01-21 21:52:09 1106

原创 python中的进程间的通信之生产者消费者模型

代码描述:进程间通信: 生产者消费者模型, socket请你说说进程间通信的集中方式?import multiprocessing# 线程通信=====(队列) ---- from queue import Queue# 进程池中进程通信=====(队列) --- from multiprocess.Manager import Queue# 多进程通信=========(队列) ...

2019-01-21 21:51:55 129

原创 python中的多进程拷贝文本文件2

代码描述:拷贝的原理:1). 读取源文件的内容;2). 写入新的文件中;import osimport timeimport multiprocessing # 进行进程间的通信, Queuefrom queue import Queuefrom concurrent.futures import ProcessPoolExecutordef copyFileTask(ol...

2019-01-21 21:51:42 83

原创 python中的多进程拷贝文本文

代码描述:拷贝的原理:1). 读取源文件的内容;2). 写入新的文件中;import osimport timeimport multiprocessing # 进行进程间的通信, Queuefrom queue import Queuedef copyFileTask(oldFolderName, newFolderName, filename, queue): "...

2019-01-21 21:51:26 118

原创 python中的进程池的第2种实现方式

from concurrent.futures import ProcessPoolExecutordef job(id): print("start %d...." % (id)) print("end %d...." % (id))pool = ProcessPoolExecutor(max_workers=4)## for id in range(10):#...

2019-01-21 21:51:14 132

原创 python中的进程池的第一种实现方式

代码描述:在使用Python进行系统管理时,特别是同时操作多个文件目录或者远程控制多台主机,并行操作可以节约大量时间,如果操作的对象数目不大时,还可以直接适用Process类动态生成多个进程,几十个尚可,若上百个甚至更多时,手动限制进程数量就显得特别繁琐,此时进程池就显得尤为重要。进程池Pool类可以提供指定数量的进程供用户调用,当有新的请求提交至Pool中时,若进程池尚未满,就会创建...

2019-01-21 21:50:58 175

原创 python中的进程锁

import multiprocessingdef work(f, item, lock): # lock.acquire() try: with open(f, 'a+') as f: f.write("a %s task\n" % (item)) except Exception as e: print("产生异...

2019-01-21 21:50:46 284

原创 python中的多进程案例效率演示

import threadingimport timefrom mytimeit import timeitimport multiprocessingdef job(li): return sum(li)@timeitdef use_thread(): li = range(1, 100000000) # create 5 threads thr...

2019-01-21 21:50:30 151

原创 python中的类的继承实现多线程

代码描述:如果你打算编写多进程的服务程序,Unix/Linux无疑是正确的选择。由于Windows没有fork调用,难道在Windows上无法用Python编写多进程的程序?由于Python是跨平台的,自然也应该提供一个跨平台的多进程支持。multiprocessing模块就是跨平台版本的多进程模块。multiprocessing模块提供了一个Process类来代表一个进程对象,下面的例...

2019-01-21 21:50:15 883

原创 python中的multiprocess跨平台实现多线程

*代码描述:1.理解:如果你打算编写多进程的服务程序,Unix/Linux无疑是正确的选择。由于Windows没有fork调用,难道在Windows上无法用Python编写多进程的程序?由于Python是跨平台的,自然也应该提供一个跨平台的多进程支持。multiprocessing模块就是跨平台版本的多进程模块。multiprocessing模块提供了一个Process类来代表一个进程...

2019-01-21 21:38:05 499

原创 python中的exampl

import osimport timeimport multiprocessingfrom queue import Queuedef copyFileTask(oldFolderName,newFolderName,filename,queue): fr = open(os.path.join(oldFolderName,filename),'rb') fw = op...

2019-01-21 21:37:50 417

原创 python中的Linux系统如何创建子进程

代码描述:1). Unix/Linux操作系统提供了一个fork()系统调用,它非常特殊。普通的函数调用,调用一次,返回一次,但是fork()调用一次,返回两次,因为操作系统自动把当前进程(称为父进程)复制了一份(称为子进程),然后,分别在父进程和子进程内返回。2). 子进程永远返回0,而父进程返回子进程的ID。这样做的理由是,一个父进程可以fork出很多子进程,所以,父进程要记下每个子...

2019-01-21 21:37:36 430

原创 python中的线城池实现生产者消费者模型

代码描述:需求1: 给定200个ip地址, 可能开放端口为80, 443, 7001, 7002, 8000, 8080,9000(flask), 9001以http://ip:port形式访问页面以判断是否正常访问.1). 构建所有的url地址;===存储到一个数据结构中2). 依次判断url址是否可以成功访问实现多线程:1). 实例化对象threading.Thre...

2019-01-21 21:37:18 133

原创 python中的线程池map的应用

import timedef timeit(f): def wrapper(*args, **kwargs): start_time = time.time() res = f(*args, **kwargs) end_time = time.time() print("%s函数运行时间:%.2f" % (f.__nam...

2019-01-21 21:37:05 2447

原创 python中的线程池submit应用

代码描述:_thread, threading, multiprocessing池子, 只放制定个线程(10个线程),线程池里面的线程越多越好?import timedef timeit(f): def wrapper(*args, **kwargs): start_time = time.time() res = f(*args, **kwarg...

2019-01-21 21:36:41 12233

原创 python中的线程池submi

代码描述:_thread, threading, multiprocessing池子, 只放制定个线程(10个线程),# python3.2版本之后才有的;from concurrent.futures import ThreadPoolExecutordef job(num): # 需要执行的任务 print("这是一个%s任务" %(num)) retur...

2019-01-21 21:36:17 314

原创 python中的多线程实现获取地理位置

# 1. 简单的爬虫:import threadingimport timefrom urllib.request import urlopendef timeit(f): def wrapper(*args, **kwargs): start_time = time.time() res = f(*args, **kwargs) ...

2019-01-21 21:26:20 410

原创 python中的实现多线程的下载器

代码描述:当你创建用户界面并想保持界面的可用性时,线程就特别有用。没有线程,用户界面将变得迟钝,当你下载一个大文件或者执行一个庞大的数据库查询命令时用户界面会长时间无响应。为了防止这样情况发生,你可以使用多线程来处理运行时间长的进程并且在完成后返回界面进行交互。import threadingfrom urllib.request import urlopenDOWNLOAD_D...

2019-01-21 21:24:59 483

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除