why1673-CSDN博客

转载机器学习交叉验证与网格搜索调参

网格搜索一般是针对参数进行寻优，交叉验证是为了验证训练模型拟合程度。sklearn中的相关API如下：（1）交叉验证的首要工作：切分数据集train/validation/testA.)没指定数据切分方式，直接选用cross_val_score按默认切分方式进行交叉验证评估得分，如下图fro...

2018-08-01 14:34:17 2675 1

转载 RandomForest 参数调优

随机森林参数记录1、先用默认参数看预测结果 2、然后用gridsearchcv探索n_estimators的最佳值 3、然后确定n_estimators,据此再搜索另外两个参数：再对内部节点再划分所需最小样本数min_samples_split和叶子节点...

2018-08-01 14:24:07 5734

原创数据分析与机器学习之线性回归(四)

一机器学习分类有监督学习 1 概述: 主要用于决策支持，它利用有标识的历史数据进行训练，以实现对新数据的表示的预测 2 分类: 分类计数预测的数据对象是离散的。如短信是否为垃圾短信，用户是否喜欢电子产品比如: K近邻、朴素贝叶斯、决策树、SVM 3 回归: 回归技术预测的数据对象是连续值, 例如温度变化或时间变化。包括一元回归和多...

2018-07-23 22:37:33 539

原创机器学习之贝叶斯(五)

1 朴素贝叶斯概述朴素贝叶斯是一种简单但是非常强大的线性分类器。它在垃圾邮件分类，疾病诊断中都取得了很大的成功。它只所以称为朴素，是因为它假设特征之间是相互独立的，但是在现实生活中，这种假设基本上是不成立的。那么即使是在假设不成立的条件下，它依然表现的很好，尤其是在小规模样本的情况下。但是，如果每个特征之间有很强的关联性和非线性的分类问题会导致朴素贝叶斯模型有很差的分类效果。 ...

2018-07-20 08:47:08 411

原创机器学习之决策树(四)

1 决策树概述决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。之前介绍的K-近邻算法可以完成很多分类任务，...

2018-07-19 19:33:26 563

原创机器学习入门KNN近邻算法(一)

1 机器学习处理流程:2 机器学习分类:有监督学习主要用于决策支持，它利用有标识的历史数据进行训练，以实现对新数据的表示的预测1 分类分类计数预测的数据对象是离散的。如短信是否为垃圾短信，用户是否喜欢电子产品常用方法: K近邻、朴素贝叶斯、决策树、SVM2 回归回归技术预测的数据对象是连续值。例如温度变化或时间变化。包括一...

2018-07-16 16:39:12 482 1

原创 matplotlib线型与坐标轴与四图(六)

plot语句中支持除X,Y以外的参数，以字符串形式存在，来控制颜色、线型、点型等要素，语法形式为： plt.plot(X, Y, ‘format’, …)1 点和线的样式颜色参数color或c五种定义颜色值的方式别名color='r'合法的HTML颜色名color = 'red'HTML十六进制字符串color = '#eeefff'归一化到[0, 1]的RGB...

2018-07-16 12:00:15 1718

原创数据分析之scipy常用方法(五)

1 Scipy简介Scipy依赖于NumpyScipy提供了真正的矩阵Scipy包含的功能：最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等Scipy是高端科学计算工具包Scipy由一些特定功能的子模块组成2 图片消噪:傅里叶变换#模块用来计算快速傅里叶变换import scipy.fftpack as fftpa...

2018-07-14 14:20:11 2161

原创数据分析之pandas常见的数据处理(四)

常见聚合方法方法说明 count 计数 describe 给出各列的常用统计量 min,max 最大最小值 argmin,argmax 最大最小值的索引位置（整数） idxmin,idxmax 最大最小值的索引值 quantile 计算样本分位数 sum,mean 对列求和，均值 me...

2018-07-13 12:25:50 905

原创鱼书学习小结(一)

1 安装环境python -V #查看版本pip -V #查看版本pip list #查看列表makedir fisher #新建项目目录pip install pipenv #进入项目目录安装pipenvpipenv install #创建的虚拟环境绑定到项目目录pipenv shell #激活项目,启动虚拟环境2 安装flask...

2018-07-11 09:33:00 2233 2

原创网络协议HTTP TCP与UDP 浏览器缓存 Restful(十)

一 TCP网络协议1 建立TCP连接:三次握手原则客户端通过向服务器端发送一个SYN来创建一个主动打开，作为三次握手的一部分。客户端把这段连接的序号设定为随机数 A。服务器端应当为一个合法的SYN回送一个SYN/ACK。ACK 的确认码应为 A+1，SYN/ACK 包本身又有一个随机序号 B。最后，客户端再发送一个ACK。当服务端受到这个ACK的时候，就完成了三路握手，并进入了连接创...

2018-07-11 09:32:14 979

原创爬虫入门之反反爬虫机制cookie UA与中间件(十三)

1. 通常防止爬虫被反主要有以下几个策略(1)动态设置User-Agent(随机切换User-Agent,模拟不同的浏览器)方法1: 修改setting.py中的User-Agent# Crawl responsibly by identifying yourself (and your website) on the user-agentUSER_AGENT = 'Hell...

2018-07-09 09:24:33 2002

原创爬虫入门之Scrapy框架实战(新浪百科豆瓣)(十二)

一新浪新闻爬取1 爬取新浪新闻(全站爬取)项目搭建与开启scrapy startproject sinacd sinascrapy genspider mysina http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml2 项目setting配置ROBOTSTXT_OBEY = FalseIT...

2018-07-08 16:12:44 367

原创爬虫入门之Scrapy框架基础LinkExtractors(十一)

1 parse()方法的工作机制：1. 因为使用的yield，而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果，并判断该结果是一个什么样的类型；2. 如果是request则加入爬取队列，如果是item类型则使用pipeline处理，其他类型则返回错误信息。3. scrapy取到第一部分的request不会立马就去发送这个req...

2018-07-07 09:08:41 824

原创爬虫入门之Scrapy框架基础框架结构及腾讯爬取(十)

Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。（推荐安装IPython）1 启...

2018-07-06 09:09:54 245

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完...

2018-07-05 09:26:16 402

原创 python多进程与协程

1、进程的概念什么是进程—>CPU在同一时刻只能处理一个任务,只是因为cpu执行速度很快。 cpu在各个任务之间来回的进行切换。进程的概念：正在进行的一个过程或者说一个任务，而负责执行任务的则是CPU，进程本身是一个抽象的概念,即进程就是一个过程、一个任务。 CPU描述的是一个程序的执行过程. 进程之间是如何做到并发的：CPU在各个任务之间来回的进行切换，并在切换...

2018-07-04 09:22:53 1177

原创 python多线程

在介绍Python中的线程之前，先明确一个问题，Python中的多线程是假的多线程！为什么这么说，我们先明确一个概念，全局解释器锁（GIL）什么是GILPython代码的执行由Python虚拟机（解释器）来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁（GIL）来控制，正是这个锁能保证同时只有一个线程在运行。为什么要GIL为了线程间数据的一致性和状态...

2018-07-03 11:53:38 149

原创爬虫入门之线程进程协程抓取方法(八)

1 多线程抓取import lxmlfrom lxml import etreeimport requestsimport threadingimport timerlock = threading.RLock() # 递归锁headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) A...

2018-07-02 10:19:53 361

原创爬虫入门之绘图matplotlib与词云(七)

1 绘制条形图import matplotlib # 数据可视化from matplotlib import pyplot as plt# 配置字体matplotlib.rcParams["font.sans-serif"] = ["simhei"] # 黑体matplotlib.rcParams["font.family"] = "sans-serif"'''left, x...

2018-06-30 10:15:12 3755

原创 python字符串反转高阶函数 @property与sorted(八)

(1)字符串反转1倒序输出s = 'abcde'print(s[::-1])#输出: 'edcba'2 列表reverse()操作s = 'abcde'lt = list(s)lt.reverse()print(''.join(lt))#输出: 'edcba'3 二分法交换位置s = 'abcde'lt = list(s)for i in ran...

2018-06-29 09:03:38 476

原创爬虫入门之jsonPath PhantomJS与 selenium详解(六)

1 jsonPath数据格式pip安装： pip install jsonpath 用来解析json格式的字符串，类似于xpath(1) json对象的转换json.loads()json.dumps()json.load()json.dump()#直接读取json对象json_obj = json.load(open('books.json','r',enco...

2018-06-28 20:57:57 1010

原创爬虫入门之爬取策略 XPath与bs4实现(五)

在爬虫系统中，待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题，因为这涉及到先抓取那个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，叫做抓取策略。下面重点介绍几种常见的抓取策略：1 深度优先遍历策略:深度优先遍历策略是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。我们以下面的...

2018-06-27 21:09:27 395

原创爬虫入门之Requests模块学习(四)

1 Requests模块解析Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。requests 的底层实现其实就是 urllib3 R...

2018-06-27 09:35:22 261

原创爬虫入门之handler与opener(三)

1 自定义openeropener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的模块构建好的opener但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：（1）使用相关的 Handler处理器来创建特定功能的处理器对象；（2）然后通...

2018-06-25 19:24:23 2039

原创 mongodbpython3.6mysql的安装

1 下载与解压在官网下载mongodb安装包tar -zxvf mongodb-linux-x86_64-ubuntu1604-3.4.0.tgz2 移动安装文件sudo mv mongodb-linux-x86_64-ubuntu1604-3.4.0 /usr/local/mongodb3 添加环境变量sudo vim /etc/profile最后一...

2018-06-24 18:21:37 220

原创 nginx配置+uwsgi+负载均衡配置

nginx静态文件配置location /static{ alias /var/www/myApp/static; }sudo mkdir -vp /var/www/myApp/static/sudo chmod 777 /var/www/myApp/static/#工程目录settings下配置静态文件STATIC_ROOT = '/v...

2018-06-24 10:55:03 2030

原创 Python 调度算法死锁静动态链接分页分段(七)

1 select poll epoll的区别基本上select有3个缺点:连接数受限查找配对速度慢数据由内核拷贝到用户态poll改善了第一个缺点epoll改了三个缺点.(1）select，poll实现需要自己不断轮询所有fd集合，直到设备就绪，期间可能要睡眠和唤醒多次交替。而epoll其实也需要调用epoll_wait不断轮询就绪链表，期间也可能多次睡眠和唤醒交替，但是...

2018-06-24 10:52:46 313

原创爬虫入门之urllib库详解(二)

1 urllib模块urllib模块是一个运用于URL的包urllib.request用于访问和读取URLSurllib.error包括了所有urllib.request导致的异常urllib.parse用于解析URLSurllib.robotparser用于解析robots.txt文件（网络蜘蛛）2 urllib读取网页的三种方式urlopen直接打开urlo...

2018-06-22 14:33:43 393

转载 scrapy的安装

转载：http://blog.csdn.net/c406495762/article/details/60156205一、Scrapy简介     Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架，可以应用于数据挖掘，信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。现在，Scrapy已经推出了曾承诺过...

2018-06-21 11:10:23 171

转载爬虫之requests详解

&nbsp;简介　　Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，Requests它会比urllib更加方便，可以节约我们大量的工作。一、安装&nbsp;pip快速安装?1pip install requests&nbsp;&nbsp;二、使用&nbsp;　　1、先上一串代码?123456...

2018-06-21 10:18:36 1821

原创 Python中深浅拷贝垃圾回收与 super继承(六)

1 python拷贝深拷贝，浅拷贝与引用三者的区别import copya = [1, 2, 3, 4, ['a', 'b']] #原始对象b = a #赋值，传对象的引用c = copy.copy(a) #对象拷贝，浅拷贝d = copy.deepcopy(a) #对象拷贝，深拷贝a.append(5) #修改对象aa[4].append('c') #修...

2018-06-21 08:41:13 195

原创爬虫入门之爬虫概述与urllib库(一)

1 爬虫概述(1)互联网爬虫一个程序，根据Url进行爬取网页，获取有用信息(2)核心任务爬取网页解析数据难点 :爬虫和反爬虫之间的博弈(3)爬虫语言php 多进程和多线程支持不好java 目前java爬虫需求岗位旺盛，但代码臃肿，重构成本高，而爬虫需要经常修改，所以不好用C\C++ 学习成本比较高，性能和效率高，停留在研究层面，市场需求...

2018-06-20 20:02:26 305

原创 Python 进程线程协程 GIL 闭包与高阶函数（五）

1 GIL线程全局锁线程全局锁(Global Interpreter Lock),即Python为了保证线程安全而采取的独立线程运行的限制,说白了就是一个核只能在同一时间运行一个线程.对于io密集型任务，python的多线程起到作用，但对于cpu密集型任务，python的多线程几乎占不到任何优势，还有可能因为争夺资源而变慢。在分析线程全局锁之前我们先聊下python.(1) p...

2018-06-20 08:36:04 1394

原创 Python新式类 new init 单例模式与作用域(四)

1 新式类与旧式类新式类拥有经典类的全部特性之外,还有一些新的特性,比如 __init__发生变化,新增了静态方法__new__,python3目前都采用新式类,新式类是广度优先,旧式类是深度优先#新式类class C(object): pass#经典类class B: pass(1)内置的object对象1. __new__，__init__方...

2018-06-18 21:53:39 258

原创 Python装饰器AOP 不定长参数鸭子类型重载(三)

1 可变长参数与关键字参数*args代表任意长度可变参数**kwargs代表关键字参数用*args和**kwargs只是为了方便并没有强制使用它们.缺省参数即是调用该函数时，缺省参数的值若未被传入，则传入默认预设的值。注意 : 须将所有带有默认值的参数置于参数列表的末尾。 def print_info(name, age = 18，gender = True )pr...

2018-06-17 22:18:15 323

原创 django模型详解(四)

1 概述(1)概述 : Django对各种数据库提供了很好的支持,Django为这些数据库提供了统一的调用API,根据不同的业务需求选择不同的数据库(2)定义模型模型,属性,表,字段间的关系一个模型类对应数据库的一张表,在模型类中定义属性,对应模型对照表的字段配置数据库(3)django开发流程:1 配置数据库2 定义模型类 : 一个模型类一张数据表3 生成迁移文件 ...

2018-06-17 15:26:26 442

原创 django模板详解(二)

1 总体结构 Django是MTV结构，即：Model, Template, View Model：定义数据的存储格式，并且提供了数据库访问的API。 View：定义那些数据被显示，是业务逻辑处理模块。 Template：定义数据如何被显示。 Django工程包含工程的配置、及多个APP，每个APP完成相对...

2018-06-16 09:44:19 269

原创 django视图详解(三)

1 视图views概述1 作用: 视图接受web请求并响应web请求2 本质: 视图就是python中的处理函数3 响应: 一般是一个网页的HTML内容、一个重定向、错误信息页面、json格式的数据2 django访问过程#1用户在浏览器输入网址 www.sunck.wang/sunck/index.html#2 django获取网址信息网址去除ip...

2018-06-14 22:42:19 234

原创 django项目创建流程(一)

1 搭建环境sudo apt-get install python3-pip 安装pip3sudo pip3 install virtualenv 安装虚拟环境virtualenv -p python3 DjangoEnv 新建虚拟环境source DjangoEnv/bin/activate 进入虚拟环境pip freeze ...

2018-06-13 22:57:15 248

Python七大类常见问题详解.rar

初学者Python编程实例58例(基础语法很经典)

空空如也