自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

张大千的博客

原创机器学习 Cohen s Kappa，Quadratic Weighted Kappa 详解

首先需要明确，Kappa系数既可用于统计中的一致性检验，也可以用于机器学习中来衡量分类精度。它们的本质是一样的，但是理解方式略有不同，本文将从机器学习的角度来阐述Kappa系数。一、基本思想一般来说，对于机器学习中的分类问题，最简单粗暴的衡量指标就是准确率（accuracy），但是对于样本标签分布极其不均衡的数据，准确率就会出现误导了。比如对于如下数据集，100个样本中10个是猫，10个是狗，需要预测每个样本是猫还是狗。当我们直接预测所有样本都是狗时，我们的预测率就可以达到90%。这个准确率会造成分

2020-05-25 15:22:16 11907 3

原创【长文干货】MySQL必知必会——增删改查知识总结

1.准备工作1.1使用wampserver安装本地服务器1.2安装Navicat软件1.3下载本文所需数据库文件MySQL Crash Course1.4登录你的mysql1.5将下载的sql文件导入到本地mysql服务器2.上手使用Mysql2.1 查看你的数据库和表查看所有可用的数据库，返回一个数据库列表SHOW DATABASES;选择数据库USE crashcou...

2019-01-20 11:44:25 601

原创使用pandas选择和索引数据方法大全，附思维导图

使用pandas索引和选择数据时，总是需要百度，因此决定对pandas.DataFrame中的索引和选择方法做个总结。pandas中有三种主要索引方法：[] ：基本切片方法.loc ：基于标签.iloc ：基于位置注意：.ix的用法在0.20.0中已经不建议使用了！本文所有的索引和选择都是对以下这个DataFrame进行：import pandas as pdimport nu...

2019-01-15 16:33:40 1216 1

原创 Pycharm如何关闭代码补全 / 代码提示功能

Pycharm是一款非常好用的Python的IDE。但就是因为它太好用了，所以对于Python新手来说，反而会导致脱离了代码提示功能，就完全不记得了函数名，大小写等，这对于新手来说是不太利于成长的。但是有一说一，Pycharm本身还是非常好用的，而且用习惯了，因此我一直想能够在学习的时候把Pycharm的代码提示功能关闭，工作的时候再打开，找了很久终于找到了 T_T。当没有关闭代码提示的时候，...

2019-01-15 11:09:10 30891

原创解决Pycharm和pip都安装TensorFlow失败的问题(Windows 10)

pip报错：Could not find a version that satisfies the requirement tensorflow (from versions: ) No matching distribution found for tensorflowPycharm报错：Error occured when installing package ‘tensorflow’解决...

2019-01-14 17:02:28 11263 5

原创【Python机器学习实战】无监督学习之PCA和K-Means二连击

简介无监督学习着重于发现数据本身的分布特点。与监督学习不同，无监督学习不需要对数据进行标记。从功能上来看，无监督学习模型可以用于发现数据的“群落”（聚类），同时也可以寻找“离群”的样本，另外，对于特征维度非常高的数据样本，我们同样可以通过无监督的学习对数据进行降维（PCA），保留最具有区分性的低维度特征。这些都是在海量数据处理中非常实用的技术。K均值（K-means）算法K均值算法是数据聚...

2019-01-12 14:35:03 934

原创【Python机器学习实战】一个案例迅速入门所有的Scikit-learn回归模型

简介本文旨在通过经典的波士顿放假预测问题来实战运行一下sk-learn中所有常见的回归算法，因此不涉及过多的算法讲解。下面，先对本文中会用到的算法进行简单的介绍：线性回归器：线性回归器是最简单、易用的回归模型。由于预测目标直接是实数域上的数值，因此优化目标非常简单，即最小化预测结果和真实值间的差异。本文中我们将使用一种精确计算的解析算法（Linear Regression）和一种快速的随机梯...

2019-01-11 18:14:58 2115 1

原创 sklearn机器学习实例 - 决策树和集成分类模型入门与实战

简介决策树（decision tree）是一类常见的机器学习方法，目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。本文目的在于快速通过sklearn实践算法而获得直观感受，因此对于算法的原理不做过多深入介绍，感兴趣的朋友可以看下这篇博客：机器学习实战（三）——决策树问题引出下面我们通过实际的例子了解一下决策树是什么。本文使用的数据来自于一部经典的电影：泰坦尼克号所发生的真实事故...

2019-01-10 15:54:59 1440

原创 sklearn实例 - K近邻算法讲解与实战分析

简介K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。如下图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说...

2019-01-09 16:40:04 1376

原创 sk-learn实例-用朴素贝叶斯算法（Naive Bayes）对文本进行分类

简介朴素贝叶斯（Naive Bayes）是一个非常简单，但是实用性很强的分类模型，与基于线性假设的模型（线性分类器和支持向量机分类器）不同，朴素贝叶斯分类器的构造基础是贝叶斯理论。抽象一些的说，朴素贝叶斯分类器会单独考量每一维度特征被分类的条件概率，进而综合这些概率并对其所在的特征向量做出分类预测。因此，这个模型的基本数学假设是：各个维度上的特征被分类的条件概率之间是相互独立的。对朴素贝叶斯...

2019-01-09 15:29:46 2475

原创 sklearn实例-用支持向量机分类器（SVC）识别手写字体

简介支持向量机（Support Vector Machine）作为机器学习中最常用的算法之一，有着非常强大的性能。SVM既可以用来分类，即SVC（Support Vector Classifier）；也可以用来预测（回归），那就是SVR（Support Vector Regression）。sklearn中的svm模块中同时集成了SVC和SVR。SVC，中文可称做支持向量机分类器，也被称做最...

2019-01-09 11:40:41 3469 1

原创 sklearn实例-逻辑回归（Logisitic Regression）和随机梯度下降(SGDClassifier)全流程

简介线性分类器可以说是最为基本和常用的机器学习模型。尽管其受限于数据特征与分类目标的线性假设，我们仍然可以在科学研究与工程实践中把线性分类器的表现作为基准。本文使用的模型包括LogisticRegression和SGDClassifier。本文的数据来自UC Irvine Machine Learning Repository的癌症分类数据。代码实例废话不多说，上代码！import n...

2019-01-09 10:35:17 4579 1

原创机器学习必备，用matplotlib画2D和3D散点图参数介绍及实例分析

一、简介在机器学习中，经常需要查看原始数据的分布情况，从而对特征和算法的选择提供一个初始的intuition，通常来说，散点图是最为合适的。散点图可以形象展示直角坐标系中两个变量之间的关系。在散点图中，每个数据点的位置实际上就是两个变量的值。变量间的任何关系都可以拿散点图来表示。matplotlib绘图功能模仿MATLAB，功能非常方便和强大。下面，本文将详细介绍如何使用matplotl...

2019-01-08 15:18:54 2887 1

原创 10分钟带你从零上手matplotlib数据可视化

一、简介matplotlib库是专门用来开发2D图表，运用非常广泛，因为它具有以下优点：使用简单以渐进式、交互式方式实现数据可视化表达式和文本使用LaTeX排版对图像元素控制力强可输出PNG/PDF/SVG和EPS等多种格式这些优点将在以下绘图过程中体现二、绘图步骤1.开始画图import matplotlib.pyplot as pltx = [1, 2, 3, 4]...

2019-01-07 23:15:27 433

原创【Python数据分析基础】Pandas常用功能总结之思维导图

1.Pandas简介Pandas是一个专门用于数据分析的开源Python库，在做相关统计分析和决策时，pandas都是一项重要的基础工具。它以NumPy为基础，不仅使Pandas兼容性更强，也更高效。Pandas 中有两种独特的数据结构：Series和DataFrame，这两种数据结构设计初衷是用于关系型或带标签的数据。用它们管理与SQL关系型数据库和Excel工作表具有类似特征的数据会非常方...

2019-01-07 15:24:59 1943 1

原创【Python数据分析基础】Numpy常用的基础知识总结

1.NumPy基本概念：①NumPy库的基础：ndarray对象（n维数组），它是一种由同质元素组成的多维数组，数据类型由NumPy对象dtype来指定②数组的型（shape）：代码example.shape,返回一个包含行列数的元组如（2,3）③数组的维统称为轴（axes），轴的数量称为秩（rank），代码example.ndim返回维（轴）数，维数是指行数，example.size返回数...

2019-01-04 15:53:05 486

原创 SPSS典型相关分析（Canonical Correlation Analysis）案例（SPSS25最新版）

一、为什么要用典型相关分析典型相关分析研究的是两组变量之间的关系，如{x1, x2, x3}和{y1, y2, y3}两组变量之间的关系。具体来说，变量间的相关关系可以分为以下几种：两个变量间的线性相关关系，可用简单相关系数一个变量与多个变量之间的线性相关关系，可用复相关系数。多个变量与多个变量间的相关关系，使用典型相关关系二、典型相关分析的基本原理典型相关分析在研究两组变量间的...

2019-01-02 17:03:10 66497 39

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除