瑟瑟发抖的菜鸡望-CSDN博客

转载 TF-IDF教程

转自：http://blog.csdn.net/sangyongjia/article/details/52440063TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次

2017-09-04 21:01:24 858

转载 jieba教程

转载自：http://blog.csdn.net/reims2046/article/details/72869337整体介绍jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐 github:https://github.com/fxsjy/jieba 开源中国地址:http://www.oschina

2017-09-04 20:50:28 2814

转载 jieba分词快速入门自然语言处理

jieba"结巴"中文分词：做最好的Python中文分词组件 "Jieba" Feature支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分

2017-09-04 20:28:43 1904

转载 3.1. Cross-validation: 评估 estimator 的性能

1.13. 特征选择(Feature selection)sklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维，以此来提高预测模型的准确率或改善它们在高维数据集上的表现。1.13.1. 移除低方差的特征(Removing features with low variance)VarianceThreshold 是特征选择中的一

2017-08-11 21:08:51 2228

转载 scikit-learn数据预处理

4.3. 数据预处理``sklearn.preprocessing``包为用户提供了多个工具函数和类，用于将原始特征转换成更适于项目后期学习的特征表示。4.3.1. 标准化、去均值、方差缩放(variance scaling)数据集的** 标准化对于在scikit中的大部分机器学习算法来说都是一种常规要求 ** 。如果单个特征没有或多或少地接近于标准正态分布：**

2017-08-11 20:30:08 493

转载 1.13. 特征选择(Feature selection)

1.13. 特征选择(Feature selection)sklearn.feature_selection 模块中的类能够用于数据集的特征选择/降维，以此来提高预测模型的准确率或改善它们在高维数据集上的表现。1.13.1. 移除低方差的特征(Removing features with low variance)VarianceThreshold 是特征选择中的一项基

2017-08-11 17:40:31 1574

转载 1.12. Multiclass and multilabel algorithms 多分类多标签算法

1.12. Multiclass and multilabel algorithmsWarning All classifiers in scikit-learn do multiclass classification out-of-the-box. You don’t need to use thesklearn.multiclass module unless y

2017-08-11 17:30:15 6913

转载 Adaboost

转自：http://blog.csdn.net/dream_angel_z/article/details/467648451.基于数据集多重抽样的分类器-AdaBoost优点泛化错误率低，易编码，可以应用在大部分分类器上，无需参数调整缺点对离群点敏感适合数据类型数值型和标称型数

2017-08-10 20:54:03 440

转载梯度树提升算法GBRT

本文由拾毅者发布于http://blog.csdn.net/dream_angel_z/article/details/48085889，转载请注明出处，如果有问题，请联系：[email protected]决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策

2017-08-10 20:42:04 2071

转载 1.11. 集成方法

1.11. 集成方法集成方法结合不同分类器的预测结果，这些分类器分别来自于不同的学习算法，相比于单一分类器以提高分类器的泛化/健壮性。集成方法通常分为两类：在一般方法中，方法的原理是使用若干个独立的分类器，然后取这若干个分类器的平均结果作为集合方法结果。一般情况下，集成分类器（the combined estimator）通常优于它包含的单个分类器的效

2017-08-10 19:35:19 1544 1

转载集成学习

转自：http://www.cnblogs.com/wxquare/p/5440664.html集成学习方法集成学习是机器学习算法中非常强大的工具，有人把它称为机器学习中的“屠龙刀”，非常万能且有效，在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单，集合多个模型的能力，达到“三个臭皮匠，赛过诸葛亮”的效果。集成学习中概念是很容易理解的，但

2017-08-09 18:16:55 393

转载决策树原理

转载自：http://www.cnblogs.com/bourneli/archive/2013/03/15/2961568.html算法原理决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用

2017-08-08 20:16:07 1116

转载 1.10. Decision Trees

1.10. Decision TreesDecision Trees (DTs) are a non-parametric supervised learning method used for classification and regression. The goal is to create a model that predicts the value of a target

2017-08-08 16:44:38 776

转载朴素贝叶斯原理

转载自：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分

2017-08-07 20:36:33 549

转载 1.9. 朴素贝叶斯

1.9. 朴素贝叶斯朴素贝叶斯方法是一系列有监督学习的方法，这些方法基于对贝叶斯理论的应用，即简单(naive)的假设每对特征之间都相互独立。给定类变量 (这里一个样本仅属于一类) 和一个相互独立的特征向量到，贝叶斯定理可得到如下关系：使用简单(naive)的假设-每对特征之间都相互独立：对于所有，这个关系式可以化简为：

2017-08-07 20:22:58 569

转载 1.7. 高斯过程(Gaussian Processes)

针对机器学习的高斯过程(Gaussian Processes for Machine Learning,即 GPML) 是一个通用的监督学习方法，主要被设计用来解决回归问题。它也可以扩展为概率分类(probabilistic classification)，但是在当前的实现中，这只是回归练习的一个后续处理。GPML的优势如下:预测是对观察值的插值（至少在普通相关模型

2017-08-07 19:54:37 24890 1

转载 1.6. 最邻近算法

最邻近法主要是一种非监督或基于临近的监督学习方法. 非监督最邻近法是许多其他学习算法的基础，特别是流行学习方法及谱聚类方法. 基于临近的监督分类主要在一下两方面具有优势: 具有离散标签数据的`分类`和连续标签数据的`回归`..The principle behind nearest neighbor methods is to find a predefined number of

2017-08-07 18:18:55 9741

转载 scikit-learn 1.5. Stochastic Gradient Descent

1.5. 随机梯度下降Stochastic Gradient Descent (SGD) 是一种简单但又非常高效的方式判别式学习方法，比如凸损失函数的线性分类器如Support Vector Machines 和 Logistic Regression. 虽然SGD已经在机器学习社区出现很长时间，但是在近期在大规模机器学习上受到了相当大数量的关注。SGD 已经被成功应用到大规模和稀疏机

2017-08-07 17:58:37 1290

原创 kaggle:code 猫狗识别图像识别TensorFlow图像预处理

#coding:utf8import matplotlib.pyplot as pltimport numpy as npimport osimport tensorflow as tf#import cv2TRAIN_DIR = './wtrain/'TEST_DIR = './wtest/'#提取出前2000的训练集样例#提取出前1000的测试集样例train_ima

2017-07-22 11:53:26 1263

转载 TensorFlow图像数据预处理

TensorFlow 图像数据预处理及可视化绿萝1235 个月前注：文章转自《慢慢学TensorFlow》微信公众号图像是人们喜闻乐见的一种信息形式，“百闻不如一见”，有时一张图能胜千言万语。图像处理是利用计算机将数值化的图像进行一定（线性或非线性）变换获得更好效果的方法。Photoshop，美颜相机就是利用图像处理技术的应用程序。深度学习最重要的应用领域就是计算机

2017-07-21 11:51:40 3777

转载 kaggle Code ：树叶分类 sklearn分类器应用

Which Classifier is Should I Choose?This is one of the most import questions to ask when approaching a machine learning problem. I find it easier to just test them all at once. Here's 10 of your fav

2017-07-20 23:25:06 1805

转载 kaggle Code ：手写识别 TensorFlow

TensorFlow deep NNA high-level tutorial into Deep Learning using MNIST data and TensorFlow library.by @kakauandme and @thekoshkinaAccuracy: 0.99Prerequisites: fundamental coding skills, a bi

2017-07-20 17:21:07 1230

转载 Kaggle - Facebook recruiting 时间地点处理方法

Kaggle - Facebook recruiting¶In [1]:import numpy as npimport pandas as pdimport osimport matplotlib.pyplot as pltfrom scipy.stats import gaussian_kdeimport timeimport seabo

2017-07-19 23:06:35 473

转载 kaggle Code ：House Prices: Advanced Regression Techniques 回归

The most difficult thing in life is to know yourself'This quote belongs to Thales of Miletus. Thales was a Greek/Phonecian philosopher, mathematician and astronomer, which is recognised as the first

2017-07-19 22:48:01 2095

转载 kaggle Code ： Titanic: Machine Learning from Disaster 分类

# Imports# pandasimport pandas as pdfrom pandas import Series,DataFrame# numpy, matplotlib, seabornimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snssns.set_style('whiteg

2017-07-19 21:37:33 1151

原创 TensorFlow手写识别

#coding:utf8from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tfimport numpy as npmnist = input_data.read_data_sets('MNIST_data',one_hot=True)sess = tf.InteractiveSe

2017-07-18 18:48:10 333

转载 scikit-learn 1.4. Support Vector Machines

1.4. Support Vector MachinesSupport vector machines (SVMs) are a set of supervised learning methods used for classification, regression and outliers detection.The advantages of support vecto

2017-07-17 17:55:41 989

转载支持向量机SVM基本理论

转自：http://www.cnblogs.com/steven-yang/p/5658362.html基本概念SVM - Support Vector Machine。支持向量机，其含义是通过支持向量运算的分类器。其中“机”的意思是机器，可以理解为分类器。什么是支持向量呢？在求解的过程中，会发现只根据部分数据就可以确定分类器，这些数据称为支持向量。见下图，在一个二维环

2017-07-17 17:47:18 782

转载 scikit-learn 1.3. Kernel ridge regression

核岭回归是结合岭回归（线性最小二乘L2范数正则化）与内核的技巧。因此，它在各自的内核和数据中学习空间中的线性函数。对于非线性核，这对应于原始空间中的非线性函数。学习KernelRidge模式的形成是支持向量回归（SVR）相同。然而，使用不同的损失函数：KRR采用平方误差损失而支持向量回归使用\ε不敏感损失，两者结合L2正则化。相反，SVR，拟合kernelridge可以在封闭的形式完成

2017-07-17 17:19:51 2321

转载核岭回归 Kernel Ridge Regression

转自：http://www.bubuko.com/infodetail-781832.htmlKernel Ridge Regression上次介绍的表示定理告诉我们，如果我们要处理的是有L2的正则项的线性模型，其最优解是数据zn的线性组合。我们可以将这样的线性模型变成Kernel的形式。既然我们知道这样带有L2-Regularizer的线性回归模型的最佳解的形式，那

2017-07-17 17:17:17 10487

转载 scikit-learn linearRegression 1.2 线性与二次判别分析

线性判别分析(LDA) (discriminant_analysis.LinearDiscriminantAnalysis) 和二次判别分析(QDA) (discriminant_analysis.QuadraticDiscriminantAnalysis) 是两种经典的分类器, 正如它们名字所说, 分别带有一个线性决策平面和二次决策平面.这些分类器很吸引人, 因为它们有可以容

2017-07-14 00:30:03 1079

转载线性与二次判别分析

转自：http://www.dataivy.cn/blog/%E4%BA%8C%E6%AC%A1%E5%88%A4%E5%88%AB%E5%88%86%E6%9E%90quadratic-discriminant-analysis_qda/二次判别分析Quadratic Discriminant Analysis(QDA)与线性判别分析类似，二次判别分析是另外一种线性判别分

2017-07-14 00:24:12 10381

转载线性判别分析LDA

1. 问题之前我们讨论的PCA、ICA也好，对样本数据来言，可以是没有类别标签y的。回想我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维，但PCA没有将类别标签考虑进去，属于无监督的。比如回到上次提出的文档中含有“learn”和“study”的问题，使用PCA后，也许可以将这两个特征合并为一个，降了维度。但假设我们的

2017-07-14 00:03:09 317

转载感知机Perception原理

转载自：http://blog.csdn.net/dream_angel_z/article/details/48915561在机器学习中，感知机（perceptron）是二分类的线性分类模型，属于监督学习算法。输入为实例的特征向量，输出为实例的类别（取+1和-1）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面，为求得超平面导入了基于误分类的损失函数，利用

2017-07-12 12:27:54 853

转载批量梯度下降和随机梯度下降

转自：http://www.cnblogs.com/walccott/p/4957098.html梯度下降与随机梯度下降梯度下降法先随机给出参数的一组值，然后更新参数，使每次更新后的结构都能够让损失函数变小，最终达到最小即可。在梯度下降法中，目标函数其实可以看做是参数的函数，因为给出了样本输入和输出值后，目标函数就只剩下参数部分了，这时可以把参数看做是自变量，则目标函数变成参数

2017-07-12 12:10:59 3634

转载 scikit-learn linearRegression 1.1.11 随机梯度下降

1.5. 随机梯度下降Stochastic Gradient Descent (SGD) 是一种简单但又非常高效的方式判别式学习方法，比如凸损失函数的线性分类器如 Support Vector Machines 和 Logistic Regression. 虽然SGD已经在机器学习社区出现很长时间，但是在近期在大规模机器学习上受到了相当大数量的关注。SGD 已经被成功应用到大规

2017-07-12 11:59:40 1428 1

转载 scikit-learn linearRegression 1.1.10 逻辑回归

逻辑回归形如其名，是一个线性分类模型而不是回归模型。逻辑回归在文献中也称为logit回归、最大熵分类(MaxEnt) 或者 log-linear classifier。在这个模型中，描述单次可能结果输出概率使用 logistic function 来建模。scikit-learn中逻辑回归的实现为 LogisticRegression 类。它可以拟合含L2或者L1正则化项的多类逻辑回

2017-07-11 23:49:36 1931

转载逻辑回归基本原理

转自：http://blog.csdn.net/pakko/article/details/37878837什么是逻辑回归？Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。这一家族中的模型形式

2017-07-11 23:47:36 1452

转载 scikit-learn linearRegression 1.1.9 贝叶斯回归

1.1.9. 贝叶斯回归可以在估计过程中使用贝叶斯回归技术包含正则化参数：正则化参数不是硬编码设置的而是手动调节适合数据的值可以通过在模型的超参数上引入 uninformative priors`Ridge Regression`_ 中使用的正则化项等价于在一个参数为且精度为的高斯先验下寻找一个最大的后验的解。而且并不是手动设置 lambda ，而是有可能

2017-07-11 23:18:02 4526

转载贝叶斯岭回归理论

转自：http://blog.csdn.net/dark_scope/article/details/8558244.引入贝叶斯线性回归的引入主要是在最大似然估计中很难决定模型的复杂程度，ridge回归加入的惩罚参数其实也是解决这个问题的，同时可以采用的方法还有对数据进行正规化处理，另一个可以解决此问题的方法就是采用贝叶斯方法。2.参数分布设参数

2017-07-11 23:10:11 12465

data_mining_models-master.zip 数据挖掘模型

yolo4-keras.zip yolov4代码

CSS样式表中文手册

空空如也