努力进行光合作用-CSDN博客

原创 GBDT&GBRT与XGBoost

在看清华学霸版《Python大战机器学习》的过程中，集成学习章节中出现了两个新的名词：**GBDT**&**GBRT**，也许是西瓜书定位于全面，而没有拘泥于细节。后来科普发现，这两个东西和陈天奇大神的XGBoost紧密相连，于是估摸着花时间弄懂这两个东西。

2017-07-31 13:17:44 9903

原创周志华《Machine Learning》学习笔记（17）--强化学习

上篇主要介绍了概率图模型，首先引出概率图模型的基本概念；接着分别介绍了隐马尔可夫模型、马尔可夫随机场、条件随机场、精确推断方法以及LDA模型：HMM围绕着评估/解码/学习三个问题展开论述；MRF基于团和势函数来定义联合概率分布；CRF引入两种特征函数对状态序列进行打分；变量消去与信念传播在给定联合分布后计算边际分布；LDA话题模型则试图去推断给定文档所蕴含的话题分布。本篇将介绍最后一种学习算法--强化学习。

2017-07-20 19:52:16 29416 12

原创周志华《Machine Learning》学习笔记（16）--概率图模型

上篇主要介绍了半监督学习，首先从如何利用未标记样本所蕴含的分布信息出发，引入了半监督学习的基本概念，接着分别介绍了常见的半监督学习方法：生成式方法基于对数据分布的假设，使得模型参数估计更加准确；TSVM给未标记样本赋予伪标记，并通过不断调整易出错样本的标记得到最终输出；基于分歧的方法使用多个学习器协同训练；最后半监督聚类则是借助已有的监督信息来辅助聚类的过程。本篇将讨论一种基于图的学习算法--概率图模型。

2017-07-13 19:40:01 10927 2

原创周志华《Machine Learning》学习笔记（15）--半监督学习

上篇主要介绍了机器学习的理论基础，首先介绍了PAC可学习的基本概念，对于有限假设空间：可分情形时，假设空间都是PAC可学习的；不可分情形时，假设空间都是不可知PAC可学习的。对于无限假设空间，通过VC维来描述其复杂度，若学习算法满足ERM原则，则任何VC维有限的假设空间都是(不可知)PAC可学习的。稳定性则考察的是输入变化时输出的波动。本篇将讨论一种介于监督与非监督学习之间的学习算法--半监督学习。

2017-07-04 22:16:32 23957 1

原创周志华《Machine Learning》学习笔记（14）--计算学习理论

上篇主要介绍了常用的特征选择方法及稀疏学习。分别介绍了子集搜索与评价、过滤式、包裹式以及嵌入式四种类型的特征选择方法：子集搜索与评价是一种优中生优的贪婪算法；过滤式计算相关统计量来评判特征的重要程度；包裹式将学习器作为特征选择的评价准则；嵌入式则是通过L1正则项将特征选择融入到学习器参数优化的过程中，最后介绍了稀疏表示与压缩感知的思想。本篇将讨论一种为机器学习提供理论保证的学习方法--计算学习理论。

2017-06-16 21:39:13 5868 2

原创周志华《Machine Learning》学习笔记（13）--特征选择与稀疏学习

上篇主要介绍了经典的降维方法与度量学习，首先从“维数灾难”导致的样本稀疏以及距离难计算两大难题出发，引出了降维的概念，即通过某种数学变换将原始高维空间转变到一个低维的子空间，接着分别介绍了kNN、MDS、PCA、KPCA以及两种经典的流形学习方法，最后度量学习试图去学习出一个距离度量来等效降维的效果。本篇将讨论另一种常用方法–特征选择与稀疏学习。

2017-06-04 18:51:40 13925

原创周志华《Machine Learning》学习笔记（12）--降维与度量学习

上篇主要介绍了几种常用的聚类算法，首先从距离度量与性能评估出发，列举了常见的距离计算公式与聚类评价指标，接着分别讨论了K-Means、LVQ、高斯混合聚类、密度聚类以及层次聚类算法。K-Means与LVQ都试图以类簇中心作为原型指导聚类；高斯混合聚类采用高斯分布来描述类簇原型；密度聚类则是将一个核心对象所有密度可达的样本形成类簇；层次聚类是一种自底向上的树形聚类方法。本篇将讨论机器学习常用的方法--降维与度量学习。

2017-05-15 10:55:53 24262 2

原创周志华《Machine Learning》学习笔记（11）--聚类

上篇主要介绍了一种机器学习的通用框架–集成学习方法，首先从准确性和差异性两个重要概念引出集成学习“好而不同”的四字真言，接着介绍了现阶段主流的三种集成学习方法：AdaBoost、Bagging及Random Forest，最后简单概述了集成模型中的三类结合策略：平均法、投票法及学习法，其中Stacking是学习法的典型代表。本篇将讨论无监督学习中应用最为广泛的学习算法–聚类。

2017-04-29 23:45:49 7289 2

原创数学之美阅读笔记（2）

延续上一篇内容，《数学之美》这本书我想吴军博士的初衷是非科班也能读懂，书中对数学知识的解释极为详细，所以我只将书中的核心思想抽取出来，方便今后很容易Get到点，有些篇章为介绍性文字，我也把重要的鸡汤拿出来喝一喝，为了将篇幅控制在可读范围内，每篇包含7个模块内容。

2017-04-27 10:31:51 843

原创数学之美阅读笔记（1）

大一的时候就开始看吴军博士第一版的《数学之美》，苦于那时年少无知不懂事，加上自身数学知识的体系不健全，翻着翻着也就没有了后文。现在读了研究僧，也许是换了个视野，看到书的开头“中国教育最失败的就是学生从上课的第一天到考试结束，都不知道学的东西能干什么。”，果然是大实话，私以为学习的原动力在于内心的诉求，当有应用的需求时，学习起来就会更带劲。趁着在校时光，安安静静读读书写写字。

2017-04-21 14:54:02 5145

原创 Latex数学公式表

Latex的两种公式模式:行间(inline)模式：即在正文中插入数学内容。行间公式用$ … $ 独立(display)模式：独立成行，可以有或没有编号。无编号用\ [ … \ ]

2017-04-17 20:20:15 24954 3

原创周志华《Machine Learning》学习笔记（10）--集成学习

上篇主要介绍了鼎鼎大名的EM算法，从算法思想到数学公式推导（边际似然引入隐变量，Jensen不等式简化求导），EM算法实际上可以理解为一种坐标下降法，首先固定一个变量，接着求另外变量的最优解，通过其优美的“两步走”策略能较好地估计隐变量的值。本篇将继续讨论下一类经典算法–集成学习。

2017-04-14 16:02:47 8449

原创周志华《Machine Learning》学习笔记（9）--EM算法

上篇主要介绍了贝叶斯分类器，从贝叶斯公式到贝叶斯决策论，再到通过极大似然法估计类条件概率，贝叶斯分类器的训练就是参数估计的过程。朴素贝叶斯则是“属性条件独立性假设”下的特例，它避免了假设属性联合分布过于经验性和训练集不足引起参数估计较大偏差两个大问题，最后介绍的拉普拉斯修正将概率值进行平滑处理。本篇将介绍另一个当选为数据挖掘十大算法之一的EM算法。

2017-03-31 14:26:41 3915 1

原创周志华《Machine Learning》学习笔记（8）--贝叶斯分类器

上篇主要介绍和讨论了支持向量机。从最初的分类函数，通过最大化分类间隔，max(1/||w||)，min(1/2||w||^2)，凸二次规划，朗格朗日函数，对偶问题，一直到最后的SMO算法求解，都为寻找一个最优解。接着引入核函数将低维空间映射到高维特征空间，解决了非线性可分的情形。最后介绍了软间隔支持向量机，解决了outlier挤歪超平面的问题。本篇将讨论一个经典的统计学习算法–贝叶斯分类器。

2017-03-26 22:08:44 6229 1

原创矩阵理论基础知识（3）--广义逆矩阵

使用奇异值分解（SVD）求解M-P广义逆

2017-02-26 22:52:48 1812

转载【转】主成分分析（PCA）原理解析

在这一篇之前的内容是《Factor Analysis》，由于非常理论，打算学完整个课程后再写。在写这篇之前，我阅读了PCA、SVD和LDA。这几个模型相近，却都有自己的特点。本篇打算先介绍PCA，至于他们之间的关系，只能是边学边体会了。PCA以前也叫做Principal factor analysis。

2017-02-26 21:01:03 2816

转载【转】常见向量范数和矩阵范数

1、向量范数1-范数：，即向量元素绝对值之和，matlab调用函数norm(x, 1) 。2-范数：，Euclid范数（欧几里得范数，常用计算向量长度），即向量元素绝对值的平方和再开方，matlab调用函数norm(x, 2)。∞-范数：，即所有向量元素绝对值中的最大值，matlab调用函数norm(x, inf)。-∞-范数：，即所有向量元素绝对值中的最小值，matlab调用函数norm

2017-02-25 20:47:15 700

原创矩阵理论基础知识（2）--常见的几种矩阵分解方式

本篇主要介绍和讨论了矩阵的几种常见分解方式，包括：LU分解，UR/QR分解以及特征值分解，另外由于SVD分解较为复杂，将另起一篇单独介绍。

2017-02-25 19:51:32 9771

原创矩阵理论基础知识（1）--特征值与特征向量

之所以想起来总结这部分的知识，也是由于目前学习的机器学习算法中，矩阵论/矩阵你分析呈刷屏似的出现，而之前本科阶段的高等代数中，总是只知道有这么个东西，也初略知道怎么计算，但不知道其中的真正含义，因此这两天决定将这块知识汇总下，知其然也知其所以然。

2017-02-24 14:00:18 7517

转载【转】奇异值分解(SVD)原理详解及推导

在网上看到有很多文章介绍SVD的，讲的也都不错，但是感觉还是有需要补充的，特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章，叫A Singularly Valuable Decomposition The SVD of a Matrix，觉得分析的特别好，把矩阵和空间关系对应了起来。本文就参考了该文并结合矩阵的相关知识把SVD原理梳理一下。

2017-02-23 16:28:49 871

原创周志华《Machine Learning》学习拓展知识--经验风险与结构风险

在前面几章的笔记中，都出现了“正则化”这个看似神秘的东西，具体包括：（1）线性模型的最小二乘法中出现非满秩或正定矩阵的情形，从而引入正则化解决了求逆矩阵的难题；（2）BP神经网络为了避免过拟合而引入的正则项；（3）“软间隔”支持向量机在优化目标中添加的正则项或惩罚项。下面将主要围绕这三个方面来阐述经验风险与结构风险。

2017-02-13 15:57:35 1513

原创周志华《Machine Learning》学习笔记（7）--支持向量机

上篇主要介绍了神经网络。首先从生物学神经元出发，引出了它的数学抽象模型–MP神经元以及由两层神经元组成的感知机模型，并基于梯度下降的方法描述了感知机模型的权值调整规则。由于简单的感知机不能处理线性不可分的情形，因此接着引入了含隐层的前馈型神经网络，BP神经网络则是其中最为成功的一种学习方法。本篇围绕的核心则是另一种监督学习算法–支持向量机（Support Vector Machine），简称SVM。

2017-01-21 22:05:53 6589 6

原创周志华《Machine Learning》学习笔记（6）--神经网络

上篇主要讨论了决策树算法。首先从决策树的基本概念出发，引出决策树基于树形结构进行决策，进一步介绍了构造决策树的递归流程以及其递归终止条件，在递归的过程中，划分属性的选择起到了关键作用，因此紧接着讨论了三种评估属性划分效果的经典算法，介绍了剪枝策略来解决原生决策树容易产生的过拟合问题，最后简述了属性连续值/缺失值的处理方法。本篇将讨论现阶段十分热门的另一个经典监督学习算法–神经网络。

2016-12-20 19:36:24 19363 9

原创周志华《Machine Learning》学习笔记（5）--决策树

上篇主要介绍和讨论了线性模型。首先从最简单的最小二乘法开始，讨论输入属性有一个和多个的情形，接着通过广义线性模型延伸开来，将预测连续值的回归问题转化为分类问题，从而引入了对数几率回归，最后线性判别分析LDA将样本点进行投影，多分类问题实质上通过划分的方法转化为多个二分类问题进行求解。本篇将讨论另一种被广泛使用的分类算法--决策树（Decision Tree）。

2016-12-13 09:45:39 8511 2

原创周志华《Machine Learning》学习笔记（4）--线性模型

笔记的前一部分主要是对机器学习预备知识的概括，包括机器学习的定义/术语、学习器性能的评估/度量以及比较，本篇之后将主要对具体的学习算法进行理解总结，本篇则主要是第3章的内容--线性模型。

2016-12-11 15:20:12 5039 1

原创周志华《Machine Learning》学习笔记（3）--假设检验、方差与偏差

本篇延续上一篇的内容，主要讨论了比较检验、方差与偏差。

2016-12-04 19:39:27 14746 13

原创周志华《Machine Learning》学习笔记（2）--性能度量

本篇主要是对第二章剩余知识的理解，包括：性能度量、比较检验和偏差与方差，写到后面发现篇幅冗长读起来十分没有快感，故本篇主要知识点为性能度量。

2016-11-20 17:15:23 7569 5

原创周志华《Machine Learning》学习笔记系列（1）

机器学习是目前信息技术中最激动人心的方向之一，其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。本文为清华大学最新出版的《机器学习》教材的Learning Notes，书作者是南京大学周志华教授，多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。

2016-11-19 13:48:27 17247

原创使用 IntelliJ IDEA打包Spark应用程序

Spark作为下一代大数据处理引擎，在非常短的时间里崭露头角，并且以燎原之势席卷业界。本篇主要介绍了如何使用IDEA在本地打包Spark应用程序（以K-Means为例），并提交到集群执行。

2016-11-17 20:27:06 11531

原创我的大学站

踏上研究生阶段的轰鸣列车分不同时期完成了大学四年来的心路历程前事不忘，后事之师当自己在这个容易躁动的时代迷失时希望可以借此找回真实的自己不忘初心，方得始终

2016-11-07 01:09:14 890

原创主机与虚拟机相互通信及虚拟机访问外网

相互通信指的是：主机(host)和虚拟主机（Vhost）能相互访问，宿主机及同一个局域网中的其他计算机能够访问到虚拟机，虚拟机也能访问到网络中的其它机器（当然包括宿主机）。在我们接触的应用中，最常见的应该是互传文件了（比如：校内ftp），几秒钟一部电影还是十分令人赏心悦目。虚拟机访问外网的意思是虚拟机可以像一台真实主机一样访问Internet。为实现这两个目的，我们需要在已经安装好的linux

2016-01-11 21:33:41 16545 2

原创 JAVAEE知识点

--这是一个神奇的文档，据说看到的人都会得到好运。 --BY VAY--------------

2016-01-09 15:27:59 2752 1

原创 hadoop集群搭建【伪分布式】

--整理来源：《hadoop权威指南第三版》、《hadoop官网doc文档》--本文原创，转载请注明看了好多前人们在hadoop配置上留下的足迹，一时没有发现一篇全面、通熟易懂的，的确让我这个新手菜鸟十分苦恼。所以将一些资料进行了整理并加上了自己的理解。能够帮助后继者快速完成Hadoop安装，以便对Hadoop分布式文件系统（HDFS）和Map-Reduce框架有所体会

2016-01-06 00:55:40 854

原创心灵治疗术（自我剖析）

每当遇到情绪失控/心情紊乱,自己慢慢地学会了去分析自己为何会产生这种情绪，因为何种事物而变成不正常的状态。每次都会发现，身边总是存在不经意的一些人与事，搅乱了内心，而每当自己放空下来，一个人安安静静去梳理思绪，分析自己为何会被这种事物影响，想通这其中的因果关系，心情就会慢慢平复下来，重新拾获原来的自己。状态的调整难免会耗费一定的时间，但庆幸的是：每想通一件事物之后，思想上便会更加成熟释然，下次便不

2016-01-04 10:44:49 701

原创互联网大公司与创业公司

暑假结束后，自己在一家正在高速发展的创业公司待了两月有余了，上班的日子里，朝九晚六的标准作息占据了大半个时钟的圆盘。辗转公交、地铁，身份也在同事、同学之间不断地切换，在这个物欲横流的年代，社会终究是金钱的社会，公司与个人追求的都是利益最大化，话不可多说，人心之间永远都是隔着一层没那么真诚的肚皮。对于初入社会的大学生该如何选择第一份实习 or 在就业面前如何抉择呢？两个月下来，通过一些信息渠道和相互

2016-01-04 10:32:46 918

原创 Hadoop生态圈

--整理来源：《Hadoop权威指南》以及相关大佬讲座PPT--本文原创，转载请注明！【背景】（1）数据爆炸：国际数据公司（IDC）曾发布报告称，2006年数字世界项目统计得的全球数据总量为0.18ZB，预计在2011年将达到1.8ZB，1ZB=1000EB=1000000PB=10亿TB。（2）硬盘容量不断提升，读写速度却

2015-12-31 15:06:04 970

原创 Linux操作系统安装前备知识

--整理来源：《鸟哥的Linux私房菜第三版》计算机概论计算机：辅助人脑的好工具。用户输入指令与数据，经过中央处理器（CPU）的算术逻辑单元运算后，产生有用的信息。之前学过《微机原理》或《计算机组成原理》的童鞋可能对计算机的五大组成十分熟悉。考虑大家在不断扩充知识，在这里还是再普及一遍吧。冯·诺依曼计算机的基本设计思想第四条：

2015-12-30 18:13:21 710

VAY-长跑