Jackie_Zhu的专栏

我知道有一个内在的我不甘平庸渴望自由无所不能我坚信只要执着和努力总有一天一个真正辉煌的我会离我越来越近让伤痕成为我的勋章让世界的不公平在我面前低头！

原创 Adaboost(Adaptive boosting)

Boosting算法的核心思想是，构造一堆diverse的弱分类器（准确率不为0.5），然后将这些构造好的弱分类器进行融合，达到一个强分类器的效果。Adaboost算法是Boosting ensemble里面的一种，

2016-09-22 15:25:10 997 1

原创 Ensemble Learning入门

在机器学习中，已经有了许许多多的模型，比如SVM，逻辑回归等等，这些算法有各自的优缺点，并且每种算法也可以产生非常多的不同的模型。如果把这些算法都结合起来，取其所长，或者说把一些比较弱的分类器结合起来形成一个强分类器（boosting），就可以得到更优的模型

2016-08-26 22:56:32 2693 1

原创逻辑回归（Logistic Regression）和SVM的联系以及Kernel

逻辑回归和SVM都是比较理想的分类器，但是各有优缺点，逻辑回归不仅可以得到具体的分类类别，还可以得到连续的概率值（因为逻辑回归实质上是回归）；SVM则可以利用kernel将特征投影到高维甚至无穷维来更好地拟合数据。这里我们来看一下逻辑回归和SVM之间有没有什么联系，以及能否将kernel应用到逻辑回归上，使得逻辑回归具备类似SVM的非线性分类特性。逻辑回归逻辑回归的假设是下面的一条S型曲线，值域是[

2016-08-26 19:48:50 6699 3

原创 LSSVM(Least Squares SVM)与SVR(支持向量回归)

LSSVM（Least Square SVM）是将Kernel应用到ridge regression中的一种方法，它通过将所有样本用最小二乘误差进行拟合（这个拟合是在kernel变换过的高维空间），但是LSSVM的缺陷是计算复杂度大概是样本数的三次方量级，计算量非常大。为了解决这个问题于是提出了SVR（支持向量回归），SVR通过支持向量减小了LSSVM的计算复杂度，并且具备LSSVM的能够利用ke

2016-08-20 16:33:39 39218 5

原创为什么正则化（Regularization）可以减少过拟合风险

在解决实际问题的过程中，我们会倾向于用复杂的模型来拟合复杂的数据，但是使用复杂模型会产生过拟合的风险，而正则化就是常用的减少过拟合风险的工具之一。过拟合过拟合是指模型在训练集上误差很小，但是在测试集上表现很差(即泛化能力差)，过拟合的原因一般是由于数据中存在噪声或者用了过于复杂的模型拟合数据。如下图所示，下图中的训练样本是三次多项式加了点噪声得到的，然后用不同的多次项拟合，M代表最高次项次数，下面四

2016-08-09 00:56:48 12933 5

原创 SVM(Support Vector Machine)读书笔记三(Soft-margin SVM)

上两篇讲到了hard-margin的SVM以及kernel的原理，利用高斯kernel可以将低维空间转换到无穷维，将所有样本分开。但是如果数据中存在一定的噪声数据，SVM也会将噪声数据拟合，存在过拟合的风险。Soft-margin SVM原理就是让SVM能够容忍一定的噪声数据，以减少过拟合的风险。Hard-margin过拟合问题先看一下上面的相同数据集中的两个模型，左图中的模型能够容忍数据中存在

2016-08-03 23:14:12 10655 3

原创 SVM(Support Vector Machine)读书笔记二（支持向量和Kernel方法）

在一个线性不可分的样本中，用添加多次项特征可以将两类样本分开，具体原理请参考这里，用SVM分类器也是同样道理。如果两类样本交叉越多，需要越高次的特征，模型就越复杂，这在存储上和计算资源上都是很大的开销。SVM用kernel方法就解决了这个问题，kernel方法是将高维度的计算放到低维度来做，最后得到的是高纬度上的模型。具体原理请看下面的推导。特征转换如果样本在低纬度空间不可分，那么可以将样本的特征

2015-11-29 14:17:44 3774

原创 SVM(Support Vector Machine)读书笔记一（最佳分割超平面）

分类问题中，在一个线性不可分的样本上，通常需要用到一些Non-linear的特征，把低维度空间上的样本投影到高维度上，从而使得这些样本在高维度线性可分。但这投影过程通常也会有以下两个问题：1. 如果在原样本中加了太多的高次多项式的特征，首先会导致过拟合，模型的泛化能力会很差；2. 多项式组合会有指数级别的组合方式，这使得在投影后的样本空间中维度非常高，这也会消耗太多的计算资源和空间资源SVM解决了上面两个问题

2015-11-18 17:18:12 15241 5

原创设计模式之-策略模式

问题描述实现游戏的不同角色某游戏中Queen,King,Knight这3种角色，每种角色都有使用武器行为（武器都是剑），设计这三个类，提高代码的重用性和可维护性。解决方案Queen,King,Knight这三个角色都是角色，都可以move，可以stop，因此可以设计一个Character抽象类，抽取三个角色的共同行为，减少代码的重复性，Character定义如下：public abstract cl

2015-06-07 21:55:00 1198

原创 Best coder 2014-3-14题解

zhx's submissions 题目链接签到题，模拟大数加法，不用进位（要用char[]读入，string超时）zhx's contest 题目链接可以很快推导出公式为2^n -2, 这里由于n和mod都是在long long范围内，因此需要快速乘，但是也会导致long long * long long 溢出，因此将乘法改造成快速加。zhx and contest 题目

2015-03-14 23:40:00 1045

原创感知机学习算法的几何解释（perceptron learning algorithm）

2013-11-27 18:08:58 6044 11

转载 21世纪初最有影响力的20篇计算机视觉期刊论文

选取论文的原则：（1）期刊论文，主要来源于以下期刊：TPAMI，IJCV，TIP，CVIU，IVC，MVA，PR，JMIV，IJPRAI…（2）发表在2000年以后（3）SCI检索次数大于1000，来源于Web of Science数据库，2012年12月初的检索结果Top 20 榜单如下：[1] D. G. Lowe, “Distinc

2013-11-20 13:25:35 1560

转载推荐使用scikits.image 进行图像处理, 比较好用.

看了>后, 研究了一下图像处理, opencv很好, 但很不pythonic , PIL有点弱, 后来发现了这个 scikits.image , pypi上得10分的图像处理库, 但安装过程很坎坷, 最后总算搞定, 想和大家分享.scikits 是针对scipy写的一些toolkits, 相当于matlab里的工具箱了, 开源社区真是强大啊! scikits.image 是其中

2013-10-16 16:24:15 2730

原创 python 图像处理库模块（python Image Library）

PIL下载地址：http://www.pythonware.com/products/pil/python Image Libary中文参考手册地址： http://ch3n2k.com/wi/PythonImageLibrary%E4%B8%AD%E6%96%87%E6%89%8B%E5%86%8C python Image Libary所有版本的文档地址：http://ww

2013-10-16 16:07:36 2706

原创九度OJ 题目1534：数组中第K小的数字（二分解）

题目链接：点击打开链接题目描述：给定两个整型数组A和B。我们将A和B中的元素两两相加可以得到数组C。譬如A为[1,2]，B为[3,4].那么由A和B中的元素两两相加得到的数组C为[4,5,5,6]。现在给你数组A和B，求由A和B两两相加得到的数组C中，第K小的数字。输入：输入可能包含多个测试案例。对于每个测试案例，输入的第一行为三个整数m

2013-09-15 12:00:02 2248 2

原创九度OJ 题目1532：棋盘寻宝扩展（动态规划）

题目链接：http://ac.jobdu.com/problem.php?pid=1532现在有一个8*8的棋盘，上面放着64个不同价值的礼物，每个小的棋盘上面放置一个礼物（礼物的价值大于0小于100），一个人初始位置在棋盘的左上角，每次他只能向下或向右移动一步，并拿走对应棋盘上的礼物，结束位置在棋盘的右下角。从棋盘的左上角移动到右下角的时候的，每次他只能向下或向右移动一步，并拿走对应棋盘上的

2013-08-27 20:49:28 2019

转载 mysql 时间转换函数的用法

mysql 时间转换函数的用法2007-10-31 15:03DAYOFWEEK(date) 返回日期date的星期索引(1=星期天，2=星期一, ……7=星期六)。这些索引值对应于ODBC标准。 mysql> select DAYOFWEEK(2007-10-31); -> 4WEEKDAY(date) 返回date的星期索引(0=星期一，1=星期二, ……6= 星期

2013-08-27 10:32:51 1553

原创 PKU 1064 Cable master

题目链接：点击打开链接有n段绳子，给定n段绳子的长度，单位为厘米。求能够把这些绳子分成k段的最长的段的长度。题目中的trick是最小是1cm，长度不能小于1cm，因此要转换成int来解，然后二分可以截得的绳子的长度。#include #include #include using namespace std;#define INF 100000000int l[10009

2013-08-22 15:12:23 1356

原创 R语言的graphics功能（画图）

找了好久，终于找到了画各种统计图的画图工具，那就是R，本文主要介绍R中的各种图形绘制方法。R中有非常强大的绘图功能，本文也不能一一列举，如果想要具体了解，可在R中输入demo(graphic)或者demo(persp)查看。绘图函数需要将图输出到绘图设备上，绘图设备的形式有很多种，可以是窗口，可以是写入一个jpeg、bmp、tiff等图片文件格式，具体可用help(device)查看。

2013-08-13 16:08:09 14648 1

原创 python 机器学习类库

链接地址：点击打开链接有空的时候再学习

2013-08-13 15:40:18 2074

原创 PKU 1511 Invitation Cards (SPFA+邻接表)

题目链接：点击打开链接题目需要求从原点到所有点的最短距离之和和所有点到原点的最短距离之和，在求所有点到原点最短距离的时候用到了一个技巧：即把图反向，求原点到所有其他点的最短距离，这样用一次SPFA就可以将所有点到原点的最短距离求出来了。另外也没什么好说的，纯SPFA。另外用优化到VlogE的dijkstra貌似也能过，有空的时候再写个。代码如

2013-07-31 14:33:54 1222

原创 PKU 3669 Meteor Shower（BFS）

题目描述：点击打开链接题意是在某一时刻t会有一个陨石落下来，会落到坐标为x，y的地方，陨石落下来之后不但x，y会遭到破坏，和x，y四邻接的点也会被破坏。现在Bessie的初始位置在原点，每一个单位时间只能平行于坐标轴，移动一个单位距离，题目要求需要几个单位时间Bessie才能移动到安全的地方（只能运动在坐标轴和第一象限）。由于陨石落下来之前，某个点还是可以走的，直到t时刻陨石落

2013-07-29 15:12:22 1441

原创 PKU 3009 Curling 2.0（穷举搜索+剪枝）

题目链接点击打开链接题意是一块石子，从起始位置出发，题目中起始位置为2，每次移动，它会朝着某一个方向一直运动知道碰到墙或者滑出界外，或者到达终点（题目中是3表示）；如果碰到墙，则相应的墙块消失，并且求停止在墙的前面一个位置，需要再次移动，直到到达目标位置。每次移动石子，石子都会朝同一个方向移动，遇到下面情况就会停止： 1.石子碰到墙块 2.石子滑出界外 3.石子到达终点现在要求石子从起点

2013-07-28 19:47:30 1791 2

原创 PKU 1797 Heavy Transportation（Kruscal）

题目的大意是，有一个图，要从编号为1的点走到编号为n的点，每条路都有一个承重量，那么从1到n能够运输的重量就取决于这条路上最小的那条边的承重量。要求的是走一次能够运输的最大的重量（即所有可以走的路经中，使得最小承重梁的那条边最大）。

2013-07-28 12:30:44 1143

转载 QQ盗号核心编程

经常有听到有朋友QQ被盗的消息，总感觉做出这种行为的人是可鄙的，不就是对QQ窗口进行监视，然后再是记录用户输入的号码和密码，认为没什么了不起。对于Windows核心编程，本人还是一只菜鸟，前一段时间把《Windows系统编程》粗略的看一边（当然重点地方仔细的看），由于对于C++有点基础，感觉学起来比较容易上手。但到了这两天真正实践的时候，遇到了各种各样的问题。即使一个小小的问题都足以让我

2013-07-13 13:35:33 3308 1

原创 Standford机器学习聚类算法（clustering）和非监督学习（unsupervised Learning）

k-means是简单的聚类算法，在实现过程中有很多需要注意的地方，比如如何什么时候用k-means，怎么样判定k-means工作正常，k的值怎么选取，本文讲解关于k-means的方方面面

2013-07-11 21:43:42 5621 2

原创 cocos2d-x 消类游戏，类似Diamond dash 设计

cocos2d-x 消类游戏

2013-07-11 13:48:45 9405 66

原创最小操作数

题目详情给了A、B两个单词和一个单词集合Dict，每个的长度都相同。我们希望通过若干次操作把单词A变成单词B，每次操作可以改变单词中的一个字母，同时，新产生的单词必须是在给定的单词集合Dict中。求所有行得通步数最少的修改方法。举个例子如下：Given: A = "hit" B = "cog" Dict = ["ho

2013-07-03 20:45:27 2217 7

原创位运算技巧总结

今天在Matrix67大牛的博客上看到了很多位运算的优化技巧，顿感位运算的神奇，现在来我总结一下位运算的神奇用法。下面是常见的位运算： a & b a和b都是1的位取1，其他都取0。和&&有区别，&&是逻辑运算，返回true或者false a | b a和b都是0的位取0，其余情况都取1。和||有区别，||是逻辑运算，返回t

2013-06-26 15:41:38 1731 1

原创 Standford 机器学习应用的建议及机器学习系统的设计

前几讲学习了很多机器学习的算法，但是在实际的应用中会遇到很多过拟合和欠拟合的问题，这些问题都会导致测试结果不理想。用什么方法解决这些问题，是本讲研究的主题。举一个房价预测的例子，如果学习了一个模型，发现测试结果非常不理想（有非常大的误差），那么接下去该怎么办？下面有几种解决方法：1、获取更多的样本，来训练模型 2、试着用更少的特征来构建特征向量3、特

2013-06-01 12:17:00 2994

原创动态规划 HDU 2546 饭卡

在acm群里看到了这样的一个题目，拿过来看了一下，感觉还蛮有意思的，题目大意是饭卡上有m余额，但是学校有个规定，饭卡余额少于5元就不能买东西，现在有n件商品，每件商品都有一个价格。要求买好商品后余额最少。题目链接 HDU 2546 饭卡看到题目就想到了背包问题，在一个m-5的背包里尽量装满东西，装满后放最后一个物品，解肯定在放完这个物品之后。最直接的想

2013-05-26 20:50:14 1431

原创 Standford机器学习神经网络的学习（Neural Network Learning）

上一讲讲了神经网络的表示，神经网络中，从前一层映射到后一层的需要有个一个权重矩阵Theta和激活函数，映射后可以得到该层神经元的activation。如何来学习Theta是本讲要解决的内容。首先，对于一个分类问题，如果是两类问题，输出层只需要有一个神经元，输出1为正类，输出0为负类。而对于多类的问题，需要有多个神经元。定义一个神经网络，如下：它的输出是一个向量，如图，假设

2013-05-26 17:45:57 2901 3

转载 BP神经网络学习及matlab实现

什么是神经网络？神经网络是由很多神经元组成的，首先我们看一下，什么是神经元上面这个图表示的就是一个神经元，我们不管其它书上说的那些什么树突，轴突的。我用个比较粗浅的解释，可能不太全面科学，但对初学者很容易理解：1、我们把输入信号看成你在matlab中需要输入的数据，输进去神经网络后2、这些数据的每一个都会被乘个数，即权值w，然后这些东东与阀值b相加后求和得到u，3、上面只是

2013-05-23 10:58:10 46389 6

原创 Standford机器学习神经网络（Neural Network）的表示

上一讲讲了如何用逻辑回归来解决分类问题，如果在两个类多维线性不可分的情况下，可以通过添加多项式项把向量投影到高维空间使得它线性可分。但这也存在一个问题，就是当选取的特征很多的时候，featurevector可能高达几千维，这就是维数爆炸的问题。比如，如果有一个n个feature的向量，如果用二次项去拟合，那么产生的多项式会有x1^2,x1x2,x1x3…;x2^2, x2x3,

2013-05-16 17:40:09 4149

原创 Standford机器学习逻辑回归（Logistic Regission）以及过拟合问题解决（Regularization）

1.分类问题判断一封邮件是否为垃圾邮件，判断肿瘤是良性的还是恶性的，这些都是分类问题。在分类问题中，通常输出值只有两个（一般是两类的问题，多类问题其实是两类问题的推广）（0叫做负类，1叫做正类）。给定一组数据，标记有特征和类别，数据如（x(i),y(i)），由于输出只有两个值，如果用回归来解决会取得非常不好的效果。在良性肿瘤和恶性肿瘤的预测中，样本数据如下上图是用线

2013-05-07 15:45:05 10958 3

原创 Standford机器学习线性回归Cost Function和Normal Equation的推导

1.线性回归CostFunction推导：在线性回归中，Cost Function是，关于这个公式的推导，首先由一个假设,其中满足高斯分布，.那么根据得出在这里，把看成是随机变量，那么服从高斯分布，，对于给定的X，theta要估计y的分布是怎么样的，极大似然估计函数为：

2013-05-04 16:14:40 6839 8

原创 Standford 机器学习学习笔记线性回归（Linear Regission）

本节内容主要包含单变量（One Variable）和求解costfunction的最优值的学习算法—梯度下降法（Gradientdescent）以及多变量（multipleVariable）的线性回归。1. 单变量的线性回归（Linear Regission with onevariable）监督学习的样本中都含有对于每个输入变量的输出值，通过建立模型并且学习得到

2013-05-03 21:33:23 3184 3

转载 java HashMap插入重复Key值问题

今天在用到了HashMap来遍历所有非重复的Key时遇到了一个问题，在写入数据库的时候报错--主键不能重复插入。查看了好久java文档才得以解决。自定义一个类型class MyType { private String arga; private String argb; public MyType(String arga, String argb) {

2013-05-02 11:22:36 11081