腾原-CSDN博客

原创重磅—SVM

本篇博客主要内容为： - SVM公式推导； - SMO公式推导； - Python实现SMO和SVM，两种核（linear和RBF）； - 逻辑斯蒂回归实现非线性分类；（有待更新….）由于SVM公式比较多，《统计学习方法》这本书做了详细的讲解，我结合原作者的论文和《统计学习方法》以及周志华老师的《机器学习》做个个人总结，便于之后的复习。对于过多的公式不做赘述，着重介绍自己在学习...

2018-04-02 13:34:35 355

原创贝叶斯分类器

贝叶斯分类器@(机器学习经典算法总结)自己的博客地址www.jameszhou.com，阅读体验更佳。这篇博客主要介绍： - 机器学习中参数估计方法（最大似然估计，最大后验估计）； - 利用朴素贝叶斯分类做个垃圾邮件过滤器；机器学习中参数估计方法机器学习中的参数估计方法主要为频率学派的最大似然估计和贝叶斯学派的最大后验估计。对样本建模，用θθ\theta表示...

2018-03-28 16:53:58 409 2

原创逻辑回归更新篇

逻辑回归更新篇博客地址——Jameszhou Blog—逻辑回归更新篇逻辑回归基本是我们所有人学习的第一个分类器，分类器从概率意义上理解，代表的是什么意思，以最简单的二分类来举例吧，假设样本数据 D=(x(i),y(i)), i for 1,2,3,...y(i)∈(−1,+1)D=(x(i),y(i)), i for 1,...

2018-03-26 11:37:04 1181

原创其实都没有很懂梯度下降

博客新地址，阅读体验更佳，点击跳转一直以为自己懂了梯度下降法，直到编程实现一遍，发现有些概念其实理解的并不清晰。这篇Blog旨在： - 梯度下降法的推导； - 常用的几种梯度下降法并编程实现； - 使用梯度下降法求解线性模型参数的例子； - 梯度下降中非常重要的学习率设置；数学回顾笔记（一）——方向导数和梯度回顾了方向导数和梯度的概念，明确了，梯度方向为函数增长最快的方...

2018-03-23 18:41:05 314

原创使用python玩微信—wechat_py

使用python玩微信#!/usr/bin/env python# -*- coding: utf-8 -*-# @Date : 2018-02-26 08:12:39# @Author : guanglinzhou ([email protected])import osimport itchatimport matplotlib.pyplot as pltfrom...

2018-02-26 17:16:18 1790

原创 linux命令行上传代码至github

linux命令行上传代码至github@(软件使用技巧)在windows和Mac端都有githubDestop图形化界面非常方便上传本地的代码和文档至github。 linux只能采用命令行的形式。我使用的Linux系统为Ubuntu16.04首先，在本地安装gitsudo apt-get install git命令行中设置自己github的账号名称和邮箱（引号...

2018-02-24 16:10:59 457

原创 Python中的浅拷贝和深拷贝

Python中的浅拷贝和深拷贝@(Python)python和java中的赋值一致，对于基本数据类型是值传递，对于对象类型是引用传递，也就是传递的是对象的地址。可以看出，对于对象的赋值，进行引用传递，即传递的是对象的地址。 list对象b和list对象a的地址一样，列表中各元素的地址值也是一样的。改变对象a的值，对象b也会变化。比如说现在的需求是，为一对夫妻开...

2018-02-22 17:05:47 236

原创对数几率回归(逻辑斯蒂回归)

对数几率回归(逻辑斯蒂回归)@(机器学习经典算法总结)逻辑回归基本是我们所有人学习的第一个分类器，分类器从概率意义上理解，代表的是什么意思，以最简单的二分类来举例吧，假设样本数据 D=(x(i),y(i)), i for 1,2,3,...y(i)∈(−1,+1)D=(x(i),y(i)), i for 1,2,3,...y...

2018-02-08 10:43:45 1582

原创机器学习经典算法总结之线性回归

机器学习经典算法总结之线性回归最大似然估计(Maximum likelihood Estimate)在开始我们第一个算法之前呢，先介绍机器学习中一个非常重要的准则，这是一种参数估计的方法——最大似然估计MLE（Maximum Likelihood Estimate）最大似然估计应用场景是模型已定，参数未定比如掷硬币我们知道服从伯努利分布，班上同学整个成绩服从高斯分布，这些情况下模

2018-02-01 20:51:10 647

原创 OneHot编码知识点

OneHot编码定性特征转换为定量特征定性特征，表示某个数据点属于某一个类别，或具有某一种类的特性。定性特征英文用Categorical Variable表示。常见如：颜色、性别、地址、血型、国籍、省、市、邮政编码，都是定性特征。维基百科关于Categorical Variable解释这篇文章对定性特征的定义和数据挖掘中常用处理方法做了很好的讲解Dummy Encoding VS O

2017-12-29 12:39:39 26310

原创 Mac 安装xgboost

Mac 安装xgboost@(Kaggle) 系统：macos sierra 10.12.6 1、安装gccbrew install gcc5 --without-multilib会自动更新homebrew并且安装gcc; 2、下载xgboost并且编译：git clone --recursive https://github.com/dmlc/xgboost;cd xgboost;cp

2017-10-10 10:38:03 306

原创 Seventh week of machine learning on Coursera

如果训练集样本线性可分，那么在样本空间肯定能找到一个划分超平面将正负样本分隔开。在之前学习的逻辑斯蒂回归(感知机)基于梯度下降的方法来求得这个超平面。但是这种方法求得的超平面是无穷个的（指的是感知机使用梯度下降迭代更新ω和b\omega和b的过程中，会产生很多超平面方程，具体可参考《统计学习方法》例2.1），那么如何才能找到最优的超平面呢？由此就引出了我们这节的主题—Support Vect

2017-10-03 22:29:40 238

原创 Sixth week of machine learning on Coursera

Sixth week of machine learning on Coursera@(Coursera)模型选择最佳方法是将数据集分为训练集、交叉验证集和测试集，比例为6:2:26:2:2。模型选择问题如下图：举线性模型例子来说，提供了10个线性模型，最高项从x1,...,x10x^1,...,x^{10},那么该如何选择误差最小的模型呢？我们使用交叉验证集来验证各个模型的误差，

2017-10-01 22:17:58 252

原创 Leetcode—4.Median of Two Sorted Arrays

public double findMedianSortedArrays(int[] nums1, int[] nums2) { int left1 = 0; int left2 = 0; int right1 = nums1.length - 1; int right2 = nums2.length - 1; doub

2017-09-28 22:39:58 170

原创机器学习中的正则化

机器学习中的正则化@(《机器学习》西瓜书)在看周志华老师的《机器学习》——神经网络这节时，读到一段话： BP神经网络由于其强大的表示能力，经常遭遇过拟合情况，而防止过拟合情况最有效的策略就是“正则化”，其基本思想就是在损失函数中增加一个能描述其网络复杂度的部分，书中选择的是连接权和阈值的平方和。增加连接权和阈值平方和这一项后，训练过程将会偏好比较小的连接权和阈值，使得网络输出更加光滑，从而对过拟

2017-09-28 15:34:12 456

原创 Fourth and fifth week of machine learning on Coursera

Fourth and fifth week of machine learning on Coursera@(Coursera)第四周和第五周主要都是在讲解神经网络的知识点，理解有限，自己的内容主要是些零碎的知识点，系统性的讲解可参考我贴出的博客。神经网络（Representation）神经网络（learning）反向传播算法解析知识点：α(j)i\alpha_i^{(j)}表示第jj

2017-09-28 10:42:04 182

原创 Leetcode—3.Longest Substring Without Repeating Characters

3.Longest Substring Without Repeating Characters@(LeetCode) 合肥最近阴雨绵绵，今天特别困，喝了一杯咖啡仍然没精神，只能刷道题提提神了。题目描述：给定一个字符串，返回没有重复字符的最长子串的长度。 LeetCode官网思路： - 暴力搜索将不重复子串及其长度分别作为key-value放入map中； - 对map按value进行

2017-09-27 13:21:15 155

原创 Third week of machine learning on Coursera

Third week of machine learning on Coursera@(Coursera)ClassificationLogistic Regression Model其实是个分类算法，逻辑回归的假设函数其实是线性模型的基础上加上了个sigmod()函数：hθ(x)=g(θTx)h_\theta(x)=g(\theta^Tx) g(z)=11+e−z，表示sigmoid函数.g(

2017-09-25 21:04:50 218

原创 Second week of machine learning on Coursera

Second week of machine learning on Coursera@(Coursera)Multivariate Linear Regression当线性模型的特征从一个变量到多个变量时，引出了本节的多元线性回归。 Size number of bedrooms number of floors age of home price 2104 5 1

2017-09-25 10:15:26 226

原创 first week of machine learning on Coursera

first week of machine learning on Coursera@(Coursera) 惯例是，先在octava上实现算法原型，确定可用再迁移到其他编译环境。因为octava集成了很多机器学习算法和常用的计算，对于算法实现速度很快，而且代码比较简单。平方误差函数是解决回归问题最常用的代价函数(cost function)。我们的目的是使我们作出的假设函数hypothesi

2017-09-24 10:06:57 234

原创 9-22

今天实习公司搬办公室，给电脑安装了个Ubuntu16.04的双系统，参考的这篇博客win10下硬盘安装Ubuntu16.10（一定能安装成功）以及最近win10端的Dropbox可以非常及时的同步，但是MacBook端却一直JJ，而且一直挂着VPN都无法同步，显示一直在连接。谷歌搜索第一页在百度贴吧里找到了合适的方法，解决dropbox被qiang的方法下载一个DNSCrypt软件按上Enabl

2017-09-22 22:55:28 159

原创线性模型——《机器学习》

线性模型——《机器学习》@(《机器学习》西瓜书) 线性模型的基本形式：给定由d个属性描述的示例x⃗ =(x1;x2;...;xd)\vec{x}=(x_1;x_2;...;x_d) f(x)=ω1x1+ω2x2+...+ωdxd+bf(x)=\omega_1x_1+\omega_2x_2+...+\omega_dx_d+b 写成向量形式：f(x)=ω⃗ Tx⃗ +bf(x)=\vec{\o

2017-09-21 11:24:19 423

原创 scikit-learn Tutorials-KNN

scikit-learn Tutorials-KNN@(scikit-learn)scikit-learn处理的数据是二维数组的形式的，数组的第一个轴是Sample(样本)轴，第二个轴是”Feature”(特征)轴；例如：以Iris花数据集为例，Jupyter输入： from sklearn import datasets iris=dataset.load_iris()

2017-09-20 13:11:42 291

原创 k近邻算法

k近邻算法@(机器学习实战) 书中配套代码放在GitHub上《机器学习实战》看到k-近邻算法代码时，一个函数不太懂: import numpy as np np.tile（A,reps）这个函数是将数组A重复reps次，reps可以是个整数、数组等。例：import numpy as npa=np.array([0,1,2])np.tile(a,2)//在列方向将数组a重复2

2017-09-19 21:31:48 639

原创 MergeSort归并排序

MergeSort归并排序@(算法) 本节介绍MergeSort，归并排序是基于分治思想的，即divide-and-conquer 递归的将一个数组元素不断二分，等到实在不能分为止，开始对小数组排序，并将两个小数组merge成更大的已排序数组，直到原数组排好序为止。 MergeSort算法的时间复杂度为O(NlogN)O(NlogN)先上MergeSort的代码，对算法的思路有个大致的了解：p

2017-09-13 15:25:34 326

原创 Convex hull凸包问题和Graham算法

Convex hull凸包问题和Graham算法@(算法)GitHub地址引入凸包问题前先复习一下向量的知识。在二维空间中，向量定义方向和长度，用一对坐标x,yx,y来表示。向量的加法和减法就不加以赘述了，重点讲述向量的点乘和叉乘。 AB=x1∗x2+y1∗y2A B=x1*x2+y1*y2，AB=|A||B|cosΘA B=|A||B|cos\Theta 点乘得到的是个标量，这个公式可

2017-09-12 13:41:11 1372

原创 Interview Questions

Interview QuestionsGitHub地址 @(算法)Queue with two stacks(两个栈实现一个队列)一个栈用来入队，一个栈用来出队，出队时将入队栈中的元素全部导入到出队栈。注意：如果“出队”栈不为空，此时有元素入队，直接将元素压入”入队”栈，省去了导入环节。入队的时间复杂度为O(1)O(1)，出队如果需要导入时间复杂度为O(n)O(n)，不需要导入复杂度为O(

2017-09-07 15:02:08 192

Percolation(渗透)问题@(算法) Coursera作业链接直接将马克飞象导出的md文件发到博客，排版不是很清晰，抱歉，可查看GitHub详细代码和文档实际问题：将一个不透水的均质方块分割为N*N，最上方为水源，随机打开方块中任意格子，重复此项操作多次，产生一条路径使水能穿过这个方块到达最下方。the modelpercolation系统使用n-n格点，每个格点site有open/blo

2017-09-06 22:26:33 9959 1

原创 Chapter11"函数和函数式编程"笔记

1、函数没有设定返回值的默认返回对象类型为None，类似于C中的void。def hello(): print 'hello world'print hello()结果输出：hello world None2、元组可以被分解成为单独的变量，也可以直接用单一变量对其进行引用def bar(): return ('abc',[4-2j,'python'],"Guido

2017-06-15 17:50:46 224

原创用keras搭建一个简单多层感知器MLP

首先在电脑上安转TensorFlow、Theano、Keras.pip install TensorFlowpip install Theanopip install keras安转好之后，可以在Pycharm中编写程序。from keras.models import Sequentialfrom keras.layers import Denseimport numpynumpy.ra

2017-04-28 18:40:08 1929

原创 Python做文本处理

Python将文本文件的内容读入可以操作的字符串常量非常容易。文件对象提供了三个读方法：.read()、.readline()、.readlines()。每种方法接受一个变量以限制每次读取的数据量，但它们通常不使用变量。.read()每次读取整个文件，它通常将文件内容放到一个字符串常量中，它生成文件内容醉直接的字符串表示，但对于连续的面向行的处理，它却是不必要的，如果文件大于可用内存，则不可能实现这

2017-04-10 21:55:10 1539

原创 C++智能指针

当类中的有指针成员时，对象之间的复制时，会造成对象的指针成员指向同一个基础对象。当两个指针指向同一对象时，可能使用任一指针改变基础对象。类似地，很可能一个指针删除了一个对象，另一指针的用户还认为基础对象仍然存在，此时会造成悬垂指针，即指针指向不存在的对象。class HasPtr{private: int val; int* ptr;public: HasPtr(int

2017-03-30 09:52:07 168

原创 C++中复制构造函数

复制构造函数，顾名思义，带有复制功能的构造函数。先上C++ Primer 定义：复制构造函数，无返回值，形参为对该类型的引用，一般为const.应用情况分两种：1、定义一个新对象并用同类型的对象对它进行初始化时，显式调用复制构造函数；2、当将改类型的对象以值传递的方式作为函数返回值或者作为函数形参时，隐式调用复制构造函数。情况1：class People{private: int ag

2017-03-28 10:39:27 249

转载 C++ static用法

http://blog.csdn.net/majianfei1023/article/details/45290467

2017-03-27 17:19:36 179

原创 C++中的友元

友元机制允许一个类将其非公有成员的访问权限授予指定的函数或类。只能出现在类定义的内部，或者说声明在类作用域内部. 1、必须在类作用域内显式说明友元函数，以关键词friend开头，后跟函数原型，友元函数的声明可以在类作用域任何位置，一般在类作用域的开头； 2、友元函数不是类的成员函数，直接调用即可，不需要加::操作符； 3、友元函数不能直接访问类的成员，只能访问对象的成员，可以将对象作为形参传给

2017-03-27 15:05:28 165

原创 Mac上使用Python

Mac上安装Pycharm IDE,即可运行Python程序。社区版本免费。而且重要的是，安装使用第三方包时，比如pandas,numpy这些包，非常方便。首先安装anocondo软件，选择默认安装即可，它会自带python2.7.12 安装好anoconda之后打开PyCharm，新建一个工程或py文件选择右上角-Edit Configuration 将Python int

2017-02-25 17:16:07 812

原创决策树算法及代码

最近重新旁听一门数据挖掘课程，分类算法首先讲到的是决策树算法。简而言之，决策树即为if-then结构的树。输入：训练集{(x1,y1),(x2,y2),…,(xn,yn)}; 属性集{a1,a2,…,ad} 过程：函数DecesionTree(D,A) if 数据D均属于同一属性，就将结点标记为对应类叶节点，return； if A=空集，return 经计

2017-02-25 16:55:25 1042

原创 python读写csv文件

#Python读取Weather.csv文件内容import csvdata = [[]]f = open('Weather.csv')for line in f: line = line.strip("\r\n") data.append(line.split(','))f.close()#Python写入Weather_result.csv文件内容f=file('W

2017-02-25 16:22:08 302

原创《Leetcode系列》C++实现：3-Longest Substring Without Repeating Characters

Given a string, find the length of the longest substring without repeating characters.Examples:Given “abcabcbb”, the answer is “abc”, which the length is 3.Given “bbbbb”, the answer is “b”, with the le

2016-09-29 09:26:53 202

原创《计算机网络自顶向下方法》

802.11MAC协议使用的CSMA/CA，叫做载波侦听多路访问/冲突避免，而802.3以太网协议使用的CSMA/CD（冲突检测）的机制。为什么802.11不能使用CSMA/CD 呢： 1，检测碰撞的能力要求站点具有同时发送和接收的能力，而在802.11适配器上，接受信号的强度远远小于发送信号的强度。 2，适配器会由于隐藏终端问题和衰减问题而无法检测到所有的碰撞。所以802.11使用碰撞避免

2016-09-28 20:14:36 2738

SMO算法详解

空空如也