自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Datacastle 微额贷款人品预测大赛总结

感谢datacastle和现金巴士提供了这样好的大数据竞赛平台!主要从以下几个方面总结:(0)数据预处理:  缺失值:删除缺失值大于194的样例 根据缺失值个数分段构造离散特征 数值型变量:log变换(1)特征工程          (1)排序特征:将数值型数据排序,将其rank作为新的特征  (2)连续特征离散化:等量,或者等间距          (

2016-04-02 23:00:13 2841

翻译 Kaggle中常用融合技术

Kaggle中常用融合技术:原文链接:http://mlwave.com/kaggle-ensembling-guide/模型融合技术可以提高一系列机器学习任务的准确率。在这篇文章中我将会分享大家一些在kaggle比赛中常用的融合方法。 第一部分我们介绍利用提交的文件创建融合模型。第二部分我们通过堆栈泛化创建容和模型。我回答了为什么融合能够减少泛化误差。最后我列举了不同的融合方

2016-02-29 20:46:03 6322

翻译 关于特征工程

什么是特征工程,怎么做特征工程,怎么做好特征工程特征工程是一个包含内容很多的主题,也被认为是成功应用机器学习的一个很重要的环节。为了写这篇文章,我深入和广泛的阅读了相关材料,并且对他们进行了整合。这篇文章主要说明了以下问题:什么是特征工程?特征工程解决了什么问题?为什么特征工程对机器学习很重要?如何进行特征工程?哪些团队对这个问题研究的比较好,以及在哪里你能学到更多相关知识。如果你只阅

2016-02-29 15:09:06 3884

原创 机器学习项目中重要问题

1.数据预处理:特征选择->降维:剔除对预测结果影响小的因素       升维(值离散化,特征组合)->提高特征复杂度,增强模型拟合能力(复杂模型:简单特征   简单模型:复杂特征)           样本选择->剔除离群点2.模型选择:根据特征的特点选择合适的模型(多线性特征,选择非线性模型;多非线性特征,选择线性模型;)根据计算能力选择模型(计算能力有限:选择LR等较简单的线性模型)

2016-02-03 16:27:21 605

原创 剑指offer:字符串排列

void permutation(*pstr){ if(pstr==null) return; permutation2(pstr,pstr);;}void permutation2(*pstr,*pstr){ if(*pbegin=='\0'){ printf("%s\n",pstr); } else{ f

2015-08-05 11:44:34 372

原创 剑指offer:复杂链表复制

1.p  A->B->C->D->E=>A->A‘->B->B'->C->C'->D->D'->E->E'2.找到A',B',C',D',E'的随机指针指向3.将复制后的链表A' B' C' D' E'拆出来public class Solution { public RandomListNode Clone(RandomListNode pHead) {

2015-07-27 19:25:13 386

原创 python进阶四:类的继承

python继承:(1)总是从某个类继承                        (2)要用父类super方法进行初始化。继承一个类 :Teacher继承自Person类     正确调用父类的__init__方法class Person(object): def __init__(self, name, gender): self.name = na

2015-07-20 15:23:26 663

原创 Python进阶三:面向对象基础

初始化实例属性:输入关键字信息attr=‘attr1’可以用kw.iteritems()class Person(object): def __init__(self,name,gender,birth,**kw): self.name=name self.gender=gender self.birth=birth

2015-07-15 15:18:43 899

原创 Python进阶二:模块和包

同名模块:放入不同包中  import package1.file1;如何区分包和普通目录:包下面有一个__init__.py文件导入模块:from package import file1  或者 import package.filefrom os import pathprint path.isdir(r'/data/webroot/resource/python')print

2015-07-09 21:43:16 544

原创 python进阶一:高阶函数

1、函数式编程:      python特点:不是纯函数式编程(允许变量存在);                              支持高阶函数(可以传入函数作为变量);                              支持闭包(可以返回函数);                              有限度的支持匿名函数;       高阶函数:变量可以指

2015-07-08 15:51:42 5949

转载 模型选择与特征选择

1 问题     模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?     还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络

2015-07-01 10:36:08 7683

原创 mysql总结

一、数据库层次操作:创建数据库:CREATE DATABASE [IF NOT EXISTS] db_name CHARACTER SET utf8;删除数据库:DROP DATABASE[IF EXISTS] db_name;修改数据库编码:ALTER DATABASE db_name CHARACTER SET utf8;显示数据库是否创建:SHOW DATAB

2015-06-30 23:45:52 350

原创 主成分分析算法

1.数据预处理:均值中心化,方差归一化 2.计算各变量协方差矩阵 3:计算特征值,特征向量 4:将特征值从大到小排序,选前k大的,其对应的特征向量组成线性变换矩阵。 5:将原数据以特征变换矩阵进行线性变换,得到k维数据 k值选择:方差损失小于一定阈值 理论基础:方差最大化,均方误差最小化

2015-06-30 12:27:27 635

原创 数据预处理

数据清洗(1)缺失值(忽略,中心趋势度量,该类中心趋势度量,人工填写,使用全局变量填充 ,使用最可能的值填充)(2)离群点:数据光滑(分箱 (中位数光滑,极值光滑,均值光滑),回归,离群点检测:聚类)数据集成(1)实体识别(2)冗余相关分析(标称数据 :卡方检验  数值型:协方差,相关系数)(3)元组重复(4)数据值冲突检测处理数据归约(1)维归约(小波分析,P

2015-05-28 22:55:07 615

原创 感知器,线性回归,logistic回归

1.感知器算法2.线性回归算法(梯度下降,正规方程组)3.logistic回归和最大熵原理

2015-05-27 09:54:31 2587

原创 LeetCode:Median of two sorted array

求两个排序数组的中位数:这是一个O(log(n+m))的算法。将求中位数转化为求两个数组中第(m+n)/2大的数,进一步扩展为求第k大的数。首先考虑三种边界情况:两个数组中有一个数组长度为0,则返回另一个数组的中位数即可;若k=1,则只需输出两个数组各自最小值中较小的那一个。然后,要求第k大的数,先假设两个数组各取前k/2,如果,第一个数组中第k/2个数字小于第二个数组中第k/2个数字,则

2015-05-22 20:03:31 490

原创 决策树分类算法小结

决策树主要有ID3,C4.5,CART等形式。ID3选取信息增益的属性递归进行分类,C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类,也可以进行回归。其中使用基尼系数选取分类属性。以下主要介绍ID3和CART算法。ID3算法:信息熵: H(X)=-sigma(对每一个x)(plogp

2015-05-11 19:28:45 2713

原创 LeetCode:Generating Parenthesis

public class Solution{ public ArrayList StackSeq(String a){ ArrayList list=new ArrayList(); StringBuffer str = new StringBuffer(); if(a.length==0)return list; recursive(

2015-05-10 22:54:43 382

原创 EM算法浅谈

1.主要思想:       存在隐含变量。不能直接利用最大似然估计估计参数。       先随机生成参数,

2015-05-09 20:11:08 670

原创 多重假设检验校正为什么有效?

1.零假设和p值 零假设:在随机条件下的分布。 p值:在零假设下,观测到某一特定实验结果的概率称为p值。2.为什么高通量实验中p值存在问题? p值只对一次实验结果有效,如果是多重假设检验需要进行校正。3.多重假设检验校正。 邦弗朗尼校正:p值小于显著性阈值/n(在零假设中至少有一个的得分会大于观测值的概率为显著性阈值,即我们有1-显著性阈值的概率可以确定在零假设中不会出现比

2015-05-06 10:03:13 10903

原创 支持向量机概述

1.原理:   最大间隔分类器:     min 1/2||w||^2        yi(wxi+b)>=1   写出拉格朗日函数:Lp   不等式约束利用KKT条件。  线性可分:直接最大化间隔  线性不可分:加入松弛变量  约束条件放宽  yi(wxi+b)>=1-ei                          目标函数加入惩罚项(需要设置参数C)

2015-05-04 21:13:31 459

原创 贝叶斯文本分类器原理and技术要点

一 原理:贝叶斯公式:P(Y|X)=P(X,Y)/P(X)=P(X|Y)*P(Y)/P(X)贝叶斯分类:输入 X=(X1,X2...,Xn) 输出  P(Y1|X)...P(Yk|X)中最大的一个作为分类结果。                       假设:输入各分量相互独立即P(Y1|X)=P(X|Y1)*P(Y1)/P(X)=P(X1|Y1)*...*P(Xn|Y1)*P(Y1

2015-04-26 20:48:26 474

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除