leo鱼-CSDN博客

转载计算机广告特征工程

想特征分析特征特征加工方法1、二值化：将一个特征转换成用0/1表示的多个特征2、交叉：两个特征组合成一个特征，一般为广告ctr与某特征组合3、平滑：对反馈ctr特征进行平滑处理，避免因数据稀疏性，对整体点击反馈ctr的影响。为什么要对特征值进行平滑处理如何对特征值进行平滑处理：引入Beta（α，β）作为先验概率4、离散化：将连续特征进行离散化，将一个连续特征拆分成几个离

2018-02-02 18:27:10 492

原创 xgboost on yarn and xgboost4j-spark部署

参考:http://blog.csdn.net/u010306433/article/details/51403894 注意点:1.各个软件的版本(gcc/cmake)2.选择相同版本hadoop源码,且libhdfs 要自己编译,参数加上 cmake -DGENERATED_JAVAH=/opt/jdk1.8.0_60 -DJAVA_HOME=/opt/jdk1.8.0_60...

2017-11-16 17:29:16 5067 2

原创 centos 7深度学习环境部署

1.确认有gccgcc --version2.识别kernel headers版本并安装[root@A03-R07]# uname -r 3.10.0-327.28.3.el7.x86_64yum install kernel-devel-3.10.0-327.28.3.el7.x86_64 kernel-headers-3.10.0-327.28.3.el7.x86_

2017-05-17 14:30:53 3410

原创递归神经网络问题整理

问题一:LSTM如何避免梯度弥散和梯度爆炸LSTM只能避免RNN的梯度消失（gradient vanishing）；梯度膨胀(gradient explosion)不是个严重的问题，一般靠裁剪后的优化算法即可解决，比如gradient clipping（如果梯度的范数大于某个给定值，将梯度同比收缩）。下面简单说说LSTM如何避免梯度消失.RNN的本质是在网络内部维护了一个状态，其中

2017-05-03 16:11:42 2075

转载逻辑回归key points

1.逻辑回归LR的特征为什么要先离散化转自：http://m.blog.csdn.net/article/details?id=39478033在工业界，很少直接将连续值作为特征喂给逻辑回归模型，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易scalable（扩展）。2. 离散

2016-09-21 17:22:44 818 1

转载 spark单机环境（支持hive）部署

一.安装hadoop 2.6.4core-site.xml fs.default.name hdfs://localhost:9000 hadoop.tmp.dir /tmp/hadoopTmp hdfs-site.xml

2016-09-12 14:33:19 2246

转载 GBDT

GBDT资料：http://suanfazu.com/t/gbdt-die-dai-jue-ce-shu-ru-men-jiao-cheng/135http://suanfazu.com/t/gbdt-mart-gai-nian-jian-jie/133GBDT vs xgboost：作者：wxquare链接：https://www.zhihu.com/qu

2016-09-01 15:26:59 794

转载 MapReduce过程、Spark和Hadoop以Shuffle为中心的对比分析

转自：http://www.jianshu.com/p/0ddf3ae19b49mapreduce与Spark的map-Shuffle-reduce过程mapreduce过程解析（mapreduce采用的是sort-based shuffle）将获取到的数据分片partition进行解析，获得k/v对，之后交由map()进行处理.map函数处理完成之后，进入collect阶

2016-08-30 08:33:11 576 1

转载数据预处理之独热编码（One-Hot Encoding）

转自：http://www.cnblogs.com/lzh-cnblogs/p/3764749.html问题由来在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。例如，考虑一下的三个特征：["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "

2016-08-15 14:59:25 6554

转载 xgboost参数调整

转自：https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/IntroductionIf things don’t go your way in predictive modeling, use XGboost. XGBo

2016-08-04 10:22:59 12904

原创朴素贝叶斯分类

贝叶斯公式推导基本的贝叶斯公式由来一般形式把全概率公式：代入到基本的形式中既可以得到。贝叶斯公式的应用分本分类中的应用拉普拉斯平滑TFIDF贝叶斯分类的局限性贝叶斯公式的额外思考

2016-07-19 17:44:29 810 1

原创 BP神经网络的网络带宽预测

网络流量预测的背景网络流量为指定时间内通过网络或网络端口的数据大小，各个网络节点都是有瓶颈的，当流量达到或超过节点的瓶颈时，网络服务已经收到了不同程度的影响。建立网络流量模型，通过模型预测将来可能超过瓶颈的的时间和可能性，便可以预先采取一定的防护措施，如大节点的流量切换；另外由于各个节点的计费方式和价格也不同，我们可以依据预测的流量在不影响用户体验的情况下把代价高的流量切换到代价低的节点上

2016-04-22 16:26:15 3922 1

转载 PCA数学原理

PCA的数学原理作者张洋 | 发布于 2013-06-22机器学习线性代数 PCAPCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，而没有讲述其中的原理。这篇文章

2016-04-21 14:54:11 265

原创数据挖掘知识梳理脑图

2016-04-11 19:13:05 1177

原创样本不均衡问题--bagging方法

bagging是一种用来提高学习算法准确度的方法，这种方法通过构造一个预测函数系列，然后以一定的方式将它们组合成一个预测函数。它使用bootstrap抽样，其基本思想是：将一个弱学习算法使用多次（每次使用一个放回的重复抽样），并对结果进行投票，最后选取投票多的结果作为最终的结果（也可以通过得票的平均值用于连续值的预测）。bagging对使用的分类算法有要求，必须为不稳定的算法（不稳定是

2016-04-07 17:54:29 5117

原创样本不均衡问题--过拟合欠拟合抽样

过抽样就是在样本很少的时候，添加或者复制样本，比如两类样本分别为100个A类和10个B类，那么为了保证A,B这两类样本平衡，可以复制B类使得样本和A类一样。方便分类器分类。欠抽样就是将A的样本减少到和B类一样。从表面上看过抽样和欠抽样技术在功能上似乎是等价的，因为他们都能改变原始数据集的样本容量并且能够获得一个相同比例的平衡（处理样本不均衡问题的方法）。但是，这个共同点是表面现象，这两种方

2016-04-07 14:54:41 3501

转载正则化方法L1和L2

正则化方法：防止过拟合，提高泛化能力在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程，网络在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集，对训练集外的数据却不work。为了防止overfitting，可以用的方

2016-03-04 13:37:47 2483

转载机器学习正则化（Regularization）

1. The Problem of Overfitting1还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上这并不是一个很好的模型。我们看看这些数据，很明显，随着房子面积增大，住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠

2016-03-04 11:20:59 524

转载损失函数（loss function）

通常而言，损失函数由损失项(loss term)和正则项(regularization term)组成。发现一份不错的介绍资料：http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf （题名“Loss functions; a unifying view”）。

2016-02-03 14:36:29 3395

原创 python环境搭建

1.添加用户useradd -d /home/test -m testpasswd testvisudo 添加行：test ALL=(ALL) NOPASSWD: ALL2.安装pipwget --no-check-certificate https://github.com/pypa/pip/archive/1.5.5.tar.gz

2016-02-02 18:45:23 367

原创时间序列拆解

季节性的时间序列预测模型是用来拟合季节性的时间序列的变化规律，预测其下一个周期的各个数据点的值。季节性的时间序列具有高度负责的非线性结构，同事表现为周期性的变化的重要特征。因此建立准确的季节性时间序列预测模型具有高度的挑战，一方面要体现它的周期特征，呈现相对稳定的有规律的重复；另一方面还要准确的拟合季节性时间序列的非线性变化。传统的季节性时间总体模型一般分为两类：一类随机季节模型，认为相隔一个

2016-02-01 15:31:17 4341

转载 R语言数据挖掘包

与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包： fpc，cluster，pvclust，mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plot.

2016-02-01 14:09:43 1555

原创灰色预测模型

概念：白色系统：系统的内部特征是完全已知的，即系统的信息是完全充分的。黑色系统：一个系统的内部信息对外界来说是一无所知的，只能通过他与外界的联系来加以观测研究。灰色系统：一部分信息是已知的，另一部分信息是未知的，系统内各因素之间具有不确定关系。其特点是‘少数据建模’，着重研究‘外延明确，内涵不明确’的对象。灰色预测法：灰色预测法是一种对含有不确定因素的系统进行预测的方法。它通过鉴

2016-01-28 16:07:25 23509

原创时间序列分析

时间序列,自相关性,arma,arima

2015-12-21 18:12:19 11140

原创模型选择准则

对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供使用，选择不同的变量组合可以得到不同的模型，例如我们有5个变量，2的5次方，我们将有32个变量组合，可以训练出32个模型。但是哪个模型更加的好呢？目前常用有如下方法AIC准则AIC信息准则即Akaike information criterion（赤池信息准则），是衡量统计模型拟合优良性的一种标准，由于它为日本统计学家赤池

2015-12-14 19:15:28 5132

转载优化算法-梯度下降法

梯度下降法是一个最优化算法，它采用迭代的方式，沿着负梯度方向（梯度的值的负方向）来小步长的搜寻最优解。当越接近最终的目标，它的搜索速度越慢。求解方法其迭代公式为 ,其中代表梯度负方向，表示梯度方向上的搜索步长。梯度方向我们可以通过对函数求导得到，步长的确定比较麻烦，太大了的话可能会发散，太小收敛速度又太慢。一般确定步长的方法是由线性搜索算法来确定，

2015-11-27 14:46:22 861

原创优化算法-遗传算法

遗传算法同模拟退火法一样也是受自然科学的启发，它模拟物竞天择的生物进化过程，通过维护一个潜在解的群体执行了多方向的搜索，并支持这些方向上的信息构成和交换。通过点和面的搜索发现全局最优解。遗传算法步骤：1.随机生成一组解，称之为群组。在优化过程的每一步，计算整个群组的成本函数，再将之排序。2.生成新群组：精英选拔：将当前群组中位于最顶端的一部分题解加入新的群组中修

2015-11-23 18:31:13 1848

原创优化方法-模拟退火法

模拟退火法是针对爬山法只能求出局部最优解提出来的。模拟退火法其实也是一种贪心法，但是他搜寻最优解的过程中引入了随机因素，允许在中间的计算过程中按照一定的概率来接受相对较差的中间结果，因此它有可能调出局部最优解寻找到全局的最优解。模拟退火法算法描述：若J(Y(I+1)) >= J(Y(I)) （即移动后得到更优解）则总是接受该移动若J(Y(I+1)) 上行中一定的概率参考了冶金中

2015-11-23 15:31:11 888

转载优化方法-爬山法

爬山法是一种局部最优的算法（本质上属于贪心法），也属于启发式的方法，它一般只能得到局部最优解。当优化的问题的局部最优解即为全局最优解时可以用此方法来求最优问题，否则可以考虑多次爬山法或者其他的方法如遗传算法和模拟退火法。一、原理爬山法一般从一个随机的解开始，然后逐步找到一个最优解（局部最优）。假定所求问题有多个参数，我们在通过爬山法逐步获得最优解的过程中可以依次分别将某个参数的值增加或者

2015-11-18 17:56:49 6880

原创 AdaBoost

提升方法的思路：对于一个复杂的任务来说，将多个专家的判断进行综合所得出的判断，要比任何一个专家的单独判断好。在概率近似正确（probably approximately correct,PAC）学习的框架中，一个概念，如果存在一个多项式的学习方法能够学习它，并且正确率很高，那么称这个概念是可强可学习的。一个概念，如果存在一个多项式的学习算法能够学习它，并且学习的正确率仅比随机随机猜想略

2015-11-17 16:00:05 1924

原创随机森林

随机森林是一个包含多个决策树的分类器，他的类别由其包含的树输出的类别的众数而定。随机森林的基本原理如下：1.循环t次随机的有放回的选取N个样本形成t个训练集2.对这t个训练集选取m个特征（小于总特征数）建立多个决策树（完全生长，不剪枝）3.选取结果多的类别作为最终分类结果

2015-11-17 11:29:11 2622 1

原创曲线平滑方法

一次指数平滑公式：s[i] = alpha*x[i] +(1-alpha)*s[i-1]分析：alpha月接近1，平滑后的数据月接近当前时间的数据值，这种情况下数据越不平滑；当alpha越接近0，平滑后的数据s[i] 越接近前i-1个数据的平滑值，数据越平滑。alpha取值标准：偏差平方的均值（MSE）最小，即各期实际值x[i]与平滑数据s[i]的差的平方和除以总数据数目最小。适用

2015-11-06 17:38:25 14885

原创马儿科夫预测法

一、马尔科夫链马尔科夫链是一种随机事件序列，它将来取什么值只与它现在的取值有关，与它过去的取值无关，既无后效性（转移概率是不变的）。具备这个性质的离散性的随机过程被称为马儿科夫链。而马尔科夫预测法是应用马尔科夫链的理论和方法分析有关现象的现状和变化规律，并依据这些来预测未来状况的预测方法。二、预测的一般步骤使用马儿科夫模型来进行预测，一般是根

2015-11-06 16:09:39 4873

原创决策树

决策树算法比较 ID3C4.5CART(分类)CART(回归)树类型多叉树多叉树二叉树二叉树特征选择信息增益（熵）信息增益率（熵）基尼系数平方误差最小损失函数Ca(T)=C(T)+a|T|

2015-11-05 19:23:38 2679

转载 python装饰器

这是在Python学习小组上介绍的内容，现学现卖、多练习是好的学习方式。第一步：最简单的函数，准备附加额外功能12345678# -*- coding:gbk -*-'''示例1: 最简单的函数,表示调用了两次''' def myfunc():

2015-10-29 14:17:58 62

原创 svm 的R实现

1.数据准备本地文件格式：hour15, hour15diff, hour17, hour17diff, addrate, lastflag, res23.7475, -9.3125, 30.5800, -12.7600, -3.4475, 0, 0 24.6150, -10.3050, 31.7625, -13.5175, -3.2125000000000004, 0, 0

2015-08-18 10:59:47 1522

转载 kmp算法

KMP算法 KMP 匹配算法是由 "Knuth Morris Pratt" 提出的一种快速的模式匹配算法。 hint：不为自身的最大首尾重复子串长度 1.待解决的问题：假设P为给定的子串，T是待查找的字符串，要求从T中找出与P相同的所有子串，这称为模式匹配问题。 (可以给出子串在T中的位置) (下文中提到的P和T分别为子串和目标串) 让我们先来看个

2012-02-06 19:30:57 68

线性回归介绍

逻辑回归整理

斯坦福大学机器学习个人笔记

支持向量机svm总结

空空如也