- 博客(5)
- 收藏
- 关注
转载 随机之美——机器学习中的随机森林模型
原文链接见:点击打开链接01 树与森林在构建决策树的时候,可以让树进行完全生长,也可以通过参数控制树的深度或者叶子节点的数量,通常完全生长的树会带来过拟合问题。过拟合一般由数据中的噪声和离群点导致,一种解决过拟合的方法是进行剪枝,去除树的一些杂乱的枝叶。注:你可能需要参考前面的文章:《0x0B 菩提决策树,姻缘算法求》实际应用中,一般可用随机森林来代替,随机森林
2016-04-16 19:02:30 4946
原创 集成学习
以往的课程中很少涉及到集成学习,最近刚开始接触。其实就现在对集成学习模糊的了解,感觉上是一个很实用且强大的思想方法。今天看了bagging和boosting,乍一看感觉完全是一个意思,都是多次采样形成多个弱分类器,最后由这些弱分类器形成强分类器,以提高分类效果。不过刚刚看了一篇博文,才了解到bagging和boosting最大的区别其实在于hard和soft。bagging是通过h
2016-04-13 16:41:46 520
原创 Spark MLlib Gaussian Mixture Clustering源码阅读
本次主要对Spark1.5.2版本MLlib机器学习中的GMM聚类算法进行源码学习。Content1.GMM(Gaussian Mixture Model)2.Spark中GMM实现方法3.ExperimentGMM(Guassian Mixture Model)这一部分的学习主要通过查阅来自其他人总结的技术博客以及一些文献进行学习。以下内容摘录总结自plusk
2015-12-08 15:19:55 2402 4
原创 Spark Scala选取面向行数据中的某几列
比如数据格式如下:Attribute1 Attribute2 Attribute3 a 1 3 b 4 2 c 2 3现在我们要
2015-04-25 21:32:33 7073
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人