songhao22-CSDN博客

原创 spark graphx 教程 join

https://blog.csdn.net/qq_40887813/article/details/90610672

2020-05-02 23:22:36 270

原创 spark组件之graphx函数方法（一）

看链接https://blog.csdn.net/sinat_29508201/article/details/51605676?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-21&utm_source=distribute.pc_relevant.none-task-blog-B...

2020-04-28 22:46:02 241

转载 SMOTE过采样

转载自https://blog.csdn.net/keycoder/article/details/79188853一、SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术，它是基于随机过采样算法的一种改进方案，由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特...

2019-07-30 08:07:59 2430

转载信息熵与Gini不纯度(转)

1、信息熵信息论中的信息量和信息熵。信息量：信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。例如：在哈尔滨的冬天，一条消息说：哈尔滨明天温度30摄氏度，这个事件肯定会引起轰动，因为它发生的概率很小（信息量大）。日过是夏天，“明天温度30摄氏度”可能没有人觉得是一个新闻，因为夏天温度30摄氏度太正常了，概率太大了（信息点太小了）从这个例子...

2019-03-03 16:29:05 625

转载机器学习中的特征——特征选择的方法以及注意点（转）

转自https://blog.csdn.net/google19890102/article/details/40019271一、特征选择和降维1、相同点和不同点特征选择和降维有着些许的相似点，这两者达到的效果是一样的，就是试图去减少特征数据集中的属性(或者称为特征)的数目；但是两者所采用的方式方法却不同：降维的方法主要是通过属性间的关系，如组合不同的属性得新的属性，这样...

2018-10-10 22:08:59 836

转载用Spark学习FP Tree算法和PrefixSpan算法

　转自https://www.cnblogs.com/pinard/p/6340162.html　　在FP Tree算法原理总结和PrefixSpan算法原理总结中，我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结，这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库，而Spark MLlib有，本文的使用以Spark MLlib...

2018-09-26 22:33:34 471

转载 PrefixSpan算法原理总结

转自http://www.cnblogs.com/pinard/p/6323182.html　前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree。这两个算法都是挖掘频繁项集的。而今天我们要介绍的PrefixSpan算法也是关联算法，但是它是挖掘频繁序列模式的，因此要解决的问题目标稍有不同。1. 项集数据和序列数据　　　　首先我们看看项集数据和序列数据有什么不同，如下图所示...

2018-09-26 22:32:09 474

转载决策树ID3、CART、C4.5之间的区别

历史回顾：1984年提出的cart，1986年提出的ID3，1993年提出的c4.5理论上总的来说，C4.5是基于ID3优化后产出的算法，主要优化了关于节点分支的计算方式，优化后解决了ID3分支过程中总喜欢偏向取值较多的属性ID3是信息增益分支：而CART一般是GINI系数分支：C4.5一般是信息增益率分支：工程上总的来说：CART和C4.5之间主要差...

2018-09-16 18:36:30 14975 1

转载机器学习正负样本选择问题

一、转自https://blog.csdn.net/weixin_38111819/article/details/79214815在机器学习模型构建的时候，我们往往会遇到数据样本正负比例极其不平衡的情况，例如在征信模型或者判断客户购买商品是否使用分期时，往往正负样本比达到10:1，这样会造成许多实际问题。样本不均衡会导致：对比例大的样本造成过拟合，也就是说预测偏向样本数较多的分类。这...

2018-09-02 22:43:12 11262 2

转自https://www.jianshu.com/p/c7e642877b0e梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现Further reading本文将从一个下山的场景开始，先提出梯度下降算法的基本思想，进而从数学上解释梯度下降算法的原理，最后实现一个简单的梯度下降算法的实例！梯度下降的场景假设梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场...

2018-06-10 22:27:52 996 2

转载特征选择

特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征。通过特征选择，一些和任务无关或是冗余的特征被删除，从而提高数据处理的效率。根据特征选择过程与后续数据挖掘算法的关联，特征选择方法可分为过滤、封装和嵌入。（1）过滤方法（Filter Approach）：使用某种独立于数据挖掘任务的方法，在数据挖掘算法运行之前进行特征选择，即先过滤特征集产生一个最有价值的特征子集。或者说...

2018-03-08 22:13:06 804

转载逐步回归法(Stepwise regression)学习

转载自http://www.lizenghai.com/archives/524.html搜索逐步回归法相关的资料信息，找到一片逐步回归法的学习笔记,比较详细的讲了逐步回归法的三种操作方式，个人倾向于第三种方式。在第三种方式下，不但考虑了新增因子的解释能力同时也考虑了新增因子后已存在因子的解释能力，最终等于将所有因子中不适宜的因子剔除，留下有效因子。这是解决多因子的多重共线性的有效办法。原文内容（...

2018-02-25 17:03:11 105052 2

原创多重共性和VIF检验

图片来源https://wenku.baidu.com/view/7008df8383d049649b66581a.html 和https://wenku.baidu.com/view/6acdf95e52ea551811a68721.html

2018-02-25 16:59:02 50909

转载 R语言中的SUMMARY结果汇总

转自http://www.dataguru.cn/thread-476888-1-1.html对于glm模型summary()输出的汇总结果，如何解读是非常重要的，它直接影响得出的结论。例如下面这样一个输出结果，该如何理解呢？Call:glm(formula = bl ~ I, family = gaussian,data = anaData)Deviance Residuals: Min ...

2018-02-25 16:26:46 36505

转载机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

转自http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/在分类任务中，人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上，这样的度量错误掩盖了样例如何被分错的事实。在机器学习中，有一个普遍适用的称为混淆矩阵(confusion matrix)的工具，它可以帮助人们更好地了解分...

2018-02-25 16:15:07 1680

转载 ROC曲线和PR(Precision-Recall)曲线的联系

在机器学习中，ROC（Receiver Operator Characteristic）曲线被广泛应用于二分类问题中来评估分类器的可信度，但是当处理一些高度不均衡的数据集时，PR曲线能表现出更多的信息，发现更多的问题。1.ROC曲线和PR曲线是如何画出来的？在二分类问题中，分类器将一个实例的分类标记为是或否，这可以用一个混淆矩阵来表示。混淆矩阵有四个分类，如下表：actual positive a...

2018-02-25 16:05:23 574

转载 tensorflow笔记：多层CNN代码分析

转自https://www.cnblogs.com/wuzhitj/p/6297985.htmltensorflow是google在2015年开源的深度学习框架，可以很方便的检验算法效果。这两天看了看官方的tutorial，极客学院的文档，以及综合tensorflow的源码，把自己的心得整理了一下，作为自己的备忘录。tensorflow笔记系列：（一） tensorflow笔记：流程，概念和简单...

2018-02-22 22:22:50 512

转载使用Python+Tensorflow的CNN技术快速识别验证码

转自https://www.jianshu.com/p/26ff7b9075a1?from=timeline 近年来，机器学习变得愈加火热，中国选手柯洁与AlphaGo的人机大战更是引起热议。目前，在图像识别和视觉分析研究中，卷积神经网络（CNN）技术的使用越来越多。Tensorflow 是由 Google 团队开发的神经网络模块，短短几年间，就已经有很多次版本的更新。最近我也在自学Tensor...

2018-02-22 22:21:00 952

转载 TensorFlow学习笔记2：构建CNN模型

上篇博文主要是TensorFlow的一个简单入门，并介绍了如何实现Softmax Regression模型，来对MNIST数据集中的数字手写体进行识别。然而，由于Softmax Regression模型相对简单，所以最终的识别准确率并不高。下面将针对MNIST数据集构建更加复杂精巧的模型，以进一步提高识别准确率。深度学习模型TensorFlow很适合用来进行大规模的数值计算，其中也包括实现和训练深...

2018-02-22 22:17:15 319

转载 Tensor是神马？为什么还会Flow?

大数据文摘作品，转载要求见文末编译 | 邵胖胖，江凡，笪洁琼，Aileen也许你已经下载了TensorFlow，而且准备开始着手研究深度学习。但是你会疑惑：TensorFlow里面的Tensor，也就是“张量”，到底是个什么鬼？也许你查阅了维基百科，而且现在变得更加困惑。也许你在NASA教程中看到它，仍然不知道它在说些什么？问题在于大多数讲述张量的指南，都假设你已经掌握他们描述数学的所有术语。别担...

2018-02-22 22:16:13 664

转载从理论到实践，手把手教你如何用 TensorFlow 实现 CNN

转载自https://www.leiphone.com/news/201705/HH3BbIfCqAtOAMbu.html一、CNN的引入在人工的全连接神经网络中，每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时，这时全连接网络需要训练的参数就会增大很多，计算速度就会变得很慢，例如一张黑白的 28×28 的手写数字图片，输入层的神经元就有784个，如下图所示：若在中间只...

2018-02-22 20:54:06 821

转载理解CNN卷积神经网络原理

转自http://blog.csdn.net/nicajonh/article/details/53142449?locationNum=2&fps=11 前言 2012年我在北京组织过8期machine learning读书会，那时“机器学习”非常火，很多人都对其抱有巨大的热情。当我2013年再次来到北京时，有一个词似乎比“机器学习”更火，那就是“深度学习”。本博客内写过一...

2018-02-22 20:27:36 403

转载神经网络浅讲：从神经元到深度学习

转自http://www.cnblogs.com/subconscious/p/5058741.html神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助你理解深度学习技术。　　本文以一种简单的，循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提...

2018-02-22 20:23:39 214

转载信用评分的简单小结（ROC，IV，WOE）

转自http://chen.yi.bo.blog.163.com/blog/static/150621109201011115616880由于专业的关系，我学习信用评分的时候往往最关注模型那一块，前段时间一直有很多困惑，这周认真地看了一篇文章，终于有一点点明白了，所以来简单地小结一下（这事儿不能说得太细），小结完了我得学习cURL去了。最常见的用于信用评分的模型就是logistic回归，这是一种处...

2018-02-17 21:57:00 412

原创 R语言样本数据划分（训练数据测试数据）

机器学习一般将数据划分成训练数据、验证数据（可选）、测试数据、三个部分，训练数据和验证数据用来训练模型，估计模型的具体参数，测试数据用来验证模型预测的准确程度。下面我们就对german_credit这个数据进行划分german_credit <- read.csv("f:\\german_credit.csv")train <-createDataPartition(y=german...

2018-02-11 23:10:30 23815 3

转载 R语言特征值相关性分析

转载自http://www.sohu.com/a/200219694_278730接触这么多组学数据，大家肯定做过各种相关性分析。大到几个转录组样本的整体相关性分析，小到挑选了一些候选基因看它们在不同样本中的表达模式相关性。当我们做完了相关性分析的时候，常常会用下面这种图形来展示：那么问题来了，有没有别的方法，可以让我的相关性分析展现方式更高大上呢？请出今天的主角，corrplot程序包！1老规矩...

2018-02-11 22:59:44 35193 1

转载 WOE和IV

转载自http://blog.csdn.net/kevin7658/article/details/507803911.IV的用途IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从...

2018-02-08 22:03:43 342

转载 Kafka 和 Spark Streaming 构建实时数据处理系统

转载自https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/引言在很多领域，如股市走向分析, 气象数据测控，网站用户行为分析等，由于数据产生快，实时性强，数据量大，所以很难统一采集并入库存储后再做处理，这便导致传统的数据处理架构不能满足需要。流计算的出现，就是为了更好地解决这类数据在处理过程中遇

2018-01-21 11:50:37 1297

转载 spark+kafka 小案例

转载自https://www.cnblogs.com/zhangXingSheng/p/6646879.html（1）下载kafka的jar包http://kafka.apache.org/downloadsspark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0（2）Consumer代码

2018-01-21 11:42:59 1380

转载 Kafka概念入门

转载自https://www.cnblogs.com/intsmaze/p/6386616.html序：如何保证kafka全局消息有序？　　比如，有100条有序数据，生产者发送到kafka集群，kafka的分片有4个，可能的情况就是一个分片保存0-25，一个保存25-50......这样消息在kafka中存储是局部有序了。严格说，kafka是无法保证全局消息有序的，没有这个机制，只能局

2018-01-21 11:40:55 158

转载 SPARK 日志输出关键信息

来自https://www.cnblogs.com/liugh/p/6909531.html使用spark-submit提交local任务时，会输出很多Info信息：-------------------------------------------Time: 1495788633000 ms----------------------------------------

2018-01-21 11:37:42 3200

转载 Spark中的checkpoint作用与用法

转自http://blog.csdn.net/qq_20641565/article/details/76223002 Spark中的checkpoint作用与用法checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spar

2018-01-21 11:35:48 949

转载 Spark集群三种部署模式的区别

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一

2018-01-15 23:22:30 12702 3

转载 SCALA中的MAP与FLATMAP区别

摘自知乎总结：1. map会将每一条输入映射为一个新对象。{苹果，梨子}.map(去皮） = {去皮苹果，去皮梨子} 其中： “去皮”函数的类型为：A => B 2.flatMap包含两个操作：会将每一个输入对象输入映射为一个新集合，然后把这些新集合连成一个大集合。 {苹果，梨子}.flatMap(切碎) = {苹果碎片1，苹果碎片2，梨子碎片1，梨子碎片2} 其中： “切碎”函数的类型为

2018-01-14 16:24:05 10649

转载 Spark 入门实战之实例

转载：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/http://blog.csdn.net/gongpulin/article/details/51534754搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易，Scala IDE 官网下载合

2018-01-03 23:15:38 2151

转载 scala通过mkString方法把一个集合转化为一个字符串

转自http://blog.csdn.net/qq_36330643/article/details/76489573Problem 如果你想要把集合元素转化为字符串，可能还会添加分隔符，前缀，后缀。Solution 使用mkString方法来打印一个集合内容，下面给一个简单的例子：scala> val a = Array("apple",

2018-01-01 21:52:36 864

转载 Spark笔记：RDD基本操作（上）

转自https://www.cnblogs.com/sharpxiajun/p/5506822.html本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组，这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用s

2018-01-01 21:46:26 223

转载信息熵、信息增益与信息增益率

来源于http://m.blog.csdn.net/u012351768/article/details/73469813信息熵(Information Entropy)　　信息熵是用来评估样本集合的纯度的一个参数，就是说，给出一个样本集合，这个样本集合中的样本可能属于好多不同的类别，也可能只属于一个类别，那么如果属于好多不同的类别的话，我们就说这个样本是不纯的，如果只属于一个类别

2017-08-13 22:31:00 4596 3

转载决策树之ID3算法

来源于http://blog.csdn.net/acdreamers/article/details/44661149今天，我来讲解的是决策树。对于决策树来说，主要有两种算法：ID3算法和C4.5算法。C4.5算法是对ID3算法的改进。今天主要先讲ID3算法，之后会讲C4.5算法和随机森林等。 Contents 1. 决策树的基本认识

2017-08-13 22:28:20 324