豆沙糕-CSDN博客

原创 spark报错：java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理

上周修改了一个程序，上线后每过一段时间就会报错，并且直接卡住，不会自动结束。报错信息如下：19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)java.nio.channels.ClosedChannelException.....

2019-10-29 16:25:18 1278

原创记一次Spark读取多个kudu表的优化经历

程序原逻辑是从一张kudu表读数据进行后续统计，需求是修改为从另外两张不同的kudu表读数据，合并两张表的数据进行后续统计。于是修改的逻辑简化后是如下两个步骤：1、从两张kudu表读数据，并且分别注册成临时表import org.apache.kudu.spark.kudu._val kudu_table1 = spark.read.options( ...

2019-10-24 18:01:12 1725

原创目标检测：从 RCNN 到 Faster-RCNN

深度学习图像处理主要分为图像分类、目标检测和语义分割，以下介绍一下广泛用于目标检测系统的RCNN系列神经网络算法。RCNNRCNN的检测流程：(Region proposal+CNN)生成候选区域——CNN提取特征——SVM进行分类1）生成候选框：使用Selective Search（选择性搜索算法，有效地去除冗余候选区域，使得计算量大大的减小）提取大约2000个候选区...

2019-10-16 19:33:10 582

原创 CNN - 卷积神经网络卷积计算详解

卷积计算层：CONV Layer人的大脑在识别图片的过程中，会由不同的皮质层处理不同方面的数据，比如：颜色、形状、光暗等，然后将不同皮质层的处理结果进行合并映射操作，得出最终的结果值，第一部分实质上是一个局部的观察结果，第二部分才是一个整体的结果合并。基于人脑的图片识别过程，我们可以认为图像的空间联系也是局部的像素联系比较紧密，而较远的像素相关性比较弱，所以每个神经元没有必要对全...

2019-07-30 15:24:21 2816

原创 CNN - 卷积神经网络输入层

数据输入层：Input Layer1、数据预处理进行预处理的主要原因是：输入数据单位不一样，可能会导致神经网络收敛速度慢，训练时间长数据范围大的输入在模式分类中的作用可能偏大，而数据范围小的作用就有可能偏小由于神经网络中存在的激活函数是有值域限制的，因此需要将网络训练的目标数据映射到激活函数的值域 S形激活函数在(0,1)区间以外区域很平缓，区分度太小。例如S形函数f(...

2019-07-30 15:16:06 18019

原创 CNN - 卷积神经网络总体介绍

卷积神经网络本文只是做一个总结性概述，具体各部分请点击相应链接卷积神经网络的层次1、数据输入层：Input Layer 输入层具体内容详见博主博客链接：https://blog.csdn.net/qq_38646027/article/details/977861022、卷积计算层：CONV Layer —— 卷积核计算卷积核计算具体内容详见博主博...

2019-07-30 15:14:03 298

原创机器学习算法05之 —— XGBoost

训练：根据OBJ(Gain,根据每个叶子结点损失函数的一阶二阶导数计算)损失函数，使用贪心算法，从很多种结构的树中选出最优的树作为当前迭代层的树，一层一层选出每一层的最优树，相加。主要工作有两个：1.确定每层树的最优结构 2.确定每层树的最优叶子节点的分值。预测：将样本 i 放到树 j 中，找到样本 i 在树 j 中被分到的叶子节点的预测值score(根据每个叶子结点损失函数的一...

2019-04-14 13:19:48 579 1

原创机器学习笔记04_集成学习：随机森林、GBDT

集成学习：常见的集成学习思想有：• Bagging (并联) 代表：随机森林• Boosting（串联）代表：Adaboost —— 根据正确率修改样本权重 GBDT—— 根据残差(梯度)修改样本标签值• StackingBagging 并联训练：-------------------------------------...

2019-03-22 19:24:00 410

原创机器学习笔记02_softmax回归

Softmax回归softmax 回归是 logistic 回归的一般化，适用于K分类的问题，即多分类问题。针对于每个类别都有一个参数向量 θ (即每个类别都一套对应该类别的)，第k类的参数为向量，组成的二维矩阵为*n；softmax 只适用于样本单分类。例如，输入一张图片，softmax 可以判断这张图片中属于哪一种类别的动物，不能判断这张图片中属于哪几种类别的动物。soft...

2019-03-18 17:46:32 880

原创机器学习笔记03_决策树

预测过程：当构建好一个判断模型后，新来一个用户(样本)后，可以根据构建好的模型直接进行判断，过程如上图，比如新用户特性为：无房产、单身、年收入55K，那么根据判断得出该用户无法进行债务偿还。这种决策对于借贷业务有比较好的指导意义。训练过程：先搞清楚几个概念。1. 数学期望：离散型随机变量的一切可能的取值xi与对应的概率P(xi)之积的和称为该离散型随机变量...

2019-03-17 11:03:43 343

原创 Spark系列(一) —— SparkCore详解

1. =》Spark 引入首先看一下MapReudce 计算和 Spark 计算的区别：MapReudce : 分布式计算框架缺点：执行速度慢，shuffle 机制：数据需要输出到磁盘，而且每次 shuffle 都需要进行排序操作框架的机制：只有 map 和 reduce 两个算子，对于比较复杂的任务，需要构建多个job来执行，当存在 job 依赖的时候，job 之间的数据...

2019-03-15 11:23:32 5913

原创机器学习笔记01_ 线性回归&逻辑回归

什么是回归算法•回归算法是一种有监督算法，即需要给样本的特征打上标签。•回归算法是一种比较常用的机器学习算法，用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系；从机器学习的角度来讲，用于构建一个算法模型(函数)来做属性/特征(X)与标签(Y)之间的映射关系，在算法的学习过程中，试图寻找一个函数使得参数之间的关系拟合性最好。•回归算法中算法(函数)的最终结果是一个连...

2019-03-14 16:14:08 594

原创泰勒公式（泰勒展开式）通俗+本质详解

比较通俗地讲解一下泰勒公式是什么。泰勒公式，也称泰勒展开式。是用一个函数在某点的信息，描述其附近取值的公式。如果函数足够平滑，在已知函数在某一点的各阶导数值的情况下，泰勒公式可以利用这些导数值来做系数，构建一个多项式近似函数，求得在这一点的邻域中的值所以泰勒公式是做什么用的？简单来讲就是用一个多项式函数去逼近一个给定的函数(即尽量使多项式函数图像拟合给定的函数图像)，注意，逼近的...

2019-03-03 12:54:53 458803 39

原创 shell脚本日期遍历（按天&按小时）

使用shell脚本遍历日期1. 按天倒序遍历日期 ( 正序修改一下日期增减函数即可 )#!/bin/bash#倒序按天遍历日期#传入遍历的开始时间和结束时间startdate="$1"enddate="$2"echo 'startdate: '$startdateecho 'enddate: '$enddateecho "-----------------------...

2019-02-27 18:15:36 8409 1

原创 Hive任务运行常见报错及解决方式汇总

有的时候hive任务运行到一半，会报错并强制结束，下面对工作中经常遇到的报错及解决措施进行一个汇总，因为都是平时遇到了临时简单记录一下，所以没有当时的报错截图，但是主要报错内容是有的。以下报错内容均为从yarn任务监控页面(http://主机名:8088/cluster)中查到的运行日志中打印的具体报错，直接查看命令行或者其他运行日志，可能只能看到return code 1 或者ret...

2019-02-22 16:35:49 7863 2

原创 Hadoop伪分布式环境搭建

对于初学者而言，自己搭建一个大数据集群环境是一个必要步骤，也算是开始学习的第一步。即使对于已经工作的小伙伴们，有时不方便使用公司的测试/正式集群环境时，这时候自己搭建的集群也能派上用场 (重点是可以随便玩，玩坏了铲掉重新搭建即可)。现在分享一个自己搭建Hadoop伪分布式环境的步骤（伪分布式表示使用一台机器模拟n台机器组成的集群，简单方便代价小），按以下步骤我已经装了N遍，所以基本上不会...

2019-02-22 15:40:21 534 5

吴明磊的博客