自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark报错:java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理

上周修改了一个程序,上线后每过一段时间就会报错,并且直接卡住,不会自动结束。报错信息如下:19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)java.nio.channels.ClosedChannelException.....

2019-10-29 16:25:18 1278

原创 记一次Spark读取多个kudu表的优化经历

程序原逻辑是从一张kudu表读数据进行后续统计,需求是修改为从另外两张不同的kudu表读数据,合并两张表的数据进行后续统计。于是修改的逻辑简化后是如下两个步骤:1、从两张kudu表读数据,并且分别注册成临时表import org.apache.kudu.spark.kudu._val kudu_table1 = spark.read.options( ...

2019-10-24 18:01:12 1725

原创 目标检测:从 RCNN 到 Faster-RCNN

深度学习图像处理主要分为图像分类、目标检测和语义分割,以下介绍一下广泛用于目标检测系统的RCNN系列神经网络算法。RCNNRCNN的检测流程:(Region proposal+CNN)生成候选区域——CNN提取特征——SVM进行分类1)生成候选框:使用Selective Search(选择性搜索算法,有效地去除冗余候选区域,使得计算量大大的减小)提取大约2000个候选区...

2019-10-16 19:33:10 582

原创 CNN - 卷积神经网络卷积计算详解

卷积计算层:CONV Layer人的大脑在识别图片的过程中,会由不同的皮质层处理不同方面的数据,比如:颜色、形状、光暗等,然后将不同皮质层的处理结果进行合并映射操作,得出最终的结果值,第一部分实质上是一个局部的观察结果,第二部分才是一个整体的结果合并。基于人脑的图片识别过程,我们可以认为图像的空间联系也是局部的像素联系比较紧密,而较远的像素相关性比较弱,所以每个神经元没有必要对全...

2019-07-30 15:24:21 2816

原创 CNN - 卷积神经网络输入层

数据输入层:Input Layer1、数据预处理进行预处理的主要原因是:输入数据单位不一样,可能会导致神经网络收敛速度慢,训练时间长 数据范围大的输入在模式分类中的作用可能偏大,而数据范围小的作用就有可能偏小 由于神经网络中存在的激活函数是有值域限制的,因此需要将网络训练的目标数据映射到激活函数的值域 S形激活函数在(0,1)区间以外区域很平缓,区分度太小。例如S形函数f(...

2019-07-30 15:16:06 18019

原创 CNN - 卷积神经网络总体介绍

卷积神经网络本文只是做一个总结性概述,具体各部分请点击相应链接卷积神经网络的层次1、数据输入层:Input Layer 输入层具体内容详见博主博客链接:https://blog.csdn.net/qq_38646027/article/details/977861022、卷积计算层:CONV Layer —— 卷积核计算 卷积核计算具体内容详见博主博...

2019-07-30 15:14:03 298

原创 机器学习算法05之 —— XGBoost

训练:根据OBJ(Gain,根据每个叶子结点损失函数的一阶二阶导数计算)损失函数,使用贪心算法,从很多种结构的树中选出最优的树作为当前迭代层的树,一层一层选出每一层的最优树,相加。主要工作有两个:1.确定每层树的最优结构 2.确定每层树的最优叶子节点的分值。预测:将样本 i 放到树 j 中,找到样本 i 在树 j 中被分到的叶子节点的预测值score(根据每个叶子结点损失函数的一...

2019-04-14 13:19:48 579 1

原创 机器学习笔记04_集成学习:随机森林、GBDT

集成学习:常见的集成学习思想有:• Bagging (并联) 代表:随机森林• Boosting(串联) 代表:Adaboost —— 根据正确率修改样本权重 GBDT—— 根据残差(梯度)修改样本标签值• StackingBagging 并联训练:-------------------------------------...

2019-03-22 19:24:00 410

原创 机器学习笔记02_softmax回归

Softmax回归softmax 回归是 logistic 回归的一般化,适用于K分类的问题,即多分类问题。针对于每个类别都有一个参数向量 θ (即每个类别都一套对应该类别的),第k类的参数为向量,组成的二维矩阵为*n;softmax 只适用于样本单分类。例如,输入一张图片,softmax 可以判断这张图片中属于哪一种类别的动物,不能判断这张图片中属于哪几种类别的动物。soft...

2019-03-18 17:46:32 880

原创 机器学习笔记03_决策树

预测过程:当构建好一个判断模型后,新来一个用户(样本)后,可以根据构建好的模型直接进行判断,过程如上图,比如新用户特性为:无房产、单身、年收入55K,那么根据判断得出该用户无法进行债务偿还。这种决策对于借贷业务有比较好的指导意义。训练过程:先搞清楚几个概念。1. 数学期望:离散型随机变量的一切可能的取值xi与对应的概率P(xi)之积的和称为该离散型随机变量...

2019-03-17 11:03:43 343

原创 Spark系列(一) —— SparkCore详解

1. =》Spark 引入首先看一下MapReudce 计算和 Spark 计算的区别:MapReudce : 分布式计算框架缺点:执行速度慢,shuffle 机制:数据需要输出到磁盘,而且每次 shuffle 都需要进行排序操作框架的机制:只有 map 和 reduce 两个算子,对于比较复杂的任务,需要构建多个job来执行,当存在 job 依赖的时候,job 之间的数据...

2019-03-15 11:23:32 5913

原创 机器学习笔记01_ 线性回归&逻辑回归

什么是回归算法•回归算法是一种有监督算法,即需要给样本的特征打上标签。•回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函数)来做属性/特征(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个函数 使得参数之间的关系拟合性最好。•回归算法中算法(函数)的最终结果是一个连...

2019-03-14 16:14:08 594

原创 泰勒公式(泰勒展开式)通俗+本质详解

比较通俗地讲解一下泰勒公式是什么。泰勒公式,也称泰勒展开式。是用一个函数在某点的信息,描述其附近取值的公式。如果函数足够平滑,在已知函数在某一点的各阶导数值的情况下,泰勒公式可以利用这些导数值来做系数,构建一个多项式近似函数,求得在这一点的邻域中的值所以泰勒公式是做什么用的?简单来讲就是用一个多项式函数去逼近一个给定的函数(即尽量使多项式函数图像拟合给定的函数图像),注意,逼近的...

2019-03-03 12:54:53 458803 39

原创 shell脚本日期遍历(按天&按小时)

使用shell脚本遍历日期1. 按天倒序遍历日期 ( 正序修改一下日期增减函数即可 )#!/bin/bash#倒序按天遍历日期#传入遍历的开始时间和结束时间startdate="$1"enddate="$2"echo 'startdate: '$startdateecho 'enddate: '$enddateecho "-----------------------...

2019-02-27 18:15:36 8409 1

原创 Hive任务运行常见报错及解决方式汇总

有的时候hive任务运行到一半,会报错并强制结束,下面对工作中经常遇到的报错及解决措施进行一个汇总,因为都是平时遇到了临时简单记录一下,所以没有当时的报错截图,但是主要报错内容是有的。以下报错内容均为从yarn任务监控页面(http://主机名:8088/cluster)中查到的运行日志中打印的具体报错,直接查看命令行或者其他运行日志,可能只能看到return code 1 或者ret...

2019-02-22 16:35:49 7863 2

原创 Hadoop伪分布式环境搭建

对于初学者而言,自己搭建一个大数据集群环境是一个必要步骤,也算是开始学习的第一步。即使对于已经工作的小伙伴们,有时不方便使用公司的测试/正式集群环境时,这时候自己搭建的集群也能派上用场 (重点是可以随便玩,玩坏了铲掉重新搭建即可)。现在分享一个自己搭建Hadoop伪分布式环境的步骤(伪分布式表示使用一台机器模拟n台机器组成的集群,简单方便代价小),按以下步骤我已经装了N遍,所以基本上不会...

2019-02-22 15:40:21 534 5

zookeeper-cdh5.3.6

zookeeper-cdh5.3.6 压缩包,直接解压并修改相关配置文件即可使用, zookeeper-cdh5.3.6 压缩包,直接解压并修改相关配置文件即可使用, zookeeper-cdh5.3.6 压缩包,直接解压并修改相关配置文件即可使用

2019-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除