fourierLouis-CSDN博客

原创【HBase】问题定位与调优实战（持续更新中。。。）

问题标题：CTBase manager页面无法打开，Hbase不可用问题描述：hbase shell操作时报错HMaster正在初始化ERROR:org.apache.hadoop.hbase.PleaseHoldException:Master is initializing问题定位：查看HMaster日志发现HMaster启动时等待指派namespace表超时,导致主备HMaster一直在不停...

2017-05-04 17:22:45 2546

原创深度学习在排序模型的核心操作

从2016年google的wide&deep和youtube dnn两篇标志性的paper开始，深度学习在推荐系统中的应用已经遍地开花，个人觉得可以简单粗暴地将其归纳为两大阶段，第一阶段是dnn在推荐系统中的可行性验证并规模化应用，如wide&deep/deepfm/deepcross等的大规模落地；第二阶段是各大公司在dnn的基础上，结合自家的业务特点，做模型二次创新，如阿里结合综合电商场景门类大而全的特点，研发了DIN系列模型。我们来聊聊第一阶段，dnn在推荐系统落地的核心操作之一。

2020-08-23 14:52:55 580

原创关于wide&deep的再思考

如果一个item在全局上被点击(或其他正反馈行为)次数过少，在排序侧把item id粒度特征直接喂入dnn做embedding，由于样本量过少，此类稀疏id特征对应的模型参数很难收敛。干脆把item id这个field的embedding size调小呢？看似解决了稀疏特征参数收敛的问题，但却引来了新的问题：对于有充足正反馈的那部分id来说，需要用较大容量的隐向量表达语义，现在embedding size被调小了，显然限制了这部分id特征的表达。如果此时把id特征只放到wide&deep的l

2020-08-22 19:31:46 213

原创 spark scala udf使用方法

1.初始化datasetval dataset = Seq((1,"java"),(2,"python")).toDF("id","text")2.定义udf函数val upper: String=>String=_.toUpperCase3.注册udf函数import org.apache.spark.sql.functions.udfval upperUDF = ...

2019-01-30 14:40:28 4297

原创树模型几个知识点

ID3无法处理连续特征C4.5可以处理连续特征，用信息增益率选择分裂特征，遇到连续特征的时候，依次二分样本，根据信息增益获得最佳分割点ID3和C4.5都只能处理分类问题，CART既能处理分类问题，又能处理回归问题CART分割点的选择粒度更细，根据GINI系数，选择某个特征的某个值作为分割点（分为等于该值和不等于该值的二叉树）分类树的叶子节点类别是由数量最多的种类决定的；回归树的叶子...

2018-12-04 16:54:04 760

原创 Dataset读取tfrecord

def tfrecord_pipeline(cls, tfrecord_file, batch_size, prebatch, epochs, shuffle=True): ''获取tfrecord配置文件'' # tfrecord file should be a text file with abs...

2018-08-08 18:40:25 814

原创基于FaceNet的人脸识别

1.导入包from keras.models import Sequential from keras.layers import Conv2D, ZeroPadding2D, Activation, Input, concatenatefrom keras.models import Modelfrom keras.layers.normalization import BatchNormali...

2018-05-02 09:08:23 2026 2

原创深度学习的一些优化方法

过拟合数据：用更多数据训练、对于图像实施数据扩充正则化方法：L2正则化在cost function增加(lamdb/(2*m))sum(w[l]),整理偏导数得到w=(1-lamdb/m)w+learning_rate*back_prop,相当于对w乘以（1-lamdb/m）,缩小了w的范围，结合tanh的曲线，在w较小的范围里更接近线性缺点：通过调节超参数lamdb需要较高的计算成本Dropou...

2018-04-24 19:58:42 766

原创 train yolo on voc遇到的问题

1.按照官方步骤操作，https://pjreddie.com/darknet/yolo/2.提交命令训练YOLOV3 on voc./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74（其他省略的步骤都是按照官方指导做的，而且做了两遍都不行）刚开始只是少量打印nan训练一会儿之后，大量打印nan执行以下...

2018-04-18 15:18:02 1189 5

转载 L2正则化的TensorFlow实现

TensorFlow实现L2正则化转自：https://zhuanlan.zhihu.com/p/29297934TensorFlow的最优化方法tf.train.GradientDescentOptimizer包办了梯度下降、反向传播，所以基于TensorFlow实现L2正则化，并不能按照上节的算法直接干预权重的更新，而要使用TensorFlow方式：tf.add_to_collec...

2018-03-22 20:06:52 1836

原创【深度学习_4.4】人脸识别算法模型搭建-Face Verification和Face Recognition

人脸识别分为两大类：Face Verification指的是，这张脸是不是xxx？Face Recognition指的是，这张脸是谁？FaceNet是一种神经网络，把一张人脸照片编码成为128组向量，通过比较两张照片的128组向量来确定是不是同一个人。本实例中使用训练好的ConvNet激活函数，应用的是channel first的形式（m, nc, nw, nh）将人脸

2018-03-08 23:07:30 2881

原创 YOLO算法总结

步骤：1.输入照片（608,608,3）2.经过CNN处理，输出（19,19,5,85）3.展开以上矩阵后为（19,,19,425）每个19*19的网格里有425个数字425=5*85，每个网格里有5个achor box，achor box中有85个数字85=5+80，（pc,bx,by,bw,bh,c）,c有80个种类，pc代表这个box里面是否detect到object

2018-03-07 16:21:28 1407

原创【深度学习_4.3】构建YOLO物体识别算法

训练集里面的训练图片被标记如下如果YOLO算法需要识别80种物体，那么c可以是1-80之间的任意整数，也可以是80维的向量，识别出的物体为1，其他均为零。YOLO算法模型输入（m,608,608,3）输出是识别出来的物体被边框（pc,bx,by,bw,bh,c）,加入c是一个80维的向量，则每个边框有80个代表值示例中将使用5个achors box，因此模型为IMAGE

2018-03-07 16:03:25 1942 1

原创【深度学习_4.2】Keras构建残差神经网络

残差神经网络可帮助避免多层神经网络的梯度消失（主要解决的问题）、梯度爆炸等现象普通残差块First component of main path:The first CONV2D has F1F1 filters of shape (1,1) and a stride of (1,1). Its padding is "valid" and its name s

2018-03-05 20:08:38 3615

原创【深度学习_4.1_2】在TensorFlow中应用卷积神经网络

1.创建placeholder（暂不定义训练集数量）def create_placeholders(n_H0, n_W0, n_C0, n_y): “” Arguments: n_H0 -- scalar, height of an input image n_W0 -- scalar, width of an input image n_C0

2018-03-03 20:56:57 355

原创【深度学习_4.1_1】构建卷积神经网络

构建卷积神经网络整体步骤一、卷积1.Zero padding2.Convole window3.Convolution forward4.Convolution backward(Optional)二、池化1.Polling forward2.create mask3.distribute values4.Pooling backward(Optional)

2018-03-03 20:43:14 423

原创【深度学习_2.3_2】TensorFlow搭建神经网络模型

模型：通过1-5的手势图片训练 LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SOFTMAX处理输入数据集X_train_flatten = X_train_orig.reshape(X_train_orig.shape[0], -1).TX_test_flatten = X_test_orig.reshape(X_test_ori

2018-02-28 11:01:47 754 1

原创【深度学习_2.3_1】神经网络之TensorFlow初步应用

导入相关类库import mathimport numpy as npimport h5pyimport matplotlib.pyplot as pltimport tensorflow as tffrom tensorflow.python.framework import opsfrom tf_utils import load_dataset, random_m

2018-02-28 10:01:41 282

原创【深度学习_2.2】神经网络之算法优化

通过梯度下降可以更新参数并最小化cost函数，通过算法优化可以加速学习并可能会得到更优的cost函数值一、梯度下降L是神经网络的层数，α代表学习率，所有参数都存在parameters字典里 Arguments: parameters -- python dictionary containing your parameters to be updated: ...

2018-02-26 20:23:08 595

原创【深度学习_2.1.3】神经网络之梯度检验

梯度检验用于检验后向传播正常工作一维数组模型梯度检验前向传播，计算损失函数：J = theta * x后向传播：dtheta = x梯度检验：首先计算gradapprox： thetaplus = theta + epsilon thetaminus = theta - e

2018-02-25 18:31:10 1087 1

原创【深度学习_2.1.2】神经网络正则化

偏差大（欠拟合）：训练集和测试集的准确率都很低；通常可以增加单层神经元数量、增加层数来优化方差大（过拟合）：训练集的正确率高，测试集（或dev）的正确率比训练集低一些；通常可以增大正则化lambda的值、增加训练集数据量解决可以通过在训练模型过程中正则化来解决过拟合问题l2正则化，在原来的cost function基础上添加l2 regularization cost

2018-02-25 17:43:22 444

原创【深度学习_2.1.1】神经网络参数初始化

三种参数初始化方法：zero initialization:将输入参数初始化为0random initialization：随机初始化输入参数，权重w初始化的值较大He initialization：在一定范围内随即初始化权重w值zero initialization实现代码： for l in range(1, L): parameters

2018-02-25 16:23:31 972

原创【深度学习_1.4】搭建多层神经网络模型

目的：搭建隐藏层多于2层的神经网络【准备】1.导入相关包import xxxx【搭建神经网络】1.初始化参数搭建二层神经网络模型架构：LINEAR -> RELU -> LINEAR -> SIGMOIDdef initialize_parameters(n_x, n_h, n_y)： W1 = np.random.randn(n_h, n_x)*0.01 b1 = ...

2018-02-23 10:35:42 1001

原创【深度学习_1.3】搭建浅层神经网络模型

目的：搭建一层隐藏层的浅层神经网络【准备】1.导入相关包import xxxx2.加载数据集X, Y = load_planar_dataset()3.查看数据plt.scatter(X[0, :], X[1, :], c=Y, s=40, cmap=plt.cm.Spectral);[image]4.查看数据集dimshape_X = X.shapeshape_Y = Y.shapem = X....

2018-02-22 16:37:59 776

原创【深度学习_1.2】搭建逻辑回归模型

搭建算法架构需要引入以下包1.numpy 科学计算库2.h5py 遍历存在于H5文件里的数据集3.matplotlib python画图工具库4.PIL和scipy 用自己的图片测试模型数据data.h5中包括1.训练集，标明了y=1（cat）和y=0（non cat）2.测试集，标记了cat或者non-cat3.每张图片shape为（num_px,num_px,3）加载数据# Loading t...

2018-02-21 19:54:13 760

原创 SparkStreaming+Kafka样例代码

场景：SparkStreaming实时消费Kafka的消息队列，并将处理后的消息打印到控制台假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下功能：实时统计连续网购时间超过半个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。log1.txt：周六网民停

2018-02-09 14:43:03 704

原创 Spark on HBase样例代码

实现功能：Spark程序调用HBase接口，建表、插入数据、删表//建表//建立连接HBase的配置参数，hbase-site.xml需要在classpath中val conf: SparkConf = new SparkConfval sc: SparkContext = new SparkContext(conf)val hb

2018-02-08 09:47:43 830

原创 Spark-MLLib初步

一、机器学习基础监督学习，有训练样本（人工参与，预先标注分类），分类算法可以做离散变量的预测（决策树、knn、svm、贝叶斯、感知器），回归算法对连续变量的预测（线性回归、非线性回归）；无监督学习，没有训练样本，比如聚类算法、神经网络等；二、MlLib构成1.算法组成：a.spark-mllib：包含原始API，构建在RDD之上b.spark-ml：基于dataFrame构

2018-01-29 22:00:07 323

原创 intellij导入spark maven project并打包运行

一、将maven project导入intellij1.file->open->选择项目所在的目录->OK2.等待生成项目后，引入依赖jar包：file->Project Structures->Libraries-> + ->Java ->选择依赖jar包 - OK二、生成jar包并运行1.file->Project Structures-> Artfacts -> Jar ->

2018-01-24 17:15:32 698

原创 intellij搭建Scala开发环境

一、下载并安装社区版的intellij idea二、在intellij导航页面上选择configure->plugins，搜索scala插件，如果搜索不到，则下载到本地磁盘上之后安装；；选择configure->project defaults->project structure->project SDK ->new ->jdk路径，sdk目录默认自动生成三、创建工程：回到导航页面，点击

2018-01-22 22:33:19 316

原创 spark core/spark sql scala样例代码

日志数据：第一个字段为姓名，第二个字段为性别，第三个字段为上网时间ZhangSan,male,20Lisi,female,80WangWu,female,60WangMing,female,70ZhangHua,male,50LiHong,female,60YinHui,male,50LiMing,female,90ZhuLucy,female,60

2018-01-18 15:24:47 2490

原创 Spark初步---spark-shell下RDD的wordcount实践

命令行提交spark任务./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000./bin/spark-shell 进入spark shell页面RDD：数据集合，集群里数据集合的映射在spark-she

2018-01-15 23:26:40 821

原创 log4j用例

依赖的jar包log4j-1.2.17.jarslf4j-api-1.7.5.jarslf4j-log4j12-1.7.5.jar配置文件log4j.properties代码样例import java.io.File;import org.apache.log4j.Logger;import org.apache.log4j.PropertyConfigurat

2018-01-15 19:59:52 199

原创 HBase构建二级索引失败

HBase表大小：1.2Tregion数量：1196列族数量：1用户表字段数量：24脚本：hbase xxxxxxx.xxxxx.xxxx 聚簇表用户表二级索引字段名跳过空行配置 hdfs输出目录MapReduce job，每个region起了一个map job，共1196个；一共起了2个reduce job。MapReduce job全局成功。明细：成功11

2018-01-12 16:30:04 378 1

原创 MapReduce数据流

整个MapReduce总体可以分为以下五个阶段：一、input该阶段指定输入要处理的文件，mapreduce框架提供TextInputFormate、SequenceInputFormate、HBaseInputFormate，默认使用TextInputFormate，开发者也可以实现自己的inputformate，但仅限于java。读取数据后，将原始文件split成不同的切片，对于HDF

2018-01-10 16:36:22 1227

原创 MapReduce详解

一、map task阶段，每个task有以下三个部分组成1.InputFormat阶段：对输入切分，并转化为key value对，传给mapper。包括text input format、sequence input format、hbase input format是hbase提供的三类input format，开发者也可以自己实现2.mapper阶段：继承map类，用户定义的业务逻辑，

2018-01-08 21:26:05 184

原创 [HBase API]------ClusterStatus/ServerLoad用法

TestHBaseAPI类package com.huawei.bigdata.hbase.examples;import java.io.IOException;import java.util.ArrayList;import java.util.Collection;import java.util.List;import org.apache.commons.log

2018-01-03 17:02:04 868

原创 JAVA反射机制

反射机制：在运行期间动态加载类、动态new对象、动态了解对象内部结构、动态调用类的某些方法；带来的好处：只在配置文件里写类的名字就可以动态加载类import java.lang.reflect.Method;public class TestReflect {public staticvoid main(String[] args) throws Cla

2017-12-30 15:08:09 144

原创 JAVA反射机制----classloader初步

classloader初步及动态加载机制java程序运行过程：class文件被classloader load到内存中code segment，load进去的每个class相当于class类的对象。找到main函数开始执行后会有许多其他的class被加载到内存中（动态加载机制）。classload动态加载机制：用到class后再加载类里面的静态语句块，加载class的时候执行一次，

2017-12-30 14:08:43 243

原创处理http请求返回的json串

处理http返回的json串：HttpManager httpManager = new HttpManager();httpManager.sendHttpGetRequest(httpclient, operationUrl,operationName);HttpGet httpGet = new HttpGet(operationUrl);httpGet.addH

2017-12-29 17:31:32 1631

空空如也

空空如也