自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (21)
  • 收藏
  • 关注

原创 L1和L2正则化说明

2019-07-22 23:39:18 133

原创 过拟合与欠拟合

概念之前,我们介绍过拟合的概念。拟合指的是构建的模型能够符合样本数据的特征。与拟合相关的两个概念是欠拟合与过拟合。欠拟合:模型过于简单,未能充分捕获样本数据的特征。表现为模型在训练集上的效果不好。 过拟合:模型过于复杂,过分捕获样本数据的特征,从而将样本数据中一些特殊特征当成了共性特征。表现为模型在训练集上的效果非常好,但是在未知数据上的表现效果不好。 解决方案如果产生欠拟合,可...

2019-07-18 10:12:46 742

原创 Spark ML关于模型保存,模型加载案例

package com.xy.data.modelimport org.apache.spark.SparkConfimport org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark....

2019-04-28 17:07:00 8795 3

原创 真正的完全图解Seq2Seq Attention模型

五分钟看懂seq2seq attention模型。本文通过图片,详细地画出了seq2seq+attention模型的全部流程,帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的...

2019-04-28 11:45:54 312

原创 图像风格迁移

所谓图像风格迁移,是指利用算法学习著名画作的风格,然后再把这种风格应用到另外一张图片上的技术。著名的国像处理应用Prisma是利用风格迁移技术,将普通用户的照片自动变换为具有艺术家的风格的图片。这篇文章会介绍这项技术背后的原理,此外,还会使用TensorFlow 实现一个快速风格迁移的应用。1 图像风格迁移的原理1.1 原始图像风格迁移的原理在学习原始的图像风格迁移之前,可以先回忆一下...

2019-04-28 11:43:45 1844 1

原创 numpy03-数学运算的函数

import numpy as npa=np.arange(9).reshape((3,3))print(a)#整体求和print(a.sum())#行相加print(a.sum(1))#列相加print(a.sum(0))#第一行相加print(a[0].sum())#求逆矩阵n1=np.random.randint(0,9,(2,2))print(np.l...

2018-06-26 12:45:53 150

原创 numpy02-索引和切片

import numpy as npa=np.random.randint(0,10,(6,4))print(a)#取第三行第二列print(a[2][1])#第一行到第三行print(a[:3])#取第三行的第二列print(a[2,1])#取第三行,第二行print(a[[2,1]])#取第四行,第一列到第三列print(a[3,:3])#取后两行,前三...

2018-06-26 12:44:09 132

原创 hadoop安全模式

2018-05-14 18:40:41 124

原创 SecondaryNamenode

2018-05-14 18:39:40 156

原创 Mapreduce on Yarn运行流程

1.客户端请求提交一个MR任务2.resourcemanger返回提交程序资源的路径3.yarn客户端提交job资源4.通知MR提交完毕5.resourcemanger将请求封装成task6.启动MR的AppMaster7.AppMaster申请资源启动nodemanager...

2018-05-12 20:01:06 660

原创 MapReduce shuffer流程

2018-05-12 19:50:15 583

原创 hdfs文件上传流程流程

2018-05-12 19:23:22 1429

原创 hdfs读文件流程

2018-05-12 19:20:35 111

原创 hdfs联邦机制

联邦机制解决的是namenode单点压力过大(做的namenode负载均衡)通过采用多个namenode管理不同的目录树结构hdfs联邦机制配置 <property>         <name>dfs.nameservices</name>         <value>cluster1,cluster2</value>     &lt...

2018-05-12 19:14:33 1613 1

原创 Hadoop 2.x中fsimage和edits合并实现

secondarynamenode作用:帮助namenode合并日志文件,减少namenode启动时间1.secondarynamenode通知namenode进行checkpoint.2.namenode切换日志文件3.secondarynamenode从namenode下载editslog和fsimage文件在内存中合并,生成新的fsimage文件4.将fsimage文件拷贝至namenode...

2018-05-12 19:07:30 467

原创 spark repartition和coalesce

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区) 1、N小于M 一般情况下N个分区有数据...

2018-05-12 17:13:21 172

原创 CenterOS7安装mysql

yum install -y yum-utils device-mapper-persistent-data lvm2yum install docker-ce设置开机自启systemctl enable docker

2018-05-07 13:49:27 303

原创 HIVE动态分区实战

hive> set hive.exec.dynamic.partition.mode=nonstrict;关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。先看一个应用场景,源表t_lxw12...

2018-05-03 14:44:39 145

原创 CenterOS7下快速安装mysql

centos7下快速安装mysqlCentOS 7的yum源中貌似没有正常安装mysql时的mysql-sever文件,需要去官网上下载# wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm# rpm -ivh mysql-community-release-el7-5.noarch.rpm# yum ins...

2018-05-02 11:38:35 767

原创 Docker 中国官方镜像加速

通过 Docker 官方镜像加速,中国区用户能够快速访问最流行的 Docker 镜像。该镜像托管于中国大陆,本地用户现在将会享受到更快的下载速度和更强的稳定性,从而能够更敏捷地开发和交付 Docker 化应用。 ...

2018-04-30 15:05:16 846

原创 基于Spark UI性能优化与调试

Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能调整和优化。大体上会按照下面的思路进行讲解:怎么访问Spark UISparkUI能看到什么东西?job,stage,storage,environment,excuto...

2018-04-26 15:35:12 229

原创 Java8新特性之日期处理

简介伴随 lambda表达式、streams 以及一系列小优化,Java 8 推出了全新的日期时间API。Java处理日期、日历和时间的不足之处:将 java.util.Date 设定为可变类型,以及 SimpleDateFormat 的非线程安全使其应用非常受限。然后就在 java8 上面增加新的特性。全新API的众多好处之一就是,明确了日期时间概念,例如:瞬时(instant)、 长短(dur...

2018-04-24 10:46:28 351

原创 生产环境flume日志采集方案

Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。名词介绍:Flume OG:Flume original generation,即Flume0.9x版本Flume NG:Flume next gen...

2018-04-16 10:13:38 9202

原创 spark配置参数详解

Spark配置参数说明 Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置,例如IP地址、端口等信息日志配置:可以通过log4j.properties配置 Spark属性Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它。这些属性可...

2018-04-13 18:01:52 266

原创 spark资源层面调优

num-executors  参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。              Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的  各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,  默认只会给你启动少量的Executor进程,此时你的Spark作业的运行...

2018-04-13 17:57:52 228 1

原创 Spark rdd算子

#如果通过并行化的方式创建rdd,如果不指定分区的数量,那么跟你的核数相关#如果通过读取hdfs里面的数据创建rdd,那么分区的数量跟输入切片的数量是一致的 #查询分区长度rdd4.partitions.length #已并行化的方式创建rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))valrdd1=sc.parallelize(List(...

2018-04-13 17:53:41 188

深度学习实践计算机视觉

深度学习实践计算机视觉高清有书签,供大家下载使用,很不错,自己在网上购买的!

2019-07-22

tensorflow2.0 quick start

tensorflow2.0 quick start原版电子书,有书签,自己在亚马逊上购买的 供大家下载

2019-07-22

中文地址分词

处理中文地址的分词和匹配 采用混合分词算法进行中文地址分词 在中文地址分词基础上采用Double Levenshetin算法进行中文地址相似度进行地址匹配

2018-12-10

YOLO论文翻译

yolo paper逐行翻译,有中英文对照,翻译几乎没有错误,小组共同翻译,龚大家学习,谢谢!包含yolo v1,yolo v2 ,yolo v3

2018-11-19

java csv大数据量导出(千万级别,不会内存溢出)

java csv大数据量导出(千万级别,不会内存溢出),多线程导出 ,生产环境已经很稳定的使用着

2018-11-19

Zabbix部署使用文档

Zabbix教程从入门到精通,从搭建到应用,都有详细文档,公司自己编写,可直接生产环境使用,简单便捷,你值得拥有!

2018-07-19

SeetaFace_detection,已经改好,可以直接运行

SeetaFace_detection,已经改好,可以直接运行,自己基于山世光老师的代码,做了修改 代码可以直接跑起来

2018-07-19

华为内部spark培训文档

华为内部培训资料,spark培训,详细介绍spark原理及其工作机制!

2018-05-11

kubernetes北京站培训

kubernetes北京站培训资料完整版,docker社区举办,蚂蚁金服专家全程面授,个人去培训的,线将资料分享给大家,供爱好kubernetes的好友使用,共同进步!

2018-04-27

ambari汉化

ambari汉化文档,按照此文档汉化,可汉化成功,目前生产已经经测试上线!

2018-04-23

机器学习总结

机器学习总结,个人平时学习总结,常用机器学习算法的应用及原理!

2018-04-14

在CentOS上安装kubernetes详细指南

在CentOS上安装kubernetes详细指南,基于centeros7.2,简单快捷方便,适合爱好kubernetes的人使用!开源是一种美德!

2018-04-14

kubernetes权威指南第二版

kubernetes权威指南第二版高清带目录,供爱好kubernetes的用户下载使用

2018-04-13

hdfs命令大全

hdfs命令大全速查手册,平时工作整理,方便快捷!!!

2018-04-13

maven自动打jar包工具配置

支持idea maven项目自动打jar包工具类,方便快捷!!!

2018-04-13

局域网下离线安装Ambari

生产环境下内网环境下ambari集群的安装文档,目前已用于生产环境,本文档为离线安装方式,可线上环境使用!

2018-04-13

docker生产环境搭建

docker生产环境搭建,简单快捷,方便!.........................

2018-04-13

spark2.x集群搭建

spark2.x最新集群搭建及使用,及参数调优,目前已经用户生产环境稳定运行!

2018-04-13

CDH离线部署文档

CDH离线部署文档,目前已经在生产上正常使用,安装方便,文档详细!可作为生产使用!

2018-04-13

读写分离的Kylin多维分析平台的搭建.docx

读写分离的Kylin多维分析平台的搭建,目前生产已进行实践!

2018-04-13

手动搭建高可用的kubernetes 集群

手动搭建高可用的kubernetes 集群,可用于生产环境,另有额外kubernetes资料相送,生产已经实践过!

2018-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除