自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 5个单例模式详解

单例模式十分简单但是应用非常广泛。所以学好单例模式是必要的

2017-12-24 23:28:58 169

原创 masterHA切换机制(手绘)

2017-12-24 21:50:24 296

原创 sparkContext的构建的过程(手绘)

2017-12-24 21:49:49 303

原创 spark-on-yarn模式讲解(手绘)

2017-12-24 21:49:04 371

原创 spark stage阶段划分算法(手绘)

2017-12-24 21:48:18 906

原创 Spark 的transformation和action操作

1.前言: RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 Action(执行):触发Spark作业...

2017-12-21 18:01:20 5372

原创 Spark运行原理架构图(手绘)

2017-12-21 17:51:32 1432 1

原创 Spark-wc(word count)运行架构原理图(纯手绘)

2017-12-21 17:48:44 479

原创 Spark RDD简介及RDD在Spark中的地位

1.Spark的核心概念是RDD (resilient distributed dataset),指的是一个 只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同Worker节点上,从而让RDD中的数据可以被并行操作。(分布式数据集) 3.RDD...

2017-12-21 17:43:36 352

原创 安装Spark(完全分布式部署--Standalone)

1.将Spark解压并上传至/opt目录下 tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz -C /opt/ 2.修改环境变量 vi /etc/profile export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin source ...

2017-12-20 17:45:30 405

原创 用hive客户端更改hive表元数据后,spark上查询表,变更未同步

2. 在hive客户端修改表元数据后执行修改hive表属性:spark.sql.sources.schema.part.0的操作。1. 尽量在spark客户端修改表元数据。

2023-11-02 18:30:35 90

原创 awk

awk awk是一个强大的文本分析工具。 相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。 简单来说awk就是把文件逐行的读入,(空格,制表符)为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk -F '{pattern + action}' {filenames} 支持自定义分隔符 支持正则表达式匹配 支持自定义变量,数组 a[1] a[to...

2019-09-03 01:19:04 104

原创 sed的使用心得

扩大查找范围,缩小匹配,替换该替换的,留下想留下的

2019-09-03 01:15:41 142

原创 linux 文本处理命令

cut:显示切割的行数据f:选择显示的列s:不显示没有分隔符的行d:自定义分隔符sort:排序文件的行n:按数值排序r:倒序t:自定义分隔符k:选择排序列u:合并相同行f:忽略大小写sed:行编辑器sed [options] 'AddressCommand' file ... -n: 静默模式,不再默认显示模式空间中的内容 ...

2019-09-03 01:05:11 111

原创 linux 的正则表达式

匹配操作符 \ 转义字符 . 匹配任意单个字符 [1249a],[^12],[a-k] 字符序列单字符占位 ^ 行首$ 行尾| 连接操作符(,) ...

2019-09-03 00:09:00 99

转载 数据预处理四(数据规约)

阅读目录前言 主成分分析法 - PCA PCA基本步骤 探索性因子分析法 - EFA EFA基本步骤 小结回到顶部前言 这部分也许是数据预处理最为关键的一个阶段。 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析。 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给出具体的实现步骤。...

2019-07-30 15:22:39 766

转载 数据预处理三(数据标准化)

阅读目录前言 规范化 离散化 小结回到顶部前言 在进行缺失,异常处理之后,往往要对数据进行变换。 变换有多种情况,主要是以下两种: - 规范化:对数据进行一定比例的缩放,让它实质落入某个具体区间。 - 离散化:将连续型数据转化为离散化。回到顶部规范化 数据规范化非常容易实现,调用scale函数...

2019-07-30 15:21:22 521

转载 数据预处理二(异常值处理)

阅读目录前言 异常值处理 小结回到顶部前言 数据中如果有某个值偏离该列其他值比较离谱,那么就有可能是一个异常的值。在数据预处理中,自然需要把这个异常值检测出来,然后剔除掉,或者光滑掉,或者其他各种方法进行处理。 需要注意的是,本文仅介绍最为基础的单维度异常检测及处理方法,而在实际应用中更多用到的是多维度异常检测,这部分得到时结合具体项目学习。回到顶...

2019-07-30 15:18:19 1172

转载 数据预处理一(缺失值处理)

阅读目录前言 缺失值处理 小结回到顶部前言 在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。 下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice)回到顶部缺失值处理 ...

2019-07-30 15:16:54 1610

原创 shell脚本知识大全

#!/usr/bin/env bash# 定义变量your_name="linzhaopo"# 引用变量echo ${your_name}# 只读变量readonly your_namemyCompany="kailashtech"# unset 可以删除变量,语法,不能删除只读变量unset ${myCompany}# 运行shell是存在3种变量:# 1) 局部变量...

2019-07-08 17:36:57 338

原创 springboot简单说明

什么是Spring Boot?Spring Boot是在Spring的基础之上产生的(确切的说是在Spring4.0的版本的基础之上),其中“Boot”的意思就是“引导”,意在简化开发模式,是开发者能够快速的开发出基于Spring的应用。Spring Boot含有一个内嵌的web容器。我们开发的web应用不需要作为war包部署到web容器中,而是作为一个jar包,在启动时根据web服务器的配置进...

2019-05-20 09:26:40 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除