自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

腾飞的大象

当你迷茫的时候,选择最艰辛的那条路

  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark 1.6.0 源码编译及遇到的问题

文章目录1.环境准备1.1 安装[jdk](https://www.oracle.com/java/technologies/javase-downloads.html)1.2 安装[scala](https://www.scala-lang.org/download/)1.3 安装git,[git下载地址](https://git-scm.com/downloads),安装后可以使用git bash 编译spark 源代码1.4 下载spark 源码,可以去[github地址](https://githu

2020-05-20 11:25:06 856 1

原创 spark 2.4.x 使用json4s java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/

完整错误信息如下:20/05/11 21:07:50 ERROR [Driver] ApplicationMaster: User class threw exception: java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue;java.lang.NoSuchMethodError: org.json4s.jackson

2020-05-11 21:32:58 2212

原创 Flink 1.7.2 standalone HA模式安装和部署

文章目录Flink standalone 模式安装和部署1.环境说明1.1 机器配置和角色说明1.2 免密钥配置2.zookeeper安装和部署2.1 下载zookeeper2.2 解压2.3 修改配置文件2.4 配置myid2.5 同步文件2.6 启动zookeeper3.Flink 安装和部署3.1 下载3.2 解压3.3 修改配置文件3.3.1 修改flink-conf.yaml3.3.2 ...

2020-02-07 11:34:10 486

原创 Linux free 命令大揭秘

文章目录1.Mem 解析buffers 与cached的区别?2.-/+ buffers/cache 解析3.Swap 解析free是一个可以为我们提供linux机器可用RAM(内存)很有价值的一个常用命令,很多linux新手或者运维人员会误解它,让我们一起来揭开它的神秘面纱吧!free的输出结果如下,默认表示这些数字都是以KB为单位的,如果想输出可读的可以加上-h 、-m等参数[dev@...

2019-05-25 11:59:51 333

原创 SparkSQL 中group by、grouping sets、rollup和cube方法详解

      在平时的工作中,经常有按照不同维度筛选和统计数据的需求。拿视频会员订单数据来说吧,运营人员要查看深圳市的成功下单数或则深圳市某一种产品的成功下单数或者某一种产品的所有成功下单数时,每天的订单数又很大,现查的话按照不同的维度去查询又很慢。此时本篇文章或许会帮助到你。group by:主要用来对查询的结果进行分组,相同组合的分组条件在结果集中只显示一行记录...

2018-12-04 19:41:34 11395

原创 SparkSQL DataFrame与MySQL增删改查那些事儿

在使用星火中通过各种算子计算完后各种指标后,一般都需要将计算好的结果数据存放到关系型数据库,比如MySQL和PostgreSQL等,随后配置到展示平台进行展现,花花绿绿的图表就生成了。下面我讲解一下,在Spark中如何通过c3p0连接池的方式对MySQL进行增加改查(CRUD),增加(创建),读取查询(Retrieve),更新(更新)和删除(删除)1.Create(增加) case clas...

2018-11-27 19:34:21 4321

原创 Spark ML 特征工程之 One-Hot Encoding

1.什么是One-Hot Encoding2.One-Hot Encoding在Spark中的应用2.1 数据集预览2.2 加载数据集2.3 使用OneHotEncoder处理数据集2.4 使用VectorAssembler合并所有特征为单个向量2.5 以Pipeline的形式运行各个PipelineStage2.6 训练和评估模型1.什么是One-Ho...

2018-08-10 17:09:48 8411 6

原创 Linux 常用命令之Top

Top命令是日常Linux管理中最常用的命令之一。它显示Linux系统的处理器活动,还显示内核实时管理任务。 它将显示正在使用的处理器和内存以及运行进程等其他信息。 [TOC]1.显示Top命令直接在Linux命令行键入top即可,就看一看到任务、内存、CPU和swap(Linux 交换内存,在Linux自身物理内存已经耗尽的情况下才会使用!),键入”q”即可退出。# to...

2018-07-20 18:30:03 2591

原创 Hive中数据导入或导出

Hive中数据导入或导出Hive中数据导入或导出1.将数据导入hive1.1 从本地导入1.2 从hdfs上导入数据1.3 load data 时使用 overwrite 方式1.4 子查询方式1.5 insert into,和上面类似1.6 location1.6.1 创建外部表时,直接指定location:1.6.2 先创建表,然后修改location:...

2018-06-25 13:04:59 420

原创 Linux 命令行小技巧

Linux 命令行小技巧Ctrl + U :删除从光标到行首的文字 Ctrl + W:删除一个单词 Ctrl + A : 回到行首 Ctrl + E : 光标移动到行尾

2018-06-25 12:56:44 363

原创 Linux中同步数据之scp VS rsync

scp和rsync简介项目开发中经常有服务器之间同步数据的需求,在Linux中提供了两个命令,scp和rsync,这两个命令不仅仅是可以使用在机器之间同步数据,在一个机器内部也是可以进行数据的同步。但是对于scp来说,除了在机器之间或同一个机器不同目录之间进行数据同步之外,还可以与多台机器之间进行数据同步。比如你在A机器,可以对B、C两台机器上的数据进行同步,但是rsync就不可以;也就是说当...

2018-03-17 18:26:03 910 1

原创 Elasticsearch全家桶兼容性问题

1.Elasticsearch 5.x、6.x 版本与其他软件的兼容性2.Elasticsearch 2.x 版本与其他软件的兼容性官网原文地址请查看:https://www.elastic.co/support/matrix#matrix_compatibility...

2019-03-21 16:38:49 2207 2

互联网大规模数据挖掘与分布式处理 第2版 ,(美)莱斯科夫

互联网大规模数据挖掘与分布式处理 第2版 ,(美)莱斯科夫

2018-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除