自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zilianxiaozhu的博客

上天赐予你一条属于自己的路,没有选择,只能朝前走

  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux查找java class类所在jar包

解决jar包冲突

2022-10-10 17:37:39 1900 2

转载 通过数据库客户端界面工具DBeaver连接Hive

客户端界面工具DBeaver连接Hive

2022-09-18 17:23:35 723

原创 Kafka基础知识

深入浅出Kafka

2021-12-01 14:01:26 2256

原创 一键让所有服务器执行相同命令

平时服务器多的时候难免会让多台服务器执行相同命令,当然了,可以用一些shell工具,可是如果有一百台服务器就会开一百个窗口,这.....,下面是用脚本实现这个功能(ssh免密是通的),也可以用别的工具实现,迫于着急用,以后再研究。直接打开文本编辑器输入以下内容:#!/bin/sh doCommand(){ hosts=`sed -n '/^[^#]/p' hostli...

2020-04-15 17:10:16 825

原创 Flink 入门以及了解

**Flink 入门以及了解官网: https://flink.apache.org/flink-applications.html**介绍Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务。基本组件Streams(流是...

2019-09-16 23:43:49 149

原创 浅谈 Hbase 以及 Rowkey设计

1. Hbase 基础--------------------------------------------------定义:分布式、多版本、面向列的开源数据库,支持上亿行,百万列,可扩展的,对大数据的随机,实时读/写的数据库。核心概念: Table ==> 同传统数据库中的表是类似的,不同之处是它是基于SchemaLess 的设计,比传统数据库更加灵活。 rowk...

2019-03-13 19:17:54 301

原创 Spark hIstory and Spark on yarn 配置及使用

sprk on yarn 概述及使用     (0)spark 资源管理                                                                                                                                        G3-平头哥           Spark...

2018-08-26 17:02:30 635

原创 spark2.3.1 源码编译详解

1. 前置要求(地址我给也贴下来,方便大家快速上手)  注意:我个人的环境是centos6.5,编译的是 spark-2.3.1-bin-2.6.0-cdh5.7.5   版本:scala 2.11.8 -- maven 3.3.9 -- java 1.8 -- spark 2.3.1 -- hadoop 2.6.0-cdh5.7.5 安装 apache-maven-3.3.9(或者...

2018-08-26 02:08:22 1222 2

原创 hive2.0的LLAP特性及DPC-H数据性能测试测试

1. hive2.x新功能及 LLap 特性介绍    1.  (对于hive的介绍我就不多说了)  hive 2.1 发布后增加了许多新功能,官网里面提到了以下几点(翻译):使用Hive LLAP进行交互式查询。 LLAP在Hive 2.0中引入,在Hive 2.1中进行了改进,使其性能比Hive 1提高了25倍强大的SQL ACID支持,拥有60多个稳定性修复程序。2x通过更智能的CBO实现更...

2018-05-15 11:44:12 9137

原创 CDH全搭建过程

声明:本搭建用的是 CentOs 6.5  Linux 服务1. ssh 配置  (1).挑选一台服务器,在.ssh 目录下面 ssh-keygen -t rsa 回车下去 把生成的id_rsa.pub 通过scp 发到其他机器,然后其他机器       重命名为authorized_keys (2).在其他机器上 ssh-keygen -t rsa 回车下去,把生成的id_rsa.pub 通过s...

2018-03-24 15:31:35 1800

转载 java 8 新特性

目录结构介绍Java语言的新特性2.1 Lambdas表达式与Functional接口2.2 接口的默认与静态方法2.3 方法引用2.4 重复注解2.5 更好的类型推测机制2.6 扩展注解的支持Java编译器的新特性3.1 参数名字Java 类库的新特性4.1 Optional4.2 Streams4.3 Date/Time API (JSR 310)4.4 JavaScript引擎Nashorn...

2018-03-20 10:35:52 177

原创 spark 内存管理(1.6前后)

一:Memory ManagerStaticMemoryManager 和 UnifiedMemoryManagerStaticMemoryManager1.6版本之前的内存管理概念上,内存空间被分成了三块独立的区域,每块区域的内存容量是按照JVM堆大小的固定比例进行分配的:Execution:在执行shuffle、join、sort和aggregation时,用于缓存中间数据。通过spark.s...

2018-03-02 15:58:45 595

转载 hdfa NM 高可用的实现

Hadoop NameNode 高可用 (High Availability) 实现解析WeiboGoogle+用电子邮件发送本页面 1转载自这里NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 ...

2018-03-01 16:02:49 439

转载 spark 参数调优指南

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据

2018-02-01 11:00:06 245

TPC-H-TOOLS

可以做数据的生成 我做的时候是做hive2 LLAP 造数据时候用的

2018-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除