自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 spark 转换和行动算子

1.RDD转换算子 RDD根据数据处理方式的不同将算子整体分为Value类型,双Value类型,key-value类型一 、Vlaue类型: (1)map 函数说明: 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 (2)mapPartitions 函数说明: 将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以...

2021-04-28 00:20:56 940

原创 elasticsearch 增删改查操作

1.写数据流程写数据路由规则: 1.每个index(类似于数据库中的表)由多个shard组成,每个shard有一个主节点(primary node)和多个副本节点(replica node) 2.每次写入的时候,写入请求会现根据routing(路由)规则选择发给哪个shard(即在找primary node) 路由规则:(1)index request 中可以设置使用哪一个field的值作为路由参数 (2...

2021-04-23 10:25:53 224

原创 leetcode java数据结构算法整理(更新中)

1.链表反转

2021-04-21 22:54:29 295

原创 HDFS的读写流程

HDFS的写流程: 1.客户端启动distributed FileSystem向namenode发送写数据请求 2.namenode向distributed FileSystem响应可以写 3.distributed FileSystem向namenode请求发送block 4.namenode向distributed FileSystem发送dn1、dn2、dn3的地址 5.FileDataOutputStream向最近距离的dn1请求发送block的传输通道,同时...

2021-04-17 22:41:21 123

原创 JVM从入门到入土

一、JVM主要分为三部分 {a.类加载器 b.内存区域 c.字节码执行引擎}a.类加载器是将java字节码类加载到内存区域中b.内存区域分为 1.堆 2.栈 3.本地方法区 4.方法区(元空间) 5.程序技术器c.字节码执行引擎...

2021-04-14 23:35:50 127

原创 kafka命令总结与讲解

1.查看kafka主题信息 kafka-topics.sh \ --describe --zookeeper localhost:2181 \ --topic flink_window 2.查看主题列表 kafka-topics.sh\ --zookeeper 127.0.0.1:2181\ --list __...

2019-09-06 14:13:11 1030

原创 列专行并将一列数据作为表名 即修改列名(面试题)

面试题:成绩表转成结果表:将成绩表列合并,同组放到一个map中,然后通过map将数据取出并将列名转换。SELECT id, sub['数学'] AS `数学`, sub['语文'] AS `语文` FROM (SELECT id, str_to_map(concat_ws(",",c...

2019-08-23 11:44:28 571

原创 Spark on yarn 的两种模式不同之处(spark on yarn的内存分配)

Spark on yarn 的两种模式不同之处:1.进程名字不同Cluster模式:CoarseGrainedExecutorBackend : 干活的程序员ApplicationMaster: 程序的主控进程 driver就运行在该进程中Client 模式:SparkSubmitCoarseGrainedExecutorBackend : 干活的程序员E...

2019-08-18 16:35:03 852

原创 spark中job,stage,task之间的关系

1. 什么是jobJob简单讲就是提交给spark的任务2. 什么是stageStage是每一个job处理过程要分为几个阶段3什么是taskTask是每一个job处理过程要分几为几次任务3. Job和stage和task之间有什么关系Job----> 一个或多个stage---> 一个或多个task5.一个stage的task的数量是有谁来决定的?是由输入文件的切片个数来决定的。在HD...

2018-06-30 09:43:13 19528 7

原创 Hive User: root is not allowed to impersonate xxx问题

1.原因1解决方式:在hadoop的配置文件core-site.xml增加如下配置,重启hdfs,其中“xxx”是连接beeline的用户,将“xxx”替换成自己的用户名即可。最关键的是一定要重启hadoop,先stop-all.sh,再start-all.sh,否则不会生效的!!那样就还是报错! <property> <name>hadoop.proxyuser.xxx.hosts</name> <value&..

2022-03-03 14:17:12 2152 3

原创 IntelliJ IDEA 2021.x Resource Bundle ‘xxx’ 没有Dissociate Resource Bundle 的问题

问题:2021版的idea中resource 偶尔会自动合并同名*.properties,但是问题是合并之后不显示Dissociate Resource Bundle 'demo' 甚至没有合并之后的配置文件。如下图:解决方案:在idea目录下面删除 resourceBundles.xml文件效果展示:DissociateResourceBundle'demo'出现了...

2022-01-20 17:52:30 911

原创 HBase架构、读写流程、rowkey设计、预分区、Region Split

目录一、HBase 架构二、Hbase 读写流程三、StoreFile Compaction四、Region Split五、预分区六、ROWKey设计一、HBase 架构 HLOG里面有 master、regionserver、wal(预写日志) 当有数据来了之后先查询HMaster 来获取向哪个HRegionserver中插入数据 数据来了之后先向HLog中写,然后写到Mem Store,达到默认64MB之后写入HFile 二、H.

2021-08-21 00:07:28 363

原创 vue3.0中使用Element-plus默认英文组件修改为中文

问题:App.vue文件内容(自己比对,再细节讲就成保姆了):<template> <el-config-provider :locale="locale"> <slot name="app"></slot> </el-config-provider> <div> <!--头部--> <Header/> <!--主体--> &.

2021-08-06 20:43:37 1612 7

原创 Python DBUtils安装之后 from DBUtils.PooledDB import PooledDB 报红

问题:from DBUtils.PooledDB import PooledDB显示DBUtils不存在本地的python是Anaconda 安装的用 pip installDBUtils 安装之后DBUtils不能使用。解决:因为Anaconda中没有DBUtils包,所以pip命令安装的DBUtils是假的,在pycharm 的project interpreter中是没有dbutils的。Anaconda正确安装DButils姿势:1.anaconda search ...

2021-08-01 18:44:50 3379 1

原创 hive on spark 配置问题(不能启动spark session)

问题写出:Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 57c3a66a-7123-4d48-8fb7-de97a4c29832)'FAILED: Execution Error, return code 30041 from org.apache.hadoop.

2021-07-28 23:13:37 3814

原创 flink中task调度原理

2021-05-18 23:45:23 125

原创 flink中task的划分及调优

每一个task中有多个subtask(线程),subtask要发送到taskManager中运行

2021-05-18 20:20:35 613

原创 MarkDown简单使用教程

2021-05-18 15:07:19 120

原创 flink的执行计划详解

上图是代码提交后在flink web ui中生成的执行计划

2021-05-17 23:30:11 300

原创 flink on yarn的两种模式

flink on yarn 两种模式 1.内存集中管理模式(yarn-session模式) 提交命令:(1)yarn-session.sh -n 2 -jm 1024 -tm 1024 [-d] -n:taskManager的数量 -jm:jobManager的内存大小 -tm:taskManager的内存大小 ...

2021-05-17 20:16:15 412

原创 spark创建RDD的分区策略

1.集合数据是如何分区的 0 until 3 是从0到3并不包含3 List(1,2,3,4,5) 长度为5 分区数量为3 (1).partitions方法 参数为 数组长度 分区数量 (2).迭代是0 until 3 即0,1,2 (3).将0,1,2变成tuple(start,end) a. start= (i*数组长度)/分区数量 b. end=((i+1)*数组长度)/分区数量 ...

2021-04-26 17:25:12 239

原创 OLTP关系建模和OLAP维度建模

OLTP联机事务系统:用于处理关系型数据库,日常事务处理等联机事务系统遵循三范式。第一范式:所有属性都是不可分割的基本数据项。第二范式:在1NF的基础上,各个非主属性完全依赖候选码。第三范式:在2NF的基础上,各个非主属性对主属性既没有传递依赖有没有部分函数依赖。第一范式到第二范式解决部分函数依赖。第二范式到第三范式解决传递函数依赖。...

2021-04-15 23:51:56 688

转载 IDEA-各模块间引用出现问题的解决方法

1 点击项目右上角的Project Structure2 选择Modules->父项目->点击右上角的加号->添加需要依赖的模块

2019-10-23 16:43:19 1039

原创 JVM各组件的功能

ClassLoader(类加载器)什么是类加载器? 加载和初始化.class文件类加载器有几种?3种分别是:启动类加载器(BootStrap) 扩展类加载器(Extension) 应用程序加载器(AppClassLoader)什么是...

2019-10-09 21:53:04 696

原创 Spark的统一内存管理

Spark的统一内存管理 图1:统一内存管理spark 1.6之后引入的统一内存管理机制。统一内存管理的结构是:---------------------------Stroage内存和Execution内存占可用内存的0.6----------------------...

2019-10-08 11:43:43 198

原创 Flink消费0.10版本kafka

1.Flink 消费者精确到一次语义 a.setStartFromGroupOffsets()【默认消费策略】 默认读取上次保存的offset信息 如果是应用第一次启动,读取不到上次的offset信息,则会根据这个参数auto.offset.reset的值来进行消费数据 b.setStartFromEarliest() 从最早的...

2019-09-04 17:28:44 1159

原创 spark sql操作复杂嵌套数组 json数据

spark sql 处理 对象嵌套数组json 元数据; {"username":"king","actionInfo":{"id":1,"age":"22","partList":[{"code":"123","uname":"king"},{"code":"0012","uname":"king"}]}} //方法一:用sql风格处理嵌套json val...

2019-08-03 22:43:34 3748 1

转载 spark-sql操作array和map和struct类型数据

原文链接(很nice的一篇文章):https://blog.csdn.net/wang_wbq/article/details/79678168数组\列表array、字典map这两种数据类型的索引首先我们还是先构造数据结构与DataFrame: scala> case class A(a: String, b: Int) defined class A ...

2019-05-30 11:11:39 11381

转载 HDFS合并小文件

关键字:hadoop hdfs 小文件、appendToFile、getmerge众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。在使用HDFS的过程中,应尽量避免生成过多的小文件。本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中...

2019-05-10 09:00:02 10172

原创 Flink wordcount socket案例

java版:Scala 版:

2019-05-06 20:34:38 441

原创 Flink on yarn

1.Flink on yarn执行方式和提交命令第一种:是先开辟资源然后在进行资源的调度使用,开辟的资源是供所有的flink进程来使用的,如果某一时刻没有flink程序执行开辟的资源会空转等待新的flink进程。第二种:是一边开辟资源一边进行使用,一个资源供一个flink进程使用,flink进程执行完毕之后就释放资源。 flink的提交命令: ...

2019-05-06 20:30:48 231

原创 SparkStreaming消费kafka数据堆积问题(即生产者生产数据速率>>消费者消费数据速率)

Spark直连kafka解决方案:注意:spark直连kafka spark的分区数和kafka的分区数是一致的1.增加kafka的分区数,相当于增加了spark的分区数,分区数增加处理数据能力上升。但是分区数量不要少于服务器(exector服务器)的cpu核数,spark官方提示分区数要是cpu总核数的2~3倍Kafka增加分区的命令:./kafka-topic...

2019-04-28 14:46:28 1947 1

转载 Spark 连接kafka的两种(Receiver与Direct)方式的区别

Receiver方式:Receiver方式是使用高级API,需要消费者连接zookeeper来读取数据。是由zookeeper来维护偏移量,不用我们手动维护,这样的话就比较简单,减少了代码量。但是特有很多缺点:丢失数据。他是由Executor内的Receiver来拉取数据并存放到内存中,再由Driver端提交的job来处理数据。这样的话,如果底层节点出现错误,就会发生数据丢失...

2019-04-24 14:00:36 978

原创 Spark Task 级调度

Spark ----driver executor运行图:图 1-1driver-----executor 运行图-----TaskSetManager结构图:图 1-2TaskSetManager 结构Spark Task的调度是由TaskScheudler来完成的,DAGScheduler将stage打包到taskSet并交给TaskScheduler,Tas...

2019-04-23 15:05:04 933

原创 spark on yarn的 cluster模式 和 client模式 提交运行流程

spark on yarn的 cluster模式 和 client模式 提交运行流程---client 模式:根据上面两个流程图得出:每一个spark程序打成的jar包就是一个application,jar包提交到集群之后启动进程①spark driver在客户端,向yarn集群(resourceManager)请求资源,driver端同时初始化DAGSchulder...

2019-04-22 19:16:06 1417

转载 spark 中stage 和 task的划分

stage 和 task 的划分问题。只要在 ShuffleDependency 处断开,就只剩 NarrowDependency,而 NarrowDependency chain 是可以进行 pipeline 的。  所以划分算法就是:从后往前推算,遇到 ShuffleDependency 就断开,遇到 NarrowDependency 就将其加入该 stage。每个 stage 里面 ta...

2019-04-22 12:46:49 2801

原创 shell脚本的符号命令含义

$0: shell或shell脚本的名字$*:以一对双引号给出参数列表$@:将各个参数分别加双引号返回$#:参数的个数$_:代表上一个命令的最后一个参数$$:代表所在命令的PID$!:代表最后执行的后台命令的PID$?:代表上一个命令执行后的退出状态$0:写的shell脚本的本身的名字$1:给shell脚本传入的第一个参数$2:给shell脚本呢传入的第二个参数 ...

2018-12-19 14:22:43 268

转载 大数据各组件默认端口号汇总

Hadoop:        50070:HDFS WEB UI端口    8020 : 高可用的HDFS RPC端口    9000 : 非高可用的HDFS RPC端口    8088 : Yarn 的WEB UI 接口    8485 : JournalNode 的RPC端口    8019 : ZKFC端口   19888:jobhistory WEB UI端口...

2018-12-13 13:17:17 387

原创 数据仓库定时任务(crontab+datax)

1.环境要求我安装的是JDK1.8,Python2.7.13 记录下使用crontab,datax定时同步数据遇到的问题。 1.开始使用如下配置,死活不执行。网上说crontab环境便利的问题,设置了也没反应。 [root@hdp-01 home]# crontab -l */3 * * * * python /root/datax/bin...

2018-12-10 18:38:41 1377

原创 记录一次用spark java写文件到本地(java推荐算法)

import org.apache.spark.api.java.JavaRDD;import org.apache.spark.ml.evaluation.RegressionEvaluator;import org.apache.spark.ml.recommendation.ALS;import org.apache.spark.ml.recommendation.ALSModel;...

2018-10-25 11:09:17 2469

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除