Amos_Mu-CSDN博客

原创 spark 转换和行动算子

1.RDD转换算子 RDD根据数据处理方式的不同将算子整体分为Value类型，双Value类型，key-value类型一、Vlaue类型：（1）map 函数说明：将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换（2）mapPartitions 函数说明：将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以...

2021-04-28 00:20:56 940

1.写数据流程写数据路由规则： 1.每个index（类似于数据库中的表）由多个shard组成，每个shard有一个主节点（primary node）和多个副本节点（replica node） 2.每次写入的时候，写入请求会现根据routing（路由）规则选择发给哪个shard（即在找primary node）路由规则：（1）index request 中可以设置使用哪一个field的值作为路由参数（2...

2021-04-23 10:25:53 224

原创 leetcode java数据结构算法整理（更新中）

1.链表反转

2021-04-21 22:54:29 295

原创 HDFS的读写流程

HDFS的写流程： 1.客户端启动distributed FileSystem向namenode发送写数据请求 2.namenode向distributed FileSystem响应可以写 3.distributed FileSystem向namenode请求发送block 4.namenode向distributed FileSystem发送dn1、dn2、dn3的地址 5.FileDataOutputStream向最近距离的dn1请求发送block的传输通道，同时...

2021-04-17 22:41:21 123

原创 JVM从入门到入土

一、JVM主要分为三部分 {a.类加载器 b.内存区域 c.字节码执行引擎}a.类加载器是将java字节码类加载到内存区域中b.内存区域分为 1.堆 2.栈 3.本地方法区 4.方法区（元空间） 5.程序技术器c.字节码执行引擎...

2021-04-14 23:35:50 127

原创 kafka命令总结与讲解

1.查看kafka主题信息 kafka-topics.sh \ --describe --zookeeper localhost:2181 \ --topic flink_window 2.查看主题列表 kafka-topics.sh\ --zookeeper 127.0.0.1:2181\ --list __...

2019-09-06 14:13:11 1030

原创列专行并将一列数据作为表名即修改列名（面试题）

面试题：成绩表转成结果表：将成绩表列合并，同组放到一个map中，然后通过map将数据取出并将列名转换。SELECT id, sub['数学'] AS `数学`, sub['语文'] AS `语文` FROM (SELECT id, str_to_map(concat_ws(",",c...

2019-08-23 11:44:28 571

原创 Spark on yarn 的两种模式不同之处（spark on yarn的内存分配）

Spark on yarn 的两种模式不同之处：1.进程名字不同Cluster模式：CoarseGrainedExecutorBackend ：干活的程序员ApplicationMaster：程序的主控进程 driver就运行在该进程中Client 模式：SparkSubmitCoarseGrainedExecutorBackend ：干活的程序员E...

2019-08-18 16:35:03 852

原创 spark中job，stage，task之间的关系

1. 什么是jobJob简单讲就是提交给spark的任务2. 什么是stageStage是每一个job处理过程要分为几个阶段3什么是taskTask是每一个job处理过程要分几为几次任务3. Job和stage和task之间有什么关系Job----> 一个或多个stage---> 一个或多个task5.一个stage的task的数量是有谁来决定的？是由输入文件的切片个数来决定的。在HD...

2018-06-30 09:43:13 19528 7

原创 Hive User: root is not allowed to impersonate xxx问题

1.原因1解决方式：在hadoop的配置文件core-site.xml增加如下配置，重启hdfs，其中“xxx”是连接beeline的用户，将“xxx”替换成自己的用户名即可。最关键的是一定要重启hadoop，先stop-all.sh，再start-all.sh，否则不会生效的！！那样就还是报错！ <property> <name>hadoop.proxyuser.xxx.hosts</name> <value&..

2022-03-03 14:17:12 2152 3

原创 IntelliJ IDEA 2021.x Resource Bundle ‘xxx’ 没有Dissociate Resource Bundle 的问题

问题：2021版的idea中resource 偶尔会自动合并同名*.properties，但是问题是合并之后不显示Dissociate Resource Bundle 'demo' 甚至没有合并之后的配置文件。如下图：解决方案：在idea目录下面删除 resourceBundles.xml文件效果展示：DissociateResourceBundle'demo'出现了...

2022-01-20 17:52:30 911

原创 HBase架构、读写流程、rowkey设计、预分区、Region Split

目录一、HBase 架构二、Hbase 读写流程三、StoreFile Compaction四、Region Split五、预分区六、ROWKey设计一、HBase 架构 HLOG里面有 master、regionserver、wal(预写日志) 当有数据来了之后先查询HMaster 来获取向哪个HRegionserver中插入数据数据来了之后先向HLog中写，然后写到Mem Store，达到默认64MB之后写入HFile 二、H.

2021-08-21 00:07:28 363

原创 vue3.0中使用Element-plus默认英文组件修改为中文

问题：App.vue文件内容（自己比对，再细节讲就成保姆了）：<template> <el-config-provider :locale="locale"> <slot name="app"></slot> </el-config-provider> <div>  <Header/>  &.

2021-08-06 20:43:37 1612 7

原创 Python DBUtils安装之后 from DBUtils.PooledDB import PooledDB 报红

问题：from DBUtils.PooledDB import PooledDB显示DBUtils不存在本地的python是Anaconda 安装的用 pip installDBUtils 安装之后DBUtils不能使用。解决：因为Anaconda中没有DBUtils包，所以pip命令安装的DBUtils是假的，在pycharm 的project interpreter中是没有dbutils的。Anaconda正确安装DButils姿势：1.anaconda search ...

2021-08-01 18:44:50 3379 1

原创 hive on spark 配置问题（不能启动spark session）

问题写出：Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 57c3a66a-7123-4d48-8fb7-de97a4c29832)'FAILED: Execution Error, return code 30041 from org.apache.hadoop.

2021-07-28 23:13:37 3814

原创 flink中task调度原理

2021-05-18 23:45:23 125

原创 flink中task的划分及调优

每一个task中有多个subtask（线程），subtask要发送到taskManager中运行

2021-05-18 20:20:35 613

原创 MarkDown简单使用教程

2021-05-18 15:07:19 120

原创 flink的执行计划详解

上图是代码提交后在flink web ui中生成的执行计划

2021-05-17 23:30:11 300

原创 flink on yarn的两种模式

flink on yarn 两种模式 1.内存集中管理模式（yarn-session模式）提交命令：(1)yarn-session.sh -n 2 -jm 1024 -tm 1024 [-d] -n:taskManager的数量 -jm:jobManager的内存大小 -tm:taskManager的内存大小 ...

2021-05-17 20:16:15 412

原创 spark创建RDD的分区策略

1.集合数据是如何分区的 0 until 3 是从0到3并不包含3 List(1,2,3,4,5) 长度为5 分区数量为3 (1).partitions方法参数为数组长度分区数量 (2).迭代是0 until 3 即0，1，2 (3).将0，1，2变成tuple（start，end） a. start= （i*数组长度）/分区数量 b. end=（（i+1）*数组长度）/分区数量 ...

2021-04-26 17:25:12 239

原创 OLTP关系建模和OLAP维度建模

OLTP联机事务系统：用于处理关系型数据库，日常事务处理等联机事务系统遵循三范式。第一范式：所有属性都是不可分割的基本数据项。第二范式：在1NF的基础上，各个非主属性完全依赖候选码。第三范式：在2NF的基础上，各个非主属性对主属性既没有传递依赖有没有部分函数依赖。第一范式到第二范式解决部分函数依赖。第二范式到第三范式解决传递函数依赖。...

2021-04-15 23:51:56 688

转载 IDEA-各模块间引用出现问题的解决方法

1 点击项目右上角的Project Structure2 选择Modules->父项目->点击右上角的加号->添加需要依赖的模块

2019-10-23 16:43:19 1039

原创 JVM各组件的功能

ClassLoader（类加载器）什么是类加载器？加载和初始化.class文件类加载器有几种？3种分别是：启动类加载器（BootStrap）扩展类加载器（Extension）应用程序加载器（AppClassLoader）什么是...

2019-10-09 21:53:04 696

原创 Spark的统一内存管理

Spark的统一内存管理图1：统一内存管理spark 1.6之后引入的统一内存管理机制。统一内存管理的结构是：---------------------------Stroage内存和Execution内存占可用内存的0.6----------------------...

2019-10-08 11:43:43 198

原创 Flink消费0.10版本kafka

1.Flink 消费者精确到一次语义 a.setStartFromGroupOffsets()【默认消费策略】默认读取上次保存的offset信息如果是应用第一次启动，读取不到上次的offset信息，则会根据这个参数auto.offset.reset的值来进行消费数据 b.setStartFromEarliest() 从最早的...

2019-09-04 17:28:44 1159

原创 spark sql操作复杂嵌套数组 json数据

spark sql 处理对象嵌套数组json 元数据; {"username":"king","actionInfo":{"id":1,"age":"22","partList":[{"code":"123","uname":"king"},{"code":"0012","uname":"king"}]}} //方法一：用sql风格处理嵌套json val...

2019-08-03 22:43:34 3748 1

转载 spark-sql操作array和map和struct类型数据

原文链接（很nice的一篇文章）：https://blog.csdn.net/wang_wbq/article/details/79678168数组\列表array、字典map这两种数据类型的索引首先我们还是先构造数据结构与DataFrame： scala> case class A(a: String, b: Int) defined class A ...

2019-05-30 11:11:39 11381

转载 HDFS合并小文件

关键字：hadoop hdfs 小文件、appendToFile、getmerge众所周知，HDFS中过多的小文件，会给NameNode造成很大的压力，所谓的小文件，是指远远小于文件块大小的文件。在使用HDFS的过程中，应尽量避免生成过多的小文件。本文以TextFile为例，介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中...

2019-05-10 09:00:02 10172

原创 Flink wordcount socket案例

java版：Scala 版：

2019-05-06 20:34:38 441

原创 Flink on yarn

1.Flink on yarn执行方式和提交命令第一种:是先开辟资源然后在进行资源的调度使用，开辟的资源是供所有的flink进程来使用的，如果某一时刻没有flink程序执行开辟的资源会空转等待新的flink进程。第二种:是一边开辟资源一边进行使用，一个资源供一个flink进程使用，flink进程执行完毕之后就释放资源。 flink的提交命令： ...

2019-05-06 20:30:48 231

原创 SparkStreaming消费kafka数据堆积问题(即生产者生产数据速率>>消费者消费数据速率)

Spark直连kafka解决方案：注意：spark直连kafka spark的分区数和kafka的分区数是一致的1.增加kafka的分区数，相当于增加了spark的分区数，分区数增加处理数据能力上升。但是分区数量不要少于服务器(exector服务器)的cpu核数，spark官方提示分区数要是cpu总核数的2~3倍Kafka增加分区的命令:./kafka-topic...

2019-04-28 14:46:28 1947 1

转载 Spark 连接kafka的两种（Receiver与Direct）方式的区别

Receiver方式：Receiver方式是使用高级API，需要消费者连接zookeeper来读取数据。是由zookeeper来维护偏移量，不用我们手动维护，这样的话就比较简单，减少了代码量。但是特有很多缺点：丢失数据。他是由Executor内的Receiver来拉取数据并存放到内存中，再由Driver端提交的job来处理数据。这样的话，如果底层节点出现错误，就会发生数据丢失...

2019-04-24 14:00:36 978

原创 Spark Task 级调度

Spark ----driver executor运行图：图 1-1driver-----executor 运行图-----TaskSetManager结构图：图 1-2TaskSetManager 结构Spark Task的调度是由TaskScheudler来完成的，DAGScheduler将stage打包到taskSet并交给TaskScheduler，Tas...

2019-04-23 15:05:04 933

原创 spark on yarn的 cluster模式和 client模式提交运行流程

spark on yarn的 cluster模式和 client模式提交运行流程---client 模式:根据上面两个流程图得出：每一个spark程序打成的jar包就是一个application，jar包提交到集群之后启动进程①spark driver在客户端，向yarn集群（resourceManager）请求资源，driver端同时初始化DAGSchulder...

2019-04-22 19:16:06 1417

转载 spark 中stage 和 task的划分

stage 和 task 的划分问题。只要在 ShuffleDependency 处断开，就只剩 NarrowDependency，而 NarrowDependency chain 是可以进行 pipeline 的。　　所以划分算法就是：从后往前推算，遇到 ShuffleDependency 就断开，遇到 NarrowDependency 就将其加入该 stage。每个 stage 里面 ta...

2019-04-22 12:46:49 2801

原创 shell脚本的符号命令含义

$0: shell或shell脚本的名字$*:以一对双引号给出参数列表$@:将各个参数分别加双引号返回$#:参数的个数$_:代表上一个命令的最后一个参数$$:代表所在命令的PID$!:代表最后执行的后台命令的PID$?:代表上一个命令执行后的退出状态$0:写的shell脚本的本身的名字$1:给shell脚本传入的第一个参数$2:给shell脚本呢传入的第二个参数 ...

2018-12-19 14:22:43 268

转载大数据各组件默认端口号汇总

Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 19888：jobhistory WEB UI端口...

2018-12-13 13:17:17 387

原创数据仓库定时任务（crontab+datax）

1.环境要求我安装的是JDK1.8，Python2.7.13 记录下使用crontab,datax定时同步数据遇到的问题。 1.开始使用如下配置，死活不执行。网上说crontab环境便利的问题，设置了也没反应。 [root@hdp-01 home]# crontab -l */3 * * * * python /root/datax/bin...

2018-12-10 18:38:41 1377

原创记录一次用spark java写文件到本地（java推荐算法）

import org.apache.spark.api.java.JavaRDD;import org.apache.spark.ml.evaluation.RegressionEvaluator;import org.apache.spark.ml.recommendation.ALS;import org.apache.spark.ml.recommendation.ALSModel;...

2018-10-25 11:09:17 2469

空空如也

空空如也