上官沐雪-CSDN博客

原创 flink基本概念

要解答这个问题，我们需要先梳理一下其他框架分配任务、数据处理的过程。对于 Spark而言，是把根据程序生成的 DAG 划分阶段（stage）、进而分配任务的。而对于 Flink 这样的流式引擎，其实没有划分 stage 的必要。因为数据是连续不断到来的，我们完全可以按照数据流图建立一个“流水线”，前一个操作处理完成，就发往处理下一步操作的节点。

2024-01-21 14:46:53 1142

原创 shell求和、最大值、最小值

【代码】shell求和、最大值、最小值。

2022-11-26 21:34:52 1751 1

原创 docker常用命令

2、镜像指令nginx镜像：doceker hub3、启动容器指令（镜像运行起来即为容器）启动nginx应用容器，并映射88端口

2022-06-27 20:52:27 542

1.安全组：就是linux防火墙入方向就是：外部访问本服务器（开放端口）2.公网IP、私有IP公网IP : 外部访问所选的IP地址私有IP：内部集群访问所用IP（避免走公网流量，网络传输速度提升）3.vpc和交换机3.1 vpcvpc：私有网络、专有网络（划分网段）192.168.0.0/16 （十进制）（掩码16位:前16位不变）转二进制 =》 11000000.10101000.00000000.00000000/16IP范围：192.168.0.0-192.168.255.255网络：

2022-06-26 10:36:18 312

原创 clickhouse日期函数

clickhouse常用日期函数

2022-06-17 20:19:22 7425

原创 maven常用命令

maven常用命令mvn -v //查看版本mvn archetype:create //创建 Maven 项目mvn compile //编译源代码mvn test-compile //编译测试代码mvn test //运行应用程序中的单元测试mvn site //生成项目相关信息的网站mvn package //依据项目生成 jar 文件mvn install //在本地 Repository 中安装 jarmvn -Dmaven.test.skip=true //忽略测试文档编译m

2022-01-27 18:52:58 451

原创 hive sql转换成MR任务过程

hive sql转换成MR任务过程1）用户接口：ClientCLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问 hive）2）元数据：Metastore元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；3）Hadoop使用 HDFS 进行存储，使用 MapReduce 进行计算。4）驱动器：Driver5）解析器（SQL Parser

2022-01-11 14:33:45 2852

原创三.spark优化参数

spark优化参数--设置spark shuffle分区数量参考： excutor-cores * 3 set("spark.sql.shuffle.partitions", "36")--1.broadcastHashJOin--默认小表小于10M自动进行广播joinset("spark.sql.autoBroadcastJoinThreshold","10m")--1.可强制使用广播join SQL Hint暗示方式 select /*+ BROADCASTJOIN(sc) */

2021-12-21 21:20:22 1393

原创一.spark内存模型和执行计划过程

一. spark内存模型和执行计划过程1. spark内存模型说明：总内存分为：统一内存（60%）和其他内存（40%）。1. 其中统一内存分为：storage存储内存，和Execution执行内存，分别占50%。storage内存用于broadcast缓存数据：Storage 堆内内存=(spark.executor.memory–300MB)spark.memory.fractionspark.memory.storageFractionExecution执行shuffle产生的数据：E

2021-12-16 21:11:42 1524

原创 git生成sshKey等常用命令

git生成sshKey等常用命令##生成sshKeyssh-keygen -t rsa -C "[email protected]"#查看git配置信息$ git config --list #查看git用户名、密码、邮箱的配置$ git config user.name$ git config user.password$ git config user.email #设置git用户名、密码、邮箱的配置$ git config user.name "l

2021-12-12 16:44:48 820

原创 spark算子

spark算子介绍一、sparkCore相关算子1. source读取数据相关算子：##从内存中创建的集合，默认按照分区的数据平均分配，最后多的数据落到最后一个分区1. parallelize：从集合中获取rddval sparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName.stripSuffix("$")) val sparkContext = new SparkCo

2021-11-29 21:24:01 320

原创 spark on yarn的提交过程

spark on yarn集群的提交过程当程序提交时会启动sparkSubmit进程，里面会有解析参数对象(sparkSubmitArguments)和连接yarn的对象（yarnClusterApplication、yarnClient）连接yarn的对象连接resourceManager，请求启动ApplicationMaterresourceManager启动ApplicationMaterApplicationMater启动driver并且初始化sparkContextApplicati

2021-11-26 20:48:11 425

原创 dataWorks定时调度传参

dataWorks定时调度传参## maxComputer自带的参数，昨天的日期{yyyymmdd} 花括号dt='${bdp.system.bizdate}'## maxComputer自带的参数，今天的日期[yyyymmdd] 中括号dt='$[bdp.system.bizdate]'## 任务的定时时间，格式为yyyymmddhh24miss$cyctime ## 当前日期，格式为yyyymmdd$gmtdate## 业务月份，格式为yyyymm。$bizmonth

2021-10-09 19:57:59 2786

原创 dataWorks常用调优参数

总结了一下dataWorks常用参数方便同学们使用：## 查看项目数据类型版本。setproject; ## 允许全表扫描set odps.sql.allow.fullscan=true;##允许整个项目都可全表扫描setproject odps.sql.allow.fullscan=true;##文件被合并的最大阈值set odps.sql.mapper.merge.limit.size=64;##Map端输入的控制set odps.sql.mapper.split.size

2021-10-09 19:53:30 2218

原创 hive映射Elasticsearch时间date类型问题

hive映射Elasticsearch时间date类型问题hive映射es时间date类型出现问题，需要自定义类读取时间类型，如下：1.建立hive与es映射表CREATE EXTERNAL TABLE `hive_es_dt_basic4_20210724_02`( `id` string COMMENT 'from deserializer', `country` string COMMENT 'from deserializer', `regstatus` string COMM

2021-08-05 11:50:42 847

原创 hive映射es

hive映射es1.再hive中建里映射表CREATE EXTERNAL TABLE `hive_es_dt_basic4_id`( `id` string COMMENT 'from deserializer', `country` string COMMENT 'from deserializer', `regstatus` string COMMENT 'from deserializer', `districtcode` string COMMENT 'from deser

2021-07-06 11:10:33 1025

原创 hive特殊字符的替换

【代码】hive特殊字符的替换。

2021-07-05 19:57:39 392

原创 sqoop提交参数说明

sqoop提交参数解析/opt/cloudera/parcels/CDH/lib/sqoop/bin/sqoop import \--connect jdbc:mysql://ip:port/T_Cloud_Promote \--username rt_center \--password pwd\--query "select KeywordID,KeyType,Root,KeywordName,UID,Status,AddDate,UpdateDate,MigrateOID,Promotion

2021-06-19 18:56:19 305 4

ShiHao_Li的博客

原创 flink基本概念

原创 shell求和、最大值、最小值

原创 centos7虚拟机安装环境过程

原创 mysql事务测试

原创 docker常用命令

原创阿里云服务基本知识

原创 clickhouse日期函数

原创 maven常用命令

原创 hive sql转换成MR任务过程

原创三.spark优化参数

原创一.spark内存模型和执行计划过程

原创 git生成sshKey等常用命令

原创 spark算子

原创 spark on yarn的提交过程

原创 dataWorks定时调度传参

原创 dataWorks常用调优参数

原创 hive映射Elasticsearch时间date类型问题

原创 hive映射es

原创 hive特殊字符的替换

原创 sqoop提交参数说明

原创 flink1.12.0提交脚本说明

原创 java实现日期月份的间隔数

原创把mongoDB数据导入hive

原创 hbase在hdfs上目录的介绍

原创 kafka常用脚本

原创 kafka的配置说明

原创二. spark相关参数的推导

原创使用bulkload方式加载数据到HBase（三种方式）

原创 presto的常用基本操作

原创 hive on spark 参数设置

原创 flink on yarn 模式缺少资源，出现任务堵塞现象

原创 CDH hadoop里面 yarn常用配置优化（避免踩坑）

空空如也

es集群不稳定，节点经常被removed,然后又自动加入.