自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 问答 (1)
  • 收藏
  • 关注

原创 flink基本概念

要解答这个问题,我们需要先梳理一下其他框架分配任务、数据处理的过程。对于 Spark而言,是把根据程序生成的 DAG 划分阶段(stage)、进而分配任务的。而对于 Flink 这样的流式引擎,其实没有划分 stage 的必要。因为数据是连续不断到来的,我们完全可以按照数据流图建立一个“流水线”,前一个操作处理完成,就发往处理下一步操作的节点。

2024-01-21 14:46:53 1142

原创 shell求和、最大值、最小值

【代码】shell求和、最大值、最小值。

2022-11-26 21:34:52 1751 1

原创 centos7虚拟机安装环境过程

centos7虚拟机安装过程

2022-11-26 15:03:02 722

原创 mysql事务测试

mysql事务

2022-10-28 00:18:39 765

原创 docker常用命令

2、镜像指令nginx镜像:doceker hub3、启动容器指令(镜像运行起来即为容器)启动nginx应用容器,并映射88端口

2022-06-27 20:52:27 542

原创 阿里云服务基本知识

1.安全组:就是linux防火墙入方向就是:外部访问本服务器(开放端口)2.公网IP、私有IP公网IP : 外部访问所选的IP地址私有IP:内部集群访问所用IP(避免走公网流量,网络传输速度提升)3.vpc和交换机3.1 vpcvpc:私有网络、专有网络(划分网段)192.168.0.0/16 (十进制)(掩码16位:前16位不变)转二进制 =》 11000000.10101000.00000000.00000000/16IP范围:192.168.0.0-192.168.255.255网络:

2022-06-26 10:36:18 312

原创 clickhouse日期函数

clickhouse常用日期函数

2022-06-17 20:19:22 7425

原创 maven常用命令

maven常用命令mvn -v //查看版本mvn archetype:create //创建 Maven 项目mvn compile //编译源代码mvn test-compile //编译测试代码mvn test //运行应用程序中的单元测试mvn site //生成项目相关信息的网站mvn package //依据项目生成 jar 文件mvn install //在本地 Repository 中安装 jarmvn -Dmaven.test.skip=true //忽略测试文档编译m

2022-01-27 18:52:58 451

原创 hive sql转换成MR任务过程

hive sql转换成MR任务过程1)用户接口:ClientCLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive)2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是 default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;3)Hadoop使用 HDFS 进行存储,使用 MapReduce 进行计算。4)驱动器:Driver5)解析器(SQL Parser

2022-01-11 14:33:45 2852

原创 三.spark优化参数

spark优化参数--设置spark shuffle分区数量参考: excutor-cores * 3 set("spark.sql.shuffle.partitions", "36")--1.broadcastHashJOin--默认小表小于10M自动进行广播joinset("spark.sql.autoBroadcastJoinThreshold","10m")--1.可强制使用广播join SQL Hint暗示方式 select /*+ BROADCASTJOIN(sc) */

2021-12-21 21:20:22 1393

原创 一.spark内存模型和执行计划过程

一. spark内存模型和执行计划过程1. spark内存模型说明:总内存分为:统一内存(60%)和其他内存(40%)。1. 其中统一内存分为:storage存储内存,和Execution执行内存,分别占50%。storage内存用于broadcast缓存数据:Storage 堆内内存=(spark.executor.memory–300MB)spark.memory.fractionspark.memory.storageFractionExecution执行shuffle产生的数据:E

2021-12-16 21:11:42 1524

原创 git生成sshKey等常用命令

git生成sshKey等常用命令##生成sshKeyssh-keygen -t rsa -C "[email protected]"#查看git配置信息$ git config --list #查看git用户名、密码、邮箱的配置$ git config user.name$ git config user.password$ git config user.email #设置git用户名、密码、邮箱的配置$ git config user.name "l

2021-12-12 16:44:48 820

原创 spark算子

spark算子介绍一、sparkCore相关算子1. source读取数据相关算子:##从内存中创建的集合,默认按照分区的数据平均分配,最后多的数据落到最后一个分区1. parallelize:从集合中获取rddval sparkConf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName.stripSuffix("$")) val sparkContext = new SparkCo

2021-11-29 21:24:01 320

原创 spark on yarn的提交过程

spark on yarn集群的提交过程当程序提交时会启动sparkSubmit进程,里面会有解析参数对象(sparkSubmitArguments)和连接yarn的对象(yarnClusterApplication、yarnClient)连接yarn的对象连接resourceManager,请求启动ApplicationMaterresourceManager启动ApplicationMaterApplicationMater启动driver并且初始化sparkContextApplicati

2021-11-26 20:48:11 425

原创 dataWorks定时调度传参

dataWorks定时调度传参## maxComputer自带的参数,昨天的日期{yyyymmdd} 花括号dt='${bdp.system.bizdate}'## maxComputer自带的参数,今天的日期[yyyymmdd] 中括号dt='$[bdp.system.bizdate]'## 任务的定时时间,格式为yyyymmddhh24miss$cyctime ## 当前日期,格式为yyyymmdd$gmtdate## 业务月份,格式为yyyymm。$bizmonth

2021-10-09 19:57:59 2786

原创 dataWorks常用调优参数

总结了一下dataWorks常用参数方便同学们使用:## 查看项目数据类型版本。setproject; ## 允许全表扫描set odps.sql.allow.fullscan=true;##允许整个项目都可全表扫描setproject odps.sql.allow.fullscan=true;##文件被合并的最大阈值set odps.sql.mapper.merge.limit.size=64;##Map端输入的控制set odps.sql.mapper.split.size

2021-10-09 19:53:30 2218

原创 hive映射Elasticsearch时间date类型问题

hive映射Elasticsearch时间date类型问题hive映射es时间date类型出现问题,需要自定义类读取时间类型,如下:1.建立hive与es映射表CREATE EXTERNAL TABLE `hive_es_dt_basic4_20210724_02`( `id` string COMMENT 'from deserializer', `country` string COMMENT 'from deserializer', `regstatus` string COMM

2021-08-05 11:50:42 847

原创 hive映射es

hive映射es1.再hive中建里映射表CREATE EXTERNAL TABLE `hive_es_dt_basic4_id`( `id` string COMMENT 'from deserializer', `country` string COMMENT 'from deserializer', `regstatus` string COMMENT 'from deserializer', `districtcode` string COMMENT 'from deser

2021-07-06 11:10:33 1025

原创 hive特殊字符的替换

【代码】hive特殊字符的替换。

2021-07-05 19:57:39 392

原创 sqoop提交参数说明

sqoop提交参数解析/opt/cloudera/parcels/CDH/lib/sqoop/bin/sqoop import \--connect jdbc:mysql://ip:port/T_Cloud_Promote \--username rt_center \--password pwd\--query "select KeywordID,KeyType,Root,KeywordName,UID,Status,AddDate,UpdateDate,MigrateOID,Promotion

2021-06-19 18:56:19 305 4

原创 flink1.12.0提交脚本说明

flink提交脚本以下是flink的提交脚本flink run \-m yarn-cluster \-yjm 1024 \-ytm 1024 \-s hdfs:///flink/flink-checkpoints/28b9aef62561ff6ef00dadbd12625d30/chk-1477665 \-c com.zhendao.task.ZhenTuiBaoTask \-yqu root.streaming \-ynm Flink-ZhenTuiBaoTask \/var/lib/

2021-06-17 11:12:44 402

原创 java实现日期月份的间隔数

java代码实现日期月份的间隔数java计算两个月份的间隔代码如下 public static void main(String[] args) throws ParseException { int monthSpace = monthPreiod("2021-01-12", "2022-12-01"); System.out.println(monthSpace); } public static int monthPreiod(String

2021-06-11 15:25:48 1976 2

原创 把mongoDB数据导入hive

hive映射mongoDB表mongodb基本脚本##创建一张表db.createCollection("company_info_mapping");##插入数据db.getCollection("company_info_mapping").insert( { companyName: "test", licenseNumber: "test", socialCreditCode: "test", hid: "7752395865026566931",

2021-06-07 16:59:24 521 2

原创 hbase在hdfs上目录的介绍

hbase目录的介绍下面是hbase在hdfs上目录的介绍## (1) 进行snapshot或者升级的时候使用到的归档目录。compaction删除hfile的时候,也会把就的hfile归档到这里等。/hbase/archive ## (2)splitlog的corrupt目录,以及corrupt hfile的目录。 /hbase/corrupt ## (3) 表的基本属性信息元文件tableinfo。 /hbase/data/default/mytab/.tabledesc/.tabl

2021-06-07 11:25:11 330

原创 kafka常用脚本

kafka相关的脚本kafka脚本## 服务启动 指定配置文件./kafka-server-start.sh -daemon /opt/kafka/config/server.propertiest_monitor列举topic: kafka-topics --zookeeper 192.168.102.7:2181 --listdsp_biddsp_clickdsp_monitordsp_wint_monitortest###新建topic kafka-topics

2021-06-06 18:02:41 67

原创 kafka的配置说明

kafka配置说明1.服务端配置 config/server.properties## 机器的唯一标识broker.id## kafka存放消息文件的路径log.dirs## Zookeeper server 列表 ,式为:p1:port,ip2:port,ip3:portzookeeper.connnect## broker用于接收producer消息的端口port## 单条消息的最大长度message.max.bytes## broker用于执行网络请求的IO线程数,不

2021-06-06 17:54:07 1317 6

原创 二. spark相关参数的推导

spark相关参数的推导1. 集群配置10 Nodes16 cores per Node64GB RAM per Node1.1 内存比较大的情况下:第一,根据上面的参数建议,我们给每个Executor分配5个core即executor-cores=5,这样对HDFS的吞吐量会比较友好。第二,为后台进程留一个core,则每个节点可用的core数是16 - 1 = 15。所以集群总的可用core数是15 x 10 = 150。第三,每个节点上的Executor数就是 15 / 5 = 3,集群

2021-06-01 13:10:04 180

原创 使用bulkload方式加载数据到HBase(三种方式)

使用spark把hive数据bulkload到HBase场景:最近有大量数据存在hive里,由于业务需呀,把hive数据放到HBase里于是想到如下三种方案:1.使用hive表映射hbaseCREATE external TABLE `hbase_website`( `key` string, `ocid` string, `companyname` string, `createtime` bigint, `updatetime` bigint, `sitenam

2021-06-01 10:31:41 1861

原创 presto的常用基本操作

presto的常用基本知识及操作1.Presto 架构Presto 是一个运行在多台服务器上的分布式系统。完整安装包括一个 Coordinator 和多 个 Worker。由客户端提交查询,从 Presto 命令行 CLI 提交到 Coordinator。Coordinator 进行 解析,分析并执行查询计划,然后分发处理队列到 Worker。1)CoordinatorCoordinator 服务器是用来解析语句,执行计划分析和管理 Presto 的 Worker 结点。Presto 安装必须有一

2021-05-14 16:23:26 2504 2

原创 hive on spark 参数设置

hive on spark 相关参数设置#设置计算引擎set hive.execution.engine=spark;#设置spark提交模式set spark.master=yarn-cluster;#设置作业提交队列set spark.yarn.queue=queue_name;#设置作业名称set spark.app.name=job_name;#该参数用于设置Spark作业总共要用多少个Executor进程来执行set spark.executor.instances=2

2021-05-08 14:17:43 2134 2

原创 flink on yarn 模式缺少资源,出现任务堵塞现象

flink on yarn 模式,缺少资源,出现任务堵塞现象:1.报错信息如下:Application is added to the scheduler and is not yet activated. (Resource request: <memory:94208, vCores:48> exceeds maximum AM resource allowed).Application is added to the scheduler and is not yet activate

2021-04-28 11:35:56 3224 3

原创 CDH hadoop里面 yarn常用配置优化 (避免踩坑)

CDH hadoop里面 yarn常用配置优化 (避免踩坑)自己日常用到的yarn一些调优参数,避免同学们踩坑。如有补充,还望同学们多多留言。1.相应的集群配置环境128G内存,cpu为48核2.yarn 内存配置#表示该nodemanager节点上YARN可使用的物理内存总量 (如:128G可取 90G)yarn.nodemanager.resource.memory-mb#container内存范围的最小值(如:可取 2G)yarn.scheduler.minimum-allocati

2021-04-26 18:07:56 821

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除