自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小东的博客

IT编程

  • 博客(79)
  • 资源 (3)
  • 收藏
  • 关注

原创 推送xxl-job镜像到阿里云镜像服务

k8s记录

2022-09-15 17:47:37 408 1

原创 windows上后台启动jar包脚本记录

启动脚本

2022-08-24 15:25:25 363

原创 HBase中常见的参数分类整理(版本为HBase 1.1.2)

------------------Region-------------------hbase.hregion.max.filesize:默认10G,简单理解为Region中任意HStore所有文件大小总和大于该值就会进行分裂。解读:实际生产环境中该值不建议太大,也不能太小。太大会导致系统后台执行compaction消耗大量系统资源,一定程度上影响业务响应;太小会导致Region分裂比较频繁(分裂本身其实对业务读写会有一定影响),另外单个RegionServer中必然存在大量Region,太多Regi

2022-03-30 09:19:43 547 2

原创 flink exactly once和at least once的理解

exactly once VS at least once其实就是对非对齐barrier的理解。exactly once: 当程序恢复时, 下游的算子已经出现过的状态不会再出现一次, 而是继续往下消费,出现新的状态。at least once:当程序恢复时,下游的算子的某个分区,由于barrier早到了, 导致会继续往下消费数据。 上游source的偏移量在ck时就记录了,假设为a1, 当某个分区barrier先到达时, 下游算子状态为b1(注意,它对应的偏移量是a1), 但是由于要继续消费数据, .

2022-03-09 15:49:04 2523 2

原创 flinksql client使用

sql-client.sh embedded -d ~/sql-client-defaults.yamlcreate table test0311( a0 VARCHAR, a1 VARCHAR, a2 VARCHAR, a3 VARCHAR, a4 VARCHAR, a5 VARCHAR, a6 VARCHAR, a7 VARCHAR, a8 VARCHAR, a9 VARCHAR, a10 VARCHAR, a11 VARCHAR, a

2022-03-02 10:07:05 429

原创 flink常见报错

rescaling from unaligned checkpoint is not yet supportedflink1.12不支持非对齐检查点恢复

2022-02-08 14:39:03 801

原创 flink的slot和线程关系

以前误认为一个slot一个线程,这是错误的,正确的如下:Flink中slot数量代表了所有最高能支持的subtask数量。也就是整个任务的最高并发度,但是并不代表一个线程的概念,内部也是可以启动很多线程的。...

2022-01-07 08:48:31 1990

原创 导入mysql常用脚本

替换文本中的\n字符串并批量source#! /bin/bashfor line in $(<tables)do table=${line,,} echo "开始导入"${table} cat ./table/${table} |grep -o "CREATE TABLE.*" > ./table_new/${table} sed -i "s/\\\n//g" ./table_new/${table} ec.

2021-11-28 19:17:30 465

原创 优化tez引擎-资源限制

1. 参数set tez.am.resource.memory.mb=4096; // 与yarn.scheduler.minimum-allocate-mb YARN最小容器大小相同set tez.runtime.io.sort.mb=1638; // hive.tez.container.size的40%set hive.auto.con

2021-11-08 16:36:48 4334

原创 HDP聚合日志解析内容-ifile和tfile

解析hdfs上的聚合日志, 共4个类, 打包后上传到服务器, 将hdfs上的日志文件下载到本地, 使用命令java -jar 包名 日志路径名效果图:代码:package YarnLogFileReader;import org.apache.commons.lang3.SerializationUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;im

2021-11-08 00:46:44 1862

原创 Docker一键搭建HDP3.0.1

下载镜像, 26G大小。docker pull hortonworks/sandbox-hdp:3.0.1docker pull hortonworks/sandbox-proxy:1.0-下载安装脚本git clone https://github.com/dounine/sandbox-hdp-3.0.1.git添加host映射vi /etc/hosts# 加入如下127.0.0.1 sandbox-hdp.hortonworks.com启动./docker-dep.

2021-10-31 03:18:43 1388

原创 自制Flink Parcel集成CDH(Flink1.12.0 + CDH6.3.2)

记录制作flink parcel环境(虚拟机,系统CentOS7.6)(1)jdk1.8(2)maven3.6.1(3)parcel制作工具1.jdk1.8下载jdk1.8版本并上传到虚拟机的指定目录下,我的目录是/app解压jdk到当前目录tar -zxvf /app/jdk-8u151-linux-x64.tar.gz -C .重命名mv jdk1.8.0_151/ jdk配置系统环境变量vim /etc/profile在最后添加:export JAVA_HOME=/ap

2021-10-06 01:46:00 1012 3

原创 阿里云Maven仓库完整版

阿里云Maven仓库完整版<?xml version="1.0" encoding="UTF-8"?><!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copy

2021-10-02 10:46:10 1899 1

原创 Hbase笔记

旧hbase架构HMasterZookeeperregionserverhregion读数据流程写数据流程Hlog

2021-08-29 01:27:21 112

原创 spark streaming限制吞吐

使用spark.streaming.receiver.maxRate这个属性限制每秒的最大吞吐。官方文档如下:Maximum rate (number of records per second) at which each receiver will receive data. Effectively, each stream will consume at mostthis number of records per second. Settingthis configuration to0 or

2021-08-05 19:27:07 259

原创 服务器磁盘检测命令

hdparm -Tt /dev/sda3测试读性能time dd if=/dev/mapper/centos-home bs=1024 count=1000000 of=/10Gb.file测试写性能

2021-07-13 14:31:21 325

原创 sparkstreaming + sparksql实现ETL操作

代码磨了半天做个记录(删了业务相关的代码):spark-2.4.0Oracle2ODPS例子:import aliyun.spark.test.odps2oracle.util.MessageMapperUtilOracle;import aliyun.spark.test.util.PropertiesUtil;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark

2021-06-28 19:41:41 518 1

原创 CDH版Jar包下载

<repositories> <repository> <id>cloudera.repos</id> <url>https://repository.cloudera.com/content/repositories/releases/ </url> <name>Cloudera Public Repositories</name> <.

2021-06-03 18:34:24 371

原创 Caused by: org.apache.kafka.common.errors.TimeoutException: Timeout expired after 60000milliseconds

org.apache.kafka.common.errors.TimeoutException: org.apache.kafka.common.errors.TimeoutException: Timeout expired after 60000milliseconds while awaiting InitProducerId今天kafka集群坏了一块硬盘,导致flink疯狂重启, 找到报错如下:org.apache.kafka.common.errors.TimeoutException: o

2021-05-17 18:41:47 7276

原创 A start job is running for /sysroot (3min 59s / 4min 31s)

A start job is running for /sysroot (3min 59s / 4min 31s)报错大概是这样, 原因是服务器内存爆了导致死机,ssh登无法连接,原因是文件系统io不一致,造成服务器无法正常启动,卡在这里。解决方法进入单用户模式时, 修改启动参数,让启动时候不要挂载系统盘xfs_repair -v -L /dev/dm-0 命令修复文件系统mount文件系统看看结果重启解决方法几句话,呆了一天的机房,请了运维部的人来搞都没弄好,差点重装系统~~ 关键时候

2021-05-11 23:47:13 3066

原创 MapReduce排序问题

排序是MapReduce的灵魂,MapReduce在Map和Reduce的两个阶段当中,都在反复地执行排序。在MapReduce中有两种排序方式,分别是快速排序和归并排序——快速排序:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。归并排序:归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and

2021-05-06 12:48:46 800 1

翻译 Hadoop多路径输入输出

需求描述当我们得意于 MapReduce 从一个数据输入目录,把数据经过程序处理之后输出到另一个目录时。可能你正在错过一些更好的方案,因为 MapReduce 是支持多路径的输入与输出的。比如,你一个项目中的多个 Job 产生了多个输出路径,后面又需要另一个 Job 去处理这些不路径下的数据。你要怎么办?暂停程序后,手动处理?设计思路写了这么多的 MapReudce 的程序,我想你一定已经了解了 MapReduce 是如何将输入的数据加载到程序中进行计算的了。一般情况下,我们是通过 FileInp

2021-05-06 02:29:11 467

原创 hadoop异常:java.io.EOFException

at java.io.DataInputStream.readFully(DataInputStream.java:197)解决方法:序列文件的问题,最后结尾的时候没有关闭write(),导致生成的序列文件有问题其实不是这个原因, 根本原因是mapper输出的数据没有序列化。是否使用了TEXT, 改成其它的bean,序列化一下就好了...

2021-05-05 03:17:52 640

原创 Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.Lon

Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable今天在写MapReduce时遇到了这个问题,这个问题的解释是:来自map的键类型不匹配:expected org.apache.hadoop.io文本,收到org.apache.hadoop.io.LongWritable,也就是说从map到reduce的输出格式装换错误,或者没有定义,即使

2021-04-29 23:59:49 3063

原创 mapreduce原理

2021-04-21 16:31:42 76

原创 flink源码编译

GitHub拉取flink源码,版本1.12.0省略。。。配置maven镜像以及node镜像,不然会很慢或者报无法下载,报错<mirror> <id>huaweicloud</id> <mirrorOf>*</mirrorOf> <url>https://mirrors.huaweicloud.com/repository/maven/</url></mirror>Node.

2021-03-29 00:33:59 958

原创 记录Flink那些经典线上问题

这些问题大部分都遇到过, 记录一下。数据倾斜导致子任务积压业务背景一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。问题描述给 24个 TaskManager(CPU) 都会出现来不及消费的情况问题原因做窗口聚合的任务的分组字段,分组粒度太小,hash不能打散,数据倾斜严重,导致少数 TaskManager 上压力过大,从而影响落E

2021-03-19 16:32:31 521 1

原创 分区索引状态

N/A说明这个分区索引需要查user_ind_partitions或者user_ind_subpartitions(注意子分区的情况)来确定每个分区是否用; VAILD   说明这个索引可用; UNUSABLE说明这个索引不可用; USABLE  说明这个索引的分区是可用的。有可能失效的情况:1) move tablespace xxxxxxx;2)truncate partition3)drop partitionalter index

2021-01-20 11:35:59 721

原创 idea maven 离线

问题:idea在内网使用无法导入jar包解决:setting->Maven 打勾 Work offline使用脚本删除仓库中_remote文件修改setting.xml文件配置点击Invalidate Caches / Restart

2021-01-19 13:41:53 477

原创 误删redo.log文件解决

当redo丢失时使用_allow_resetlogs_corruption=true打开数据库

2021-01-13 13:07:39 426

原创 oracle使用 SHRINK方法缩小临时表空间和临时文件

查看col name for a44select file#,name,bytes/1024/1024 MB from v$tempfile;select * from dba_temp_free_space;使用临时表空间的SHRINK方法缩小临时表空间的大小alter tablespace temp shrink space;select file#,name,bytes/1024/1024 MB from v$tempfile;收缩表空间中具体的临时文件模拟临时文件大.

2021-01-12 15:02:45 1126

原创 linux压缩命令

tar zcf 目标文件 源文件例子: tar zcf a.dump.zip a.dump

2021-01-11 16:10:53 96

原创 监控Oracle数据泵状态

监控操作系统进程ps -ef |grep expdpps -ef |grep impdp查看日志文件注意如果查看的是import日志记得加feedback=1000 参数, 这样使其每insert 1000行才显示tail -f expdp.log查看相关视图DBA_DATAPUMP_JOBS: 该视图显示所有的数据泵任务和它们的状态USER_DATAPUMP_JOBS:查看当前用户的数据泵任务和它们的状态DBA_DATAPUMP_SESSIONS这里可以根据SADD.

2020-12-21 15:14:08 561

原创 docker更换安装目录

docker安装在根目录,遇到把根目录空间占满的情况, 现在采用将docker文件移动到其它磁盘大的空间.mv /var/lib/docker /home生成软链接,具体用法是:ln -s 源文件 目标文件。当我们需要在不同的目录,用到相同的文件时,我们不需要在每一个需要的目录下都放一个必须相同的文件,我们只要在其它的 目录下用ln命令链接(link)就可以,不必重复的占用磁盘空间。例如:ln -s /var/lib/docker /home/docker...

2020-12-17 20:10:46 787

原创 mysqldump导出脚本

#! /bin/bash#mysql varsHOST=POST=USER=PASSWORD=DATABASE=MODE=input_flag=truewhile $input_flagdo read -r -p "请输入导出的数据,all[a], create[c] 或 data[d] " input case $input in [aA][lL][lL]|[aA])

2020-11-28 15:55:46 215

原创 spark笔记

序列化driver executorbypartition 按分区传输数据flatmap拆成一个个当内存较大时建议使用mapPartion(),提供效率, 减少网开销glom 将一个分区的数据放到一个数组中(场景:每个分区取最大值)groupby算子,根据结果分组filter根据规则分组spark中所有的转换算子没有shuffle的算子,性能比较快初始值shuffle 宽依赖只要有shuffle存在,只有在parentRDD处理完成后,才开始接下来的计算宽依赖是划分stage的依据

2020-11-20 00:50:26 133

原创 查看Linux发行版本

cat /etc/redhat-release

2020-11-16 14:20:52 84

原创 impdp和expdp

sqlplus / as sysdbaCREATE TABLESPACE XX_TEST DATAFILE ‘/sgb/test/xxd.dbf’ SIZE 10G;create user XX identified by XX default tablespace XX_TEST;grant connect,resource to XX;create directory xx_dir as ‘/sgb/test1/’;select * from dba_directories;grant re

2020-11-12 13:57:42 56

原创 docker安装kafka和简单命令使用

安装zookeeperdocker run -d --name zookeeper -p 2181:2181 -v /etc/localtime:/etc/localtime wurstmeister/zookeeper安装kafkadocker run -d --name kafka -p 9092:9092 -e KAFKA_BROKER_ID=0 -e KAFKA_ZOOKEEPER_CONNECT=192.168.255.130:2181 -e KAFKA_ADVERTISED_L.

2020-11-10 20:20:07 365

原创 oracle创建表空间、用户、授权

–创建表空间:create tablespace 表空间名datafile ‘D:\oradata\orcl\表空间名.dbf’size 100m --表空间大小autoextend on next 10M maxsize 1024M; --自动增长–创建用户:create user 用户名 identified by 密码default tablespace 默认表空间;–授权:grant connect,resource,dba to 用户名...

2020-11-10 19:32:20 80

flink clickhouse sink

flink clickhouse sink

2022-02-07

readTFile.jar

解析yarn的Tfile格式日志, java -jar jar包名 文件名(放服务器目录上)

2021-11-13

xxd-YarnLogFileRead.jar

解析yarn的Ifile格式日志, java -jar jar包名 文件名(放服务器目录上)

2021-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除