东东的学习笔记666-CSDN博客

原创 HBase中常见的参数分类整理（版本为HBase 1.1.2)

－－－－－－－－－－－－－－－－－－Region－－－－－－－－－－－－－－－－－－－hbase.hregion.max.filesize：默认10G，简单理解为Region中任意HStore所有文件大小总和大于该值就会进行分裂。解读：实际生产环境中该值不建议太大，也不能太小。太大会导致系统后台执行compaction消耗大量系统资源，一定程度上影响业务响应；太小会导致Region分裂比较频繁（分裂本身其实对业务读写会有一定影响），另外单个RegionServer中必然存在大量Region，太多Regi

2022-03-30 09:19:43 547 2

原创 flink exactly once和at least once的理解

exactly once VS at least once其实就是对非对齐barrier的理解。exactly once: 当程序恢复时，下游的算子已经出现过的状态不会再出现一次，而是继续往下消费，出现新的状态。at least once：当程序恢复时，下游的算子的某个分区，由于barrier早到了，导致会继续往下消费数据。上游source的偏移量在ck时就记录了，假设为a1, 当某个分区barrier先到达时，下游算子状态为b1（注意，它对应的偏移量是a1），但是由于要继续消费数据， .

2022-03-09 15:49:04 2523 2

原创 flinksql client使用

sql-client.sh embedded -d ~/sql-client-defaults.yamlcreate table test0311( a0 VARCHAR, a1 VARCHAR, a2 VARCHAR, a3 VARCHAR, a4 VARCHAR, a5 VARCHAR, a6 VARCHAR, a7 VARCHAR, a8 VARCHAR, a9 VARCHAR, a10 VARCHAR, a11 VARCHAR, a

2022-03-02 10:07:05 429

原创 flink常见报错

rescaling from unaligned checkpoint is not yet supportedflink1.12不支持非对齐检查点恢复

2022-02-08 14:39:03 801

原创 flink的slot和线程关系

以前误认为一个slot一个线程，这是错误的，正确的如下：Flink中slot数量代表了所有最高能支持的subtask数量。也就是整个任务的最高并发度，但是并不代表一个线程的概念，内部也是可以启动很多线程的。...

2022-01-07 08:48:31 1990

原创导入mysql常用脚本

替换文本中的\n字符串并批量source#! /bin/bashfor line in $(<tables)do table=${line,,} echo "开始导入"${table} cat ./table/${table} |grep -o "CREATE TABLE.*" > ./table_new/${table} sed -i "s/\\\n//g" ./table_new/${table} ec.

2021-11-28 19:17:30 465

原创优化tez引擎-资源限制

1. 参数set tez.am.resource.memory.mb=4096; // 与yarn.scheduler.minimum-allocate-mb YARN最小容器大小相同set tez.runtime.io.sort.mb=1638; // hive.tez.container.size的40%set hive.auto.con

2021-11-08 16:36:48 4334

原创 HDP聚合日志解析内容-ifile和tfile

解析hdfs上的聚合日志，共4个类，打包后上传到服务器，将hdfs上的日志文件下载到本地，使用命令java -jar 包名日志路径名效果图：代码：package YarnLogFileReader;import org.apache.commons.lang3.SerializationUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;im

2021-11-08 00:46:44 1862

原创 Docker一键搭建HDP3.0.1

下载镜像， 26G大小。docker pull hortonworks/sandbox-hdp:3.0.1docker pull hortonworks/sandbox-proxy:1.0-下载安装脚本git clone https://github.com/dounine/sandbox-hdp-3.0.1.git添加host映射vi /etc/hosts# 加入如下127.0.0.1 sandbox-hdp.hortonworks.com启动./docker-dep.

2021-10-31 03:18:43 1388

原创自制Flink Parcel集成CDH（Flink1.12.0 + CDH6.3.2）

记录制作flink parcel环境（虚拟机，系统CentOS7.6）（1）jdk1.8（2）maven3.6.1（3）parcel制作工具1.jdk1.8下载jdk1.8版本并上传到虚拟机的指定目录下，我的目录是/app解压jdk到当前目录tar -zxvf /app/jdk-8u151-linux-x64.tar.gz -C .重命名mv jdk1.8.0_151/ jdk配置系统环境变量vim /etc/profile在最后添加：export JAVA_HOME=/ap

2021-10-06 01:46:00 1012 3

原创阿里云Maven仓库完整版

阿里云Maven仓库完整版<?xml version="1.0" encoding="UTF-8"?><!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copy

2021-10-02 10:46:10 1899 1

原创 Hbase笔记

旧hbase架构HMasterZookeeperregionserverhregion读数据流程写数据流程Hlog

2021-08-29 01:27:21 112

原创 spark streaming限制吞吐

使用spark.streaming.receiver.maxRate这个属性限制每秒的最大吞吐。官方文档如下：Maximum rate (number of records per second) at which each receiver will receive data. Effectively, each stream will consume at mostthis number of records per second. Settingthis configuration to0 or

2021-08-05 19:27:07 259

原创服务器磁盘检测命令

hdparm -Tt /dev/sda3测试读性能time dd if=/dev/mapper/centos-home bs=1024 count=1000000 of=/10Gb.file测试写性能

2021-07-13 14:31:21 325

原创 sparkstreaming + sparksql实现ETL操作

代码磨了半天做个记录（删了业务相关的代码）：spark-2.4.0Oracle2ODPS例子：import aliyun.spark.test.odps2oracle.util.MessageMapperUtilOracle;import aliyun.spark.test.util.PropertiesUtil;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark

2021-06-28 19:41:41 518 1

原创 CDH版Jar包下载

<repositories> <repository> <id>cloudera.repos</id> <url>https://repository.cloudera.com/content/repositories/releases/ </url> <name>Cloudera Public Repositories</name> <.

2021-06-03 18:34:24 371

原创 Caused by: org.apache.kafka.common.errors.TimeoutException: Timeout expired after 60000milliseconds

org.apache.kafka.common.errors.TimeoutException: org.apache.kafka.common.errors.TimeoutException: Timeout expired after 60000milliseconds while awaiting InitProducerId今天kafka集群坏了一块硬盘，导致flink疯狂重启，找到报错如下:org.apache.kafka.common.errors.TimeoutException: o

2021-05-17 18:41:47 7276

原创 A start job is running for /sysroot (3min 59s / 4min 31s)

A start job is running for /sysroot (3min 59s / 4min 31s)报错大概是这样，原因是服务器内存爆了导致死机，ssh登无法连接，原因是文件系统io不一致，造成服务器无法正常启动，卡在这里。解决方法进入单用户模式时，修改启动参数，让启动时候不要挂载系统盘xfs_repair -v -L /dev/dm-0 命令修复文件系统mount文件系统看看结果重启解决方法几句话，呆了一天的机房，请了运维部的人来搞都没弄好，差点重装系统~~ 关键时候

2021-05-11 23:47:13 3066

原创 MapReduce排序问题

排序是MapReduce的灵魂，MapReduce在Map和Reduce的两个阶段当中，都在反复地执行排序。在MapReduce中有两种排序方式，分别是快速排序和归并排序——快速排序：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。归并排序：归并排序（MERGE-SORT）是建立在归并操作上的一种有效的排序算法，该算法是采用分治法（Divide and

2021-05-06 12:48:46 800 1

翻译 Hadoop多路径输入输出

需求描述当我们得意于 MapReduce 从一个数据输入目录，把数据经过程序处理之后输出到另一个目录时。可能你正在错过一些更好的方案，因为 MapReduce 是支持多路径的输入与输出的。比如，你一个项目中的多个 Job 产生了多个输出路径，后面又需要另一个 Job 去处理这些不路径下的数据。你要怎么办？暂停程序后，手动处理？设计思路写了这么多的 MapReudce 的程序，我想你一定已经了解了 MapReduce 是如何将输入的数据加载到程序中进行计算的了。一般情况下，我们是通过 FileInp

2021-05-06 02:29:11 467

原创 hadoop异常：java.io.EOFException

at java.io.DataInputStream.readFully(DataInputStream.java:197)解决方法：序列文件的问题,最后结尾的时候没有关闭write（），导致生成的序列文件有问题其实不是这个原因，根本原因是mapper输出的数据没有序列化。是否使用了TEXT, 改成其它的bean，序列化一下就好了...

2021-05-05 03:17:52 640

原创 Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.Lon

Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable今天在写MapReduce时遇到了这个问题，这个问题的解释是：来自map的键类型不匹配:expected org.apache.hadoop.io文本,收到org.apache.hadoop.io.LongWritable，也就是说从map到reduce的输出格式装换错误，或者没有定义，即使

2021-04-29 23:59:49 3063

flink clickhouse sink

readTFile.jar

xxd-YarnLogFileRead.jar

空空如也