cuichunchi-CSDN博客

原创 flink to starrocks 问题集锦....

报如图所示：提示所示：超出内存限制，生产上不知道BE设置了多少。

2023-07-26 10:16:33 1024

原创 kali 安装无线网卡路程

输入上述命令之后，在执行 sudo apt-get update 和 sudo apt-get upgrade 就不会有问题了。apt upgrade && apt-get dist-upgrade 升级系统相关依赖。解决安装头文件问题，更新完内核，reboot重启，选择以及安装头文件的内核即可。apt upgrade 命令将尝试下载在apt服务器上具有更新的所有软件包。2、添加gpg，不然添加签名会报找不到有效的OpenPGP数据。安装aptitude来管理包，强烈推荐，不然很痛苦。

2023-07-06 15:58:35 537

原创 Better Explained 以通俗易懂的语言阐释数学

Finally understand math, don't memorize it.

2023-06-08 18:05:58 162

原创尝试 python flink jupyter

python flink

2023-05-26 11:50:14 203

原创 flink1.13.2 代码编译

执行命令：使用spotless来格式化代码。在编译或提交之前，请运行。执行：mvn clean install -DskipTests。

2023-05-20 22:32:41 124

原创由于hadoop高可用状态切换，导致hive在指定数据库下建立以及读取表失败

问题描述：因为cdh集群，hadoop启用了HA高可用，之前node1节点为active，现在变成了node2节点为standby。而且之前hive建库的时候，LOCATION=hdfs://node1:8020/user/warehouse/dir.....定位：由于配置文件hive-site.xml、core-site.xml、hdfs-site.xml等有关配置文件都替换了最新，都是配置了hdfs://高可用地址/导致库里面的表默认都是获取DB的location来拼接的表的hdfs路径。

2023-03-14 18:30:40 538

原创 flink 实时维表关联方案

实时维表关联

2023-03-03 15:40:12 225

原创 Flink 解析kafka avro格式

flink 对接kafka avro

2022-11-04 16:02:28 755 1

原创编译Iceberg源码以及检出分支并编译

构建iceberg源码

2022-08-09 09:24:52 886

原创 Flink中allowedLateness介绍与测试

默认情况下，当watermark通过end-of-window之后，再有之前的数据到达时，这些数据会被删除。为了避免有些迟到的数据被删除，因此产生了allowedLateness的概念。简单来讲，allowedLateness就是针对event time而言，对于watermark超过end-of-window之后，还允许有一段时间（也是以event time来衡量）来等待之前的数据到达，以便再次处理这些数据默认情况下，如果不指定allowedLateness，其值是0，即对于watermark

2022-02-24 19:20:33 1296

原创 Flink watermark 测试

代码如下：package com.cuichunchi.watermark;import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.flink.api.common.functions.MapFunction;import org.apac

2022-02-23 23:30:59 722

原创 Flink Sort-shuffle简介

Flink Sort-Shuffle 实现简介sort-shuffle 使得 Flink 在应对大规模批数据处理任务时更加游刃有余。https://mp.weixin.qq.com/s?__biz=MzU3Mzg4OTMyNQ==&mid=2247494455&idx=1&sn=7de90d250794ea095847d82d02b8dc30&chksm=fd386575ca4fec634aae8b3d8567c60e3b9ab95d7c1d492c07a63bed0fc9e

2022-02-23 15:40:53 429

原创 Tez调优参数总结

hive.tez.auto.reducer.parallelism=falsehive.tez.bucket.pruning=falsehive.tez.bucket.pruning.compat=truehive.tez.container.max.java.heap.fraction=0.8hive.tez.container.size=768hive.tez.cpu.vcores=-1hive.tez.dynamic.partition.pruning=truehive.tez.dyn.

2022-02-17 12:54:07 3344

原创 Hive调优参数总结

MR程序优化参数1、客户端显示以及job任务名和优先级##打印表头set hive.cli.print.header=true;set hive.cli.print.row.to.vertical=true;set hive.cli.print.row.to.vertical.num=1;##显示当前数据库set hive.cli.print.current.db=true;##job任务名set mapreduce.job.name=p_${v_date};##job优先级se.

2022-02-17 12:53:29 1498

原创 Flink CDC 问题以及测试记录（持续更新...）

问题及测试集锦1、flink cdc 的 api兼容的ddl的结构变更吗？2、cdc 比如增量消费然后 kill任务再恢复？3、mysql cdc 设置了检查点，sink到kafka，重启作业，为啥全量的数据还是会重新发送到kafka

2022-01-13 18:52:09 1599

原创 Kafka 问题以及调优参数集锦

producer类参数：1、request.timeout.ms:配置控制客户端等待请求响应的最长时间。如果在超时时间过去之前未收到响应，则客户端将在必要时重新发送请求，或者在重试次数用尽时使请求失败。默认值：30000ms。注：该参数适合集群资源不高，带宽较低、且生产者频繁发送消息到topic。超时可能报以下错误信息，我在压测过程中发现的错误信息，并改为了60s，集群3台带宽4M（理想吞吐512KB/s）.Expiring 7 record(s) for test_producer-0: 60

2022-01-05 22:03:46 542

原创 kafka压测多维度分析实战

设置虚拟机不同的带宽来进行模拟压测---------kafka数据压测-------------------1、公司生产kafka集群硬盘：单台500G、共3台、日志保留7天。 1.1 版本：1.1.0-----2、压测kafka。 2.1 使用kafka自带压测工具：bin/kafka-producer-perf-test.sh 命令参数解释： --num-records ：总共发送多少条消息。...

2021-12-31 00:27:04 1012

原创基于Flink 1.13.2问题集锦

问题：1、使用flink mysql cdc 发现bigint unsigned类型的字段，capture以后转成了字符串类型，用的这个解析吧JsonDebeziumDeserializationSchema。解决：在设置debeziumProperties方法里传入以下参数：properties.setProperty("bigint.unsigned.handling.mode","long");properties.setProperty("decimal.handling.mode"

2021-12-14 14:12:03 2544

原创 Flink 1.13 一些配置参数记录

持续更新...网络通信： akka.ask.timeout：用于异步futures和阻塞调用Akka的超时，如果flink因为超时而失败，则可以尝试增加此值，超时可能是由于机器速度慢或网络拥挤造成的。超时值需要时间单位说明符（ms/s/min/h/d）。源码默认值：10s。所属源码类：AkkaOptions。 akka.tcp.timeout：用于和taskManager之间的通信，如果由于网络速度较慢而在连接TaskManager时遇到问题，则应增加此值。默认值：20s。源码类：A

2021-12-12 17:35:20 3754

原创 hive 添加字段，字段值错位问题

hive中在表结构中添加字段，并将字段指定到于业务库相对的位置：alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply add columns (storage_id bigint comment '仓库id') cascade; alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply change storage_id storage_id bigi...

2021-11-02 18:03:09 2370 1

原创 apache griffin安装编译及使用

1、编译报如下错：表示是没有这个kafka-schema-registry-client的jar包，从仓库中找不到。解决：从https://mvnrepository.com/artifact/io.confluent/kafka-schema-registry-client/3.2.0这个地址获取对应的版本或者直接从https://packages.confluent.io/maven/io/confluent/kafka-schema-registry-client/3.2.0/下载

2021-05-14 16:35:18 274

原创 centos7 安装node、npm[亲测有效]

centos7 安装node、npm进入官网https://nodejs.org/en/download/或者直接在liunx执行命令：wget https://nodejs.org/dist/v14.17.0/node-v14.17.0-linux-x64.tar.gztar -zxvf node-v14.17.0-linux-x64.tar.gz然后创建软件链接：ln -s /home/node-v14/bin/node /usr/local/binln -s /home/node-v1

2021-05-14 15:43:42 975

原创 spark sql 多个where条件导致任务失败

spark sql单条查询select * from aa where`逾期总金额` is not null or `累计逾期次数` is not null or `卡系统放款日期` is not null or `机构名` is not null or `账户状态` is not null or `透支息` is not null or `R系统流水号` is not null or `分期余额` is not null or `R系统产品码` is not null or `所属地区` is..

2021-03-09 20:47:00 815 2

原创 2021-03-09

爬百度文库内容：var str ="";var size = document.getElementsByClassName("reader-word-layer").length;for(var i =0 ; i< size ; i++){ str += document.getElementsByClassName("reader-word-layer")[i].innerHTML}console.info(str)

2021-03-09 15:10:49 52

原创 spark sql的dataframe的动态传列名

第一：针对sparksql 的dataframe的动态自定义列名的解决方案正常写法：因为def toDF(colNames : _root_.scala.Predef.String*) : org.apache.spark.sql.DataFrame = { /* compiled code */ }所以如果作为入参传入，则解决方式以下：第二：调用select函数动态传入：正常写法：解决方案：...

2021-02-22 15:06:37 780 1

原创 Hadoop大数据Reduce阶段源码个人分析以及配置讲解

再次看hadoop源码收集每一步使用到的参数用于后期调优官网地址：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xmlhttps://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xmlhttps://hadoop.apache.org/docs/stable/had

2020-12-07 14:29:48 261

原创 hadoop中mapreduce源码个人记录

以下主要分析记录map阶段：org.apache.hadoop.mapred.MapTask$MapOutputBufferpublic static class MapOutputBuffer<K extends Object, V extends Object> implements MapOutputCollector<K, V>, IndexedSortable{//省略...public void init(MapOutputCollector.Co

2020-11-24 20:55:52 137

原创 hadoop中mapreduce的内存环形缓冲区个人讲解

map阶段的内存环形缓冲区相关参数配置：mapreduce.task.io.sort.mb:排序文件时需要使用的缓冲内存总量，默认100mapreduce.map.sort.spill.percent：阈值，当内存达到80%的io.sort.mb，则写入到文件。以下是个人图解，后期概念在补齐：...

2020-11-23 20:17:21 1251

原创 Hive中支持正则表达式根据需求输出指定的列

本人采用hive-1.1版本表中的数据以及列名如下：日常工作中我们需要用到两种方式：第一种：过滤调不需要的列名如下：SELECT `(id|100name)?+.+` from st;不需要id和100name的列名第二种：需要某些有相似性的列名如下：SELECT `.+name` from st;需要以name为后缀的所有列名...

2020-11-23 16:20:42 1853 2

原创 YARN 各个阶段配置参数总结，方便查找优化

YARN配置参数介绍通信地址类参数：参数名称默认值说明 Yarn.resourcemanager.address 0.0.0.0:8032 RM对外的IPC地址 Yarn.resourcemanager.scheduler.address 0.0.0.0:8030 调度器对外的IPC地址 Yarn.r

2020-11-18 20:30:07 1126

原创 sqoop支持Hcatalog使用hcatalog参数后问题集锦

官网：http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_purpose_4问题描述：sqoop1.4.6hadoop2.7.3hive-2.1.1本人编写的sqoop脚本如下：参数解释：--hcatalog-database指定HCatalog表的数据库名称。如果未指定，default则使用默认数据库名称。提供--hcatalog-database不带选项--hcatalog-table是错误的。这不是必需的.

2020-11-18 14:15:31 7967 6

原创分享企业级HIVE数仓规范文档----对管理数仓很有帮助

数据仓库实施方案文件编号：V0.1 生效日期：编制人：审核人：批准人：日期：2019.08.29 日期：日期：关键词数据仓库数据模型一、前言1.1.编写目的为了保证大数据平台整体可控性，实现脉络清晰的管理，提高开发效率和程序的可读性，降低程序编写...

2020-11-08 14:34:57 327

原创 Lua脚本介绍以及编辑器的介绍

编辑器软件LuaStudio一：Lua脚本说来也巧，redis的大老板给了你解决这种问题的方法，那就是Lua脚本，而且redis的最新版本也支持Lua Script debug，这应该也是未来Redis的一个发展趋势，要想学好Redis，必会Lua Script。。。作为一门过程型动态语言，Lua有着如下的特性1、变量名m没有类型，值才有类型，变量名在运行时可与...

2020-11-08 14:17:04 5027

原创 CDH5.12.1集成TEZ-0.9.1

经过较长时间的痛苦编译过程中以及找了很多博客尝试，以下博客，本人尝试可用CDH集成Tez本人CDH5.12.1版本 hadoop版本是2.6.0以下是本人编译过后的tez包，高版本的CDH可用上面的链接完成编译，过程较为痛苦漫长。https://download.csdn.net/download/cuichunchi/13061602同版本的小伙伴可以拿来直接使用，安装上面的文章配置即可...

2020-10-27 17:54:23 158

原创 Hive on tez 运行报错集锦

执行 hive：直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersionCDH集群安装组件都ok，在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中，打开客户端命令：执行 hive：直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion解决方案：因为CDH的hive-site.xml配置文件中没

2020-10-26 15:32:24 1902

原创 Hive 动态分区插入数据总结

Hive 动态分区插入数据总结1、问题描述执行以下sql导致reduce端OOM，分区数有485个按天分区，数据主要是存量数据一次性导入数仓中遇到的问题。服务器：8核12G内存Map内存参数值：mapreduce.map.memory.mb=1024mapreduce.map.java.opts=-Xmx768m-XX:+UseConcMarkSweepGC;Reduce内存参数值：mapreduce.reduce.memory.mb=2048mapreduce.re.

2020-09-23 15:16:49 898

原创 Hive、Tez、Yarn资源问题总结以及优化参数

Hive、Tez、Yarn资源问题总结以及优化参数问题解决Hadoop版本：2.7.3Hive版本： 2.1.1Tez版本： 0.9.1问题描述：Hive集成Tez后，配置默认选择的执行引擎为tez，如下hive-site.xml配置截图。在服务器上直接执行hive命令，可以正常进入hive客户端，执行 set hive.execution.engine;当set hive.execution.engine=mr;以mr作为执行引擎时，执行一些聚合，统计类的..

2020-09-17 20:22:39 1260

原创 Hive的执行引擎Tez、spark出现的问题

Hive on Tez中，切换成mr引擎出现以下问题：hadoop版本为2.7.3tez版本为0.9.1因为tez安装目录中应该有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar，hadoop中也有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar，确认他们的版本是否相同，如果不同，会有这个问题；解决：将tez低版本的jar替换成2.7

2020-09-15 22:56:02 1679

原创 Sqoop导入hive中null字符串处理为NULL

如图所示图中的null为字符串null，当使用查询工具，转为json时候全是字符串null。图为我的导出脚本，已经添加了导出设置null参数：--null-string,--null-non-string，但是测验中，还是不行，后来查询了官网对hive的null的描述：发现需要在表级设置’serialization.null.format’参数。alter table ${table_name} SET SERDEPROPERTIES('serialization.null.fo

2020-08-26 20:47:30 1695

原创 Hive集成Tez引擎跑任务出现的问题

问题1：Hive集成Tez引擎跑任务出现异常：TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1597977573448_0002_1_16_000000_3:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space看yarn 的job平台是success的，所以想到Tez的内存设置问题，因为Tez引擎是

2020-08-21 11:23:39 4201

apache-tez-0.9.1.zip编译后的CDH5.12.1

bigdata资料.rar

bootstrap实现拖拽功能

黑暗之魂游戏攻略

毕业论文管理系统

64位Win7安装32位Oracl10g的步骤

dom4j-1.6.1.jar

空空如也