自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 资源 (7)
  • 收藏
  • 关注

原创 flink to starrocks 问题集锦....

报如图所示:提示所示:超出内存限制,生产上不知道BE设置了多少。

2023-07-26 10:16:33 1024

原创 kali 安装无线网卡路程

输入上述命令之后,在执行 sudo apt-get update 和 sudo apt-get upgrade 就不会有问题了。apt upgrade && apt-get dist-upgrade 升级系统相关依赖。解决安装头文件问题,更新完内核,reboot重启,选择以及安装头文件的内核即可。apt upgrade 命令将尝试下载在apt服务器上具有更新的所有软件包。2、添加gpg,不然添加签名会报找不到有效的OpenPGP数据。安装aptitude来管理包,强烈推荐,不然很痛苦。

2023-07-06 15:58:35 537

原创 Better Explained 以通俗易懂的语言阐释数学

Finally understand math, don't memorize it.

2023-06-08 18:05:58 162

原创 尝试 python flink jupyter

python flink

2023-05-26 11:50:14 203

原创 flink1.13.2 代码编译

执行命令:使用spotless来格式化代码。在编译或提交之前,请运行。执行:mvn clean install -DskipTests。

2023-05-20 22:32:41 124

原创 由于hadoop高可用状态切换,导致hive在指定数据库下建立以及读取表失败

问题描述:因为cdh集群,hadoop启用了HA高可用,之前node1节点为active,现在变成了node2节点为standby。而且之前hive建库的时候,LOCATION=hdfs://node1:8020/user/warehouse/dir.....定位:由于配置文件hive-site.xml、core-site.xml、hdfs-site.xml等有关配置文件都替换了最新,都是配置了hdfs://高可用地址/导致库里面的表默认都是获取DB的location来拼接的表的hdfs路径。

2023-03-14 18:30:40 538

原创 flink 实时维表关联方案

实时维表关联

2023-03-03 15:40:12 225

原创 Flink 解析kafka avro格式

flink 对接kafka avro

2022-11-04 16:02:28 755 1

原创 编译Iceberg源码以及检出分支并编译

构建iceberg源码

2022-08-09 09:24:52 886

原创 Flink中allowedLateness介绍与测试

默认情况下,当watermark通过end-of-window之后,再有之前的数据到达时,这些数据会被删除。为了避免有些迟到的数据被删除,因此产生了allowedLateness的概念。简单来讲,allowedLateness就是针对event time而言,对于watermark超过end-of-window之后,还允许有一段时间(也是以event time来衡量)来等待之前的数据到达,以便再次处理这些数据默认情况下,如果不指定allowedLateness,其值是0,即对于watermark

2022-02-24 19:20:33 1296

原创 Flink watermark 测试

代码如下:package com.cuichunchi.watermark;import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.flink.api.common.functions.MapFunction;import org.apac

2022-02-23 23:30:59 722

原创 Flink Sort-shuffle简介

Flink Sort-Shuffle 实现简介sort-shuffle 使得 Flink 在应对大规模批数据处理任务时更加游刃有余。https://mp.weixin.qq.com/s?__biz=MzU3Mzg4OTMyNQ==&mid=2247494455&idx=1&sn=7de90d250794ea095847d82d02b8dc30&chksm=fd386575ca4fec634aae8b3d8567c60e3b9ab95d7c1d492c07a63bed0fc9e

2022-02-23 15:40:53 429

原创 Tez调优参数总结

hive.tez.auto.reducer.parallelism=falsehive.tez.bucket.pruning=falsehive.tez.bucket.pruning.compat=truehive.tez.container.max.java.heap.fraction=0.8hive.tez.container.size=768hive.tez.cpu.vcores=-1hive.tez.dynamic.partition.pruning=truehive.tez.dyn.

2022-02-17 12:54:07 3344

原创 Hive调优参数总结

MR程序 优化参数1、客户端显示以及job任务名和优先级##打印表头set hive.cli.print.header=true;set hive.cli.print.row.to.vertical=true;set hive.cli.print.row.to.vertical.num=1;##显示当前数据库set hive.cli.print.current.db=true;##job任务名set mapreduce.job.name=p_${v_date};##job优先级se.

2022-02-17 12:53:29 1498

原创 Flink CDC 问题以及测试记录(持续更新...)

问题及测试集锦1、flink cdc 的 api兼容的ddl的结构变更吗?2、cdc 比如增量消费 然后 kill任务 再恢复?3、mysql cdc 设置了检查点,sink到kafka,重启作业,为啥全量的数据还是会重新发送到kafka

2022-01-13 18:52:09 1599

原创 Kafka 问题以及调优参数集锦

producer类参数:1、request.timeout.ms:配置控制客户端等待请求响应的最长时间。如果在超时时间过去之前未收到响应,则客户端将在必要时重新发送请求,或者在重试次数用尽时使请求失败。默认值:30000ms。注:该参数适合集群资源不高,带宽较低、且生产者频繁发送消息到topic。超时可能报以下错误信息,我在压测过程中发现的错误信息,并改为了60s,集群3台带宽4M(理想吞吐512KB/s).Expiring 7 record(s) for test_producer-0: 60

2022-01-05 22:03:46 542

原创 kafka压测多维度分析实战

设置虚拟机不同的带宽来进行模拟压测---------kafka数据压测-------------------1、公司生产kafka集群硬盘:单台500G、共3台、日志保留7天。 1.1 版本:1.1.0-----2、压测kafka。 2.1 使用kafka自带压测工具:bin/kafka-producer-perf-test.sh 命令参数解释: --num-records :总共发送多少条消息。...

2021-12-31 00:27:04 1012

原创 基于Flink 1.13.2问题集锦

问题:1、使用flink mysql cdc 发现bigint unsigned类型的字段,capture以后转成了字符串类型,用的这个解析吧JsonDebeziumDeserializationSchema。解决:在设置debeziumProperties方法里传入以下参数:properties.setProperty("bigint.unsigned.handling.mode","long");properties.setProperty("decimal.handling.mode"

2021-12-14 14:12:03 2544

原创 Flink 1.13 一些配置参数记录

持续更新...网络通信: akka.ask.timeout:用于异步futures和阻塞调用Akka的超时,如果flink因为超时而失败,则可以尝试增加此值,超时可能是由于机器速度慢或网络拥挤造成的。超时值需要时间单位说明符(ms/s/min/h/d)。源码默认值:10s。所属源码类:AkkaOptions。 akka.tcp.timeout:用于和taskManager之间的通信,如果由于网络速度较慢而在连接TaskManager时遇到问题,则应增加此值。默认值:20s。源码类:A

2021-12-12 17:35:20 3754

原创 hive 添加字段,字段值错位问题

hive中在表结构中添加字段,并将字段指定到于业务库相对的位置:alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply add columns (storage_id bigint comment '仓库id') cascade; alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply change storage_id storage_id bigi...

2021-11-02 18:03:09 2370 1

原创 apache griffin安装编译及使用

1、编译报如下错:表示是没有这个kafka-schema-registry-client的jar包,从仓库中找不到。解决:从https://mvnrepository.com/artifact/io.confluent/kafka-schema-registry-client/3.2.0这个地址获取对应的版本或者直接从https://packages.confluent.io/maven/io/confluent/kafka-schema-registry-client/3.2.0/下载

2021-05-14 16:35:18 274

原创 centos7 安装node、npm[亲测有效]

centos7 安装node、npm进入官网https://nodejs.org/en/download/或者直接在liunx执行命令:wget https://nodejs.org/dist/v14.17.0/node-v14.17.0-linux-x64.tar.gztar -zxvf node-v14.17.0-linux-x64.tar.gz然后创建软件链接:ln -s /home/node-v14/bin/node /usr/local/binln -s /home/node-v1

2021-05-14 15:43:42 975

原创 spark sql 多个where条件导致任务失败

spark sql单条查询select * from aa where`逾期总金额` is not null or `累计逾期次数` is not null or `卡系统放款日期` is not null or `机构名` is not null or `账户状态` is not null or `透支息` is not null or `R系统流水号` is not null or `分期余额` is not null or `R系统产品码` is not null or `所属地区` is..

2021-03-09 20:47:00 815 2

原创 2021-03-09

爬百度文库内容:var str ="";var size = document.getElementsByClassName("reader-word-layer").length;for(var i =0 ; i< size ; i++){ str += document.getElementsByClassName("reader-word-layer")[i].innerHTML}console.info(str)

2021-03-09 15:10:49 52

原创 spark sql的dataframe的动态传列名

第一:针对sparksql 的dataframe的动态自定义列名的解决方案正常写法:因为def toDF(colNames : _root_.scala.Predef.String*) : org.apache.spark.sql.DataFrame = { /* compiled code */ }所以如果作为入参传入,则解决方式以下:第二:调用select函数动态传入:正常写法:解决方案:...

2021-02-22 15:06:37 780 1

原创 Hadoop大数据Reduce阶段源码个人分析以及配置讲解

再次看hadoop源码收集每一步使用到的参数用于后期调优官网地址:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xmlhttps://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xmlhttps://hadoop.apache.org/docs/stable/had

2020-12-07 14:29:48 261

原创 hadoop中mapreduce源码个人记录

以下主要分析记录map阶段:org.apache.hadoop.mapred.MapTask$MapOutputBufferpublic static class MapOutputBuffer<K extends Object, V extends Object> implements MapOutputCollector<K, V>, IndexedSortable{//省略...public void init(MapOutputCollector.Co

2020-11-24 20:55:52 137

原创 hadoop中mapreduce的内存环形缓冲区个人讲解

map阶段的内存环形缓冲区相关参数配置:mapreduce.task.io.sort.mb:排序文件时需要使用的缓冲内存总量,默认100mapreduce.map.sort.spill.percent:阈值,当内存达到80%的io.sort.mb,则写入到文件。以下是个人图解,后期概念在补齐:...

2020-11-23 20:17:21 1251

原创 Hive中支持正则表达式根据需求输出指定的列

本人采用hive-1.1版本表中的数据以及列名如下:日常工作中我们需要用到两种方式:第一种:过滤调不需要的列名如下:SELECT `(id|100name)?+.+` from st;不需要id和100name的列名第二种:需要某些有相似性的列名如下:SELECT `.+name` from st;需要以name为后缀的所有列名...

2020-11-23 16:20:42 1853 2

原创 YARN 各个阶段配置参数总结,方便查找优化

YARN配置参数介绍通信地址类参数: 参数名称 默认值 说明 Yarn.resourcemanager.address 0.0.0.0:8032 RM对外的IPC地址 Yarn.resourcemanager.scheduler.address 0.0.0.0:8030 调度器对外的IPC地址 Yarn.r

2020-11-18 20:30:07 1126

原创 sqoop支持Hcatalog使用hcatalog参数后问题集锦

官网:http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_purpose_4问题描述:sqoop1.4.6hadoop2.7.3hive-2.1.1本人编写的sqoop脚本如下:参数解释:--hcatalog-database指定HCatalog表的数据库名称。如果未指定,default则使用默认数据库名称。提供--hcatalog-database不带选项--hcatalog-table是错误的。这不是必需的.

2020-11-18 14:15:31 7967 6

原创 分享企业级HIVE数仓规范文档----对管理数仓很有帮助

数据仓库实施方案 文件编号:V0.1 生效日期: 编制人: 审核人: 批准人: 日期:2019.08.29 日期: 日期: 关键词 数据仓库数据模型 一、前言1.1.编写目的为了保证大数据平台整体可控性,实现脉络清晰的管理,提高开发效率和程序的可读性,降低程序编写...

2020-11-08 14:34:57 327

原创 Lua脚本介绍以及编辑器的介绍

编辑器软件LuaStudio一:Lua脚本 说来也巧,redis的大老板给了你解决这种问题的方法,那就是Lua脚本,而且redis的最新版本也支持Lua Script debug,这应该也是未来Redis的一个发展趋势,要想学好Redis,必会Lua Script。。。作为一门过程型动态语言,Lua有着如下的特性1、变量名m没有类型,值才有类型,变量名在运行时可与...

2020-11-08 14:17:04 5027

原创 CDH5.12.1集成TEZ-0.9.1

经过较长时间的痛苦编译过程中以及找了很多博客尝试,以下博客,本人尝试可用CDH集成Tez本人CDH5.12.1版本 hadoop版本是2.6.0以下是本人编译过后的tez包,高版本的CDH可用上面的链接完成编译,过程较为痛苦漫长。https://download.csdn.net/download/cuichunchi/13061602同版本的小伙伴可以拿来直接使用,安装上面的文章配置即可...

2020-10-27 17:54:23 158

原创 Hive on tez 运行报错集锦

执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersionCDH集群安装组件都ok,在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中,打开客户端命令:执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion解决方案:因为CDH的hive-site.xml配置文件中没

2020-10-26 15:32:24 1902

原创 Hive 动态分区插入数据总结

Hive 动态分区插入数据总结1、问题描述执行以下sql导致reduce端OOM,分区数有485个按天分区,数据主要是存量数据一次性导入数仓中遇到的问题。服务器 :8核12G内存Map内存参数值:mapreduce.map.memory.mb=1024mapreduce.map.java.opts=-Xmx768m-XX:+UseConcMarkSweepGC;Reduce内存参数值:mapreduce.reduce.memory.mb=2048mapreduce.re.

2020-09-23 15:16:49 898

原创 Hive、Tez、Yarn资源问题总结以及优化参数

Hive、Tez、Yarn资源问题总结以及优化参数问题解决Hadoop版本:2.7.3Hive版本: 2.1.1Tez版本: 0.9.1问题描述:Hive集成Tez后,配置默认选择的执行引擎为tez,如下hive-site.xml配置截图。在服务器上直接执行hive命令,可以正常进入hive客户端,执行 set hive.execution.engine;当set hive.execution.engine=mr;以mr作为执行引擎时,执行一些聚合,统计类的..

2020-09-17 20:22:39 1260

原创 Hive的执行引擎Tez、spark出现的问题

Hive on Tez中,切换成mr引擎出现以下问题:hadoop版本为2.7.3tez版本为0.9.1因为tez安装目录中应该有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,hadoop中也有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,确认他们的版本是否相同,如果不同,会有这个问题;解决:将tez低版本的jar替换成2.7

2020-09-15 22:56:02 1679

原创 Sqoop导入hive中null字符串处理为NULL

如图所示图中的null为字符串null,当使用查询工具,转为json时候全是字符串null。图为我的导出脚本,已经添加了 导出设置null参数:--null-string,--null-non-string,但是测验中,还是不行,后来查询了官网对hive的null的描述:发现需要在表级设置’serialization.null.format’参数。alter table ${table_name} SET SERDEPROPERTIES('serialization.null.fo

2020-08-26 20:47:30 1695

原创 Hive集成Tez引擎跑任务出现的问题

问题1:Hive集成Tez引擎跑任务出现异常:TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1597977573448_0002_1_16_000000_3:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space看yarn 的job平台是success的,所以想到Tez的内存设置问题,因为Tez引擎是

2020-08-21 11:23:39 4201

apache-tez-0.9.1.zip编译后的CDH5.12.1

CDH5.12.1 hadoop版本2.6.0 可用,hive-1.1.0 tez-0.9.1,同版本的小伙伴可以直接使用,复制文件里面的tez-dist/target下的tez-0.9.1.tar.gz即可

2020-10-27

bigdata资料.rar

hadoop个人总结的笔记,从简入难,以及收集了各种hadoop的面试问题和一些mr的操作题,涉及比较广泛

2020-05-28

bootstrap实现拖拽功能

实现报文xml的互转,界面拖拽功能,更友好

2019-04-08

黑暗之魂游戏攻略

2017-01-13

毕业论文管理系统

2017-01-13

64位Win7安装32位Oracl10g的步骤

64位Win7安装32位Oracl10g的步骤

2015-05-04

dom4j-1.6.1.jar

dom4j-1.6.1.jar

2014-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除