自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(161)
  • 资源 (30)
  • 收藏
  • 关注

原创 数据开发流程图

分析:原有业务采集混乱,不受调度管理监控,数据不存储不统一,需要频繁转换。背景:公司处于数仓开发的起步阶段,需要构建一个数据开发的流程。行动:改造原有业务,数据开发流程图如下。结果:统一了数据采集方式和数据入仓方式。

2024-03-02 13:52:20 1115

原创 关于allatori代码混淆技术的一次实践

allatori官方网站:https://allatori.com/proguard官网: https://www.guardsquare.com/proguard.

2023-10-13 14:38:48 1224 1

原创 关于业务库从MySQL迁移到DM8的操作指南

序号问题原因解决方案备注1生成id问题dm不支持UUID可使用sys_guid代替例如:sys_guid AS bill_Id2求两个时间相差天数dm不支持DATEDIFF可使用BIGDATEDIFF代替例如:BIGDATEDIFF(DAY,admission_time,discharge_time)3group by 关键字后面不能使用字段的别名直接使用字段本身4group by 时 select 除了聚合字段和聚合参数,其他字段不允许查询默认标准select限制。

2023-09-25 22:20:32 480

原创 JVM调优工具详解以及实战

事先启动一个web应用程序,用jps查看进程id,接着用各种jdk自带的命令优化应用。

2023-08-03 20:38:12 328

原创 DataX二次开发——(10)新增hudiwriter

由于离线同步采用Flink或者Spark进行入湖操作需要极大的成本,而且如果遇到跨网络环境,整个Spark和Flink集群都需要通外网,所以考虑采用DataX实现轻量级的离线入湖。

2023-06-08 09:11:48 555

原创 各大数据组件数据倾斜的原因和解决办法

在处理大规模数据时,数据倾斜是一个常见的问题。数据倾斜指的是在分布式环境中处理数据时,某些节点上的任务会比其他节点更加繁重,这可能导致性能下降、资源浪费等问题。数据倾斜可能会出现在不同层次的数据处理过程中,例如 map 阶段、reduce 阶段、join 操作等。数据倾斜的背景可以从以下几个方面来解释:数据量分布不均在分布式环境中,数据量分布不均可能导致数据倾斜。通常情况下,每个节点应该处理相同数量的数据,但如果某个节点上的数据量过大或过小,则可能导致该节点上的任务更加繁重或者空闲。

2023-06-01 10:31:54 1555

原创 Flink实战- (8)Flink UDF实现数据脱敏

在Flink环境实现数据实时同步的过程中,需要对某些字段进行脱敏处理或者特殊处理,这是需要自己定义UDF函数进行转换。

2023-05-31 20:52:16 639

原创 Clickhouse 常见问题及解决方案汇总

程序是运行在OS 和硬件上的,程序和 OS 息息相关,程序的一些问题会反馈到 OS 的指标上,OS 上的指标也能看出来程序运行的一些问题,所以只有掌握如何看机器负载,对相关指标有清晰的认识才能更好的做好排障工作。

2023-05-09 15:26:09 1268 1

原创 Kafka上的优化经验

从图中可以看出,原始版本在这种情况下会造成⼤量的磁盘读,⽽ Kafka cache。据,不会出现读⼤量磁盘数据的问题,仅仅多了⼀个副本的流量,基本对系统⽆影响。版本,其他版本不⽀持,如果我们引⼊的话,需要针对⽣产环境上的版本进⾏代码修改。是操作系统层⾯的缓存,难于控制,有些时候,会受到污染,从⽽导。开始拷⻉数据,这 会导致⼤量读磁盘,消耗⼤量的 I/O。这样就保障了阻塞⼀条链路,其他的处理链路是畅通的。的写⼊出现延迟,例如是由于磁盘繁忙导致,则会最终将。的整体设计,可以看出,已经很好地解决了上述的两个对。

2023-05-03 21:21:38 1032

原创 基于H3Core分区的司机轨迹实时存储的技术方案

由数据分析师提出的要求,需要分析每10s各个区域(颗粒度到H3Code 8级 面积约0.7平方公里)的司机分布情况,实现准实时的区域司机分布。H3Code的概念可以参考以下博客:Uber H3简单介绍_Scc_hy的博客-CSDN博客一、什么是H3?将地球空间划分成可是识别的单元。将经纬度H3编码成六边形的网格索引。二、为什么用H3?

2023-04-28 16:54:03 1047

原创 Flink实战-(6)FlinkSQL实现CDC

下载改JAR包,把它加到Flink下的lib路径下,然后重启sql-client;上传相关的依赖包,这几个包在网上很容易找到。进入Flink的lib目录。启动 Flink客户端。

2023-04-26 15:10:33 2564

原创 采用seatunnel提交Flink和Spark任务

seatunnel 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上。seatunnel 让Spark和Flink的使用更简单,更高效。特性。

2023-04-25 08:02:49 1931

原创 DataX GroovyTransformser 实现自定义函数UDF

在数据同步的过程中,会出现一些字段需要脱敏、替换、或者进行特定处理的情况,通常有两种方式,一种是写一个Transformser,然后打包编译进去,这种方式不太灵活。另一种是使用DataX自带的GroovyTransformser插件,

2023-04-24 11:34:08 625

原创 Hive结合Apache Ranger进行数据脱敏

Apache Hive是构建在Hadoop之上的数据仓库,支持通过SQL接口查询分析存储在Hadoop中的数据。在Hive出现之前,数据分析人员需要编写MapReduce作业分析Hadoop中的数据,这种方式繁琐低效,对数据分析人员不友好,因为数据分析人员大部分比较精通SQL,但是编程功底较浅。在这种背景下,2007年Facebook在论文。

2023-04-18 10:42:59 893

原创 DataX二次开发——Doris写入时报Content-Length header already present异常处理

【代码】DataX二次开发——Doris写入时报Content-Length header already present异常处理。

2023-04-11 17:08:47 964

原创 CDH6.3.2集成Apache Atlas2.1.0

CDH6.3.2集成Apache Atlas2.1.0

2022-12-22 08:54:21 1191

原创 DataX二次开发——(9)新增s3reader和s3writer模块

DataX3.0支持阿里的OSS的读写,但没支持S3的读写,虽然OSS的也是基于S3协议去做二开的,但是一些参数有点区别,所以按照阿里的OSSReader和OSSWriter开发了S3Reader和S3Writer。

2022-11-23 16:03:46 1859 4

原创 DataX二次开发——(8)rdbms的达梦8数据库的支持

目前GitHub上的DataX3.0开源版本,rdbms里面默认是达梦7的驱动,因此,如果像链接达梦8需要替换驱动。

2022-10-27 13:53:54 4773 7

原创 DataX二次开发——(7)kingbaseesreader86、kingbaseeswriter86的开发

Kingbasees86Reader插件实现了从KingbaseES读取数据。在底层实现上,Kingbasees86Reader通过JDBC连接远程KingbaseES数据库,并执行相应的sql语句将数据从KingbaseES库中SELECT出来。Kingbasees86Writer插件实现了写入数据到 KingbaseES主库目的表的功能。

2022-10-25 14:38:11 2117 5

原创 Spark——0基础入门数据湖Hudi的读写

【代码】Spark——数据湖Hudi的读写。

2022-09-26 10:01:49 1245

原创 DataX二次开发——(6)kafkareader、kafkawriter的开发

基于阿里开源DataX3.0版本,开发kafka的读写驱动,可以实现从mysql、postgresql抽取数据到kafka,从kafka 消费消息写入hdfs等功能。

2022-09-09 14:00:21 5678 13

原创 Greenplum——基于Greenplum-Spark Connector的Spark脚本开发及遇到的坑

分别上传greenplum-spark_2.12-2.1.0.jar 和 gsc-scala-test-1.0-SNAPSHOT.jar 这两个包到 spark的bin目录下。1、Greenplum-Spark Connector驱动和Spark的版本兼容问题。目前只支持Spark2.x版本的环境,如果用Spark3.x会报错,后续应该会支持。

2022-08-24 11:27:12 1623 3

原创 Spark——基于JDBC connector读写MySQL、Oracle、PostgreSQL、Greenplum

在大数据开发场景中,数据同步有很多种工具可以实现,其中包括DataX、FlinkCDC、Spark、Canal、sqoop等等,这边文章主要是描述Spark做多种数据源的同步,原理是基于jdbc驱动。

2022-08-18 10:57:24 1888

原创 DataX二次开发——(5)基于CopyIn原理新增greenplumwriter

GreenplumWriter插件实现了写入数据到 Greenplum Database 主库目的表的功能。在底层实现上,GreenplumWriter通过JDBC连接远程 Greenplum 数据库,并执行相应的 Copy FROM 语句将数据写入 Greenplum。GreenplumWriter面向ETL开发工程师,他们使用GreenplumWriter从数仓导入数据到Greenplum。同时 GreenplumWriter亦可以作为数据迁移工具为DBA等用户提供服务。......

2022-08-12 14:20:01 1310

原创 Greenplum——copy insert的Java工具类

【代码】Greenplum copy in的Java工具类。

2022-08-12 10:16:05 594

原创 Greenplum——大数据量写入和更新的性能优化之路

2、在/home/gpadmin下面创建insert.sql文件,向表中插入一条随机数据。3、在/home/gpadmin下面创建read.sql文件, 从表中读取一条随机数据。-- 业务库insert和update的数据:tmp_incr_data。-- 目标表里不需要更新的数据:tmp_not_update_data。1、链接数测试,模拟224个客户端连接,8个线程,每个客户端8个事务。-- 今天过来的最新数据:tmp_update_data。:增量数据和目标表数据合并到临时表,然后覆盖目标表。....

2022-08-10 13:56:50 2849

原创 DataX二次开发——(4)新增hivereader、hivewriter

DataX3.0 官方版本里面目前只支持了hdfs的读写,不支持hive的读写,基于原有的hdfsreader和hdfswriter开发了hivereader和hivewriter。

2022-08-08 23:32:44 4073 5

原创 DataX二次开发——(3)新增数据加密脱敏插件

在数据同步的场景中,时常会有部分字段需要加密脱敏处理,但是DataX3.0是没有开发这个插件的,那我们可以开发一个EncryptTransformer来做数据的加密处理。目前开发的插件支持AES、RSA、SM4、MD5加密方式。

2022-07-29 09:25:20 3538 8

原创 DataX二次开发——(2)解决MySQL8不兼容问题

(同理,替换reader和writer是一样)

2022-07-28 16:29:15 1676 4

原创 Flink实战-(5)Flink Kafka实时Error日志告警

Maven配置application.properties配置2.1 工具类2.2 反序列化类2.3 日志结构设计样例数据:2.4 主类2.5 模拟日志生成类3 本地运行 运行成功!

2022-06-22 00:01:39 783

原创 Docker搭建Kafka集群

这是基于docker-compose, 单机版的部署方式,适合于功能测试。wurstmeister/kafkahttps://github.com/wurstmeister/kafka-docker/特点:docker hub star数最多,版本更新到 Kafka 2.0 ,zookeeper与kafka分开于不同镜像。假设docker、docker-compose等工具已经安装。1、下载zookeeper和 kafka 镜像:2、用户目录下创建一个docker-compose.yml文件内容

2022-06-16 22:57:25 489

原创 异构数据源DDL转换的两种方式

dbswitch是一款数据库迁移工具,它可以帮助用户轻松地将一个数据库系统中的数据迁移到另一个数据库系统中。它支持多种常见的关系型数据库系统,例如MySQL、Oracle、SQL Server、PostgreSQL等。dbswitch提供了丰富的转换选项和功能,可以帮助用户解决在不同数据库系统之间存在的格式差异、数据类型转换、编码转换等问题,确保迁移后的数据准确、完整、一致性。dbswitch的优势在于它的灵活性和可定制性。

2022-06-16 09:57:07 1751

原创 Flink实战-(4)Flink Kafka实时同步到Hbase

2 Java代码2.1 Kafka生产者2.2 主类3、本地运行控制台 Hbase控制台 这样就说明在本地运行成功了 完成了 生产者->Kafka->消费者(Flink)->数据仓库(Hbase) 在Hbase查找Rowkey=2162​​​​​​​成功...

2022-06-09 00:43:11 1433 1

原创 Flink实战-(3)Flink Kafka实时同步到MySQL

背景:以用户日志为例,写一个从Kafka实时同步到MySQL的实战Demo2、Maven3、Java类实体类Kafka模拟生产者类写入MySQL的Sink类Kafka同步到MySQL的主类4、本地执行记得这个要勾上不然会报错执行成功 查看数据库.........

2022-06-08 01:10:40 2115 2

原创 DataX二次开发——(1)新增HANA数据源

到编译打包好的datax目录下/plugin/reader/rdbmsreader/libs 和 /plugin/reader/rdbmswriter/libs 下面看一下是否拥有我们添加的jar包。把下载好的放到对应的maven的仓库,MAVEN_HOME/repository/eigenbase/eigenbase-properties/1.1.4/下,把别的文件都删了。链接: https://pan.baidu.com/s/1EmwnU7JbEql54r-1XZHVuQ 提取码: 7s06。

2022-06-06 13:54:41 1748

原创 Greenplum——Master自动fail-over高可用方案

参考博客:keepalived,虚拟ip(vip)实践。_Danger_Life的博客-CSDN博客_keepalived vipkeepalived实现greenplum的自动切换高可用_Danger_Life的博客-CSDN博客

2022-05-23 08:38:06 477

原创 Mac M1 Golang的安装以及Goland的debug失败问题处理

1 下载安装go并配置环境变量下载地址:Downloads - The Go Programming Language注意:不要下载错了,Inter芯片是x86-64,M1芯片是ARM64下载完直接安装就可以查看版本go version确认是arm64 而不是amd64配置环境变量vim ~/.bash_profileexport GOROOT=/usr/local/goexport PATH=$PATH:$GOROOT/bin生效环境变量s.

2022-05-19 13:41:01 1498

原创 关于@Autowired和@Resource使用的区别和遇到到的坑

@Autowired

2022-04-26 23:03:52 976

原创 Flink实战-(2)Flink-CDC MySQL同步到MySQL(binlog)

1、maven<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o

2022-04-22 22:54:27 3524 21

原创 Flink实战-(1)Flink-CDC MySQL同步到MySQL(select)

flink-cdc

2022-04-22 14:23:59 8837 27

Reference_2019.xls

广东省2019年考试录用公务员专业参考目录(专业大类、学科参考目录)

2020-08-06

百度文库-冰点文库.zip

百度文库的文档可以通过这个冰点文库进行下载,还不错可以试试哦

2019-10-12

windows环境下安装kafka的必备资源

windows安装kafka的资源,很实用,可以配合我写的博客进行操作.

2019-09-10

ElasticSearch.zip

分布式搜索服务器Elastic Search在CentOS7搭建的相关资源!!!!!

2019-08-19

GIT操作指南_v2.0.pdf

git的开发指南,里面介绍详细,浅显易懂,非常好的操作指南!!!!!

2019-08-16

FastDFS.zip

fastdfs在linux系统下的必要插件,非常实用,赞赞赞赞赞赞赞赞赞!!!

2019-07-25

Java面试三大宝典.zip

java开发的三大宝典:其中有:Java面试宝典、JAVA程序员面试宝典书籍.pdf、Java面试宝典

2019-07-10

50道sql练习含答案.docx

50道sql练习含答案,面试必备,刷过之后轻松解决数据库笔试题!

2019-07-10

Java开发相关英语,包括计算机通用英语

Java开发相关英语,包括计算机通用英语

2019-01-16

spring源码分析

spring源码分析,本来希望免费分享给各位的,只是好像不能免费。

2018-11-29

spring源码分析免费资源

该资源是我花了钱从其他的博客上下载的,免费开放给各位博友们

2018-11-29

springMVC,spring,mybatis所有插件

mybatis的插件,亲测有效,把它解压拷贝到myeclipse的dropins路径下,重启软件,newflie-other查看插件就有了

2018-07-28

各类分词器合集!!!!!

中文分词开源项目 JAVA中文分词 中文分词开源项目 JAVA中文分词 一个当10个

2018-06-04

css+html+js笔记

CSS加HTML加JS笔记大全,很实用!!!=

2018-05-21

PPT0000000

多种PPT模板,PPT模板_PPT模板下载_幻灯片模板_PPT模版免费下载 -【第...-第1PPT

2018-04-07

CDIO工程教育模式下单片机原理综合设计与实践教学改革

CDIO工程教育模式下单片机原理综合设计与实践教学改革

2018-04-07

seatunnel 2.1.3版本bin包

seatunnel 2.1.3版本bin包

2023-04-23

企业级电商离线数仓项目-2022

企业级电商离线数仓项目-2022

2022-07-22

kafka-schema-registrt-client

kafka-schema-registrt-client

2022-07-22

企业级电商离线数仓项目-2022

企业级电商离线数仓项目-2022

2022-07-22

PivotalGreenplum6 新特性文档

PivotalGreenplum6 新特性文档

2022-07-21

Spring Cloud 微服务权限系统搭建教程 脚手架

Spring Cloud 微服务权限系统搭建教程 脚手架

2022-07-21

社保公积金费用计算工具2022年标准版

社保公积金费用计算工具2022年标准版

2022-07-21

linux_jdk1.8.zip

linux oracle jdk 1.8

2021-07-09

MAT Java内存分析工具

MAT Java内存分析工具 超级好用 无敌 !

2020-10-29

jdk1.8-linux.zip

jdk1.8 linux官方版本!!!!!!很不错值得拥有!!!!就是一个资源文件 干嘛要50字 !!!!!!!!!!!!!!

2020-09-09

consul.zip

注册配置中心consul 本地运行

2020-06-04

SwitchHosts._windows_portable_3.5.4.5517.zip

SwitchHosts._windows_portable_3.5.4.5517.exe 用于修改本地的域名指向

2020-06-04

ip-guard0912.zip

ip-guard0912.exe 用于电脑的网络安全,立刻安装!

2020-06-04

Microsoft Visual C++ Build Tools.zip

Microsoft Visual C++ Build Tools.exe 用于修复因为该文件缺失导致的软件安装失败

2020-06-04

jq稳定版js,jquery-1.3.2.min.js jquery-3.2.1.min.js

jquery-3.2.1.min.js jquery-1.3.2.min.js 稳定版下载 超级实用

2020-05-23

jettison-1.1.jar.zip

maven仓库的资源文件jettison-1.1.jar,jettison-1.1.jar.zip jettison-1.1.jar.zip

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除