自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。

2024-03-27 09:38:08 1390 1

原创 python写入kafka数据时报错解决方案

修改这个配置即可解决:max.message.bytes = 10485760。可以在kafka manager上修改单个topic的配置。如果有kafka manager的话,

2024-01-05 16:09:10 737

原创 kafka 增量快照的使用

和基于全量快照的恢复时间相比,如果网络带宽是瓶颈,那么基于增量快照恢复可能会消耗更多时间,因为增量快照包含的 sst 文件之间可能存在数据重叠导致需要下载的数据量变大;而当 CPU 或者 IO 是瓶颈的时候,基于增量快照恢复会更快,因为从增量快照恢复不需要解析 Flink 的统一快照格式来重建本地的 RocksDB 数据表,而是可以直接基于 sst 文件加载。不同于产生一个包含所有数据的全量备份,增量快照中只包含自上一次快照完成之后被修改的记录,因此可以显著减少快照完成的耗时。RocksDB 支持。

2023-10-30 11:04:34 120

原创 修改kafka单个topic的数据过期时间

数据默认7天过期,86400000ms = 1天。修改为30天过期时间。查看修改后的过期时间。

2023-10-30 10:02:41 676

原创 使用 SSCursor (流式游标) 解决 Python 使用 pymysql 查询大量数据导致内存使用过高的问题

(这个 cursor 实际上没有缓存下来任何数据,它不会读取所有所有到内存中,它的做法是从储存块中读取记录,并且一条一条返回给你。因为 SSCursor 是没有缓存的游标,结果集只要没取完,这个 conn 是不能再处理别的 sql,包括另外生成一个 cursor 也不行的。如果用传统的 fetchall() 或 fetchone() 方法,都是先默认在内存里缓存下所有行然后再处理,大量的数据会导致内存资源消耗光,内存容易溢出。Python 导数据的时候,需要在一个大表上读取很大的结果集。

2023-08-02 09:34:06 323

原创 flink提前出发窗口

flink streaming api的提前触发方式。flink sql的提前触发方式。

2023-03-28 15:25:18 116

原创 Flink详述双流 Join 3 种解决方案 + 2 种优化方案

1.前言这一期的面试题主要是介绍 Flink 面试中的高频面试题,Flink 流 Join 相关内容,相信大家在面试中遇到的太多了,本节包含的主要内容如下:Join 的应用场景 为什么流式计算中提到 Join 小伙伴萌就怕呢? 带大家看一遍本文思路 Flink Join 解决方案:Flink Window Join Flink Join 解决方案:Flink Interval Join Flink Join 解决方案:Flink Regular Join 上述 3 种解决方...

2022-04-18 10:38:13 7832 3

原创 分区表修改字段/新增字段

修改字段:ALTER TABLE dws.test CHANGE is_rm jhff_is_rmzz string COMMENT '备注' cascade;新增字段:alter table dws.test add columns(is_ad int COMMENT '备注') cascade;

2021-10-26 09:30:04 648

原创 修改json格式的全量表的方法

使用 'org.openx.data.jsonserde.JsonSerDe' 第三方的序列化的方式的表,需要更新表结构的话,需要先变更serde方式为原始自带的方式。方法如下:alter table testSET FILEFORMAT INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'.

2021-10-25 20:22:55 2088

原创 flume接收数据单条消息过大报错

org.apache.kafka.common.errors.RecordTooLargeException: The request included a message larger than the max message size the server will accept.Java客户端调整:MAX_REQUEST_SIZE_CONFIGkafka服务器端调整:message.max.bytes=2147483640接近Int的Max因为该值最值范围是Int特别说明:该参数调整完

2021-09-16 16:00:11 392

原创 创建hive连接es的表

-- 查看es版本curl --user elastic:BAGNimgiGBIE5Isu -XGET 'http://es-cn-oew1zs37s000a3616.elasticsearch.aliyuncs.com:9200'drop table ods.ods_jhff_contentpool_es;add jar hdfs://emr-cluster/es/elasticsearch-hadoop-hive-7.7.1.jar;CREATE EXTERNAL TABLE if not e

2021-08-18 18:08:15 698

原创 python复制环境到另一个环境

在我们有多个虚拟环境时候,如何复制一个虚拟环境的包到另一个环境中去呢?1.到原始的virtualenv变量的scripts目录下,导出此环境下安装的包的版本信息  pip freeze > requirements.txt2.来到新的虚拟环境下,复制上不导出的requirements.txt文件到scripts目录下,执行安装命令  pip install -r requirements.txt以上就是如何复制一个虚拟环境的包到另一个环境中去?的详细内容,更多请关注php中文网其它相关文章!

2021-08-03 21:11:43 3249

原创 正则表达式

# 什么是正则表达式 # 一套规则 - 匹配字符串的# 能做什么 # 1.检测一个输入的字符串是否合法 -- web开发项目 表单验证 # 用户输入一个内容的时候,我们要提前做检测 # 能够提高程序的效率并且减轻服务器的压力 # 2.从一个大文件中找到所有符合规则的内容 -- 日志分析\爬虫 # 能够高效的从一大段文字中快速找到符合规则的内容# 正则规则# 所有的规则中的字符就可以刚好匹配到字符串中的内容# 字符组 描述的.

2021-06-05 21:30:49 49

原创 正则表达式汇总

# 元字符 # \d \s \w \t \n \D \S \W # [] [^] . # ^ $ # () |# 量词 # {} 表示任意的次数,任意的次数范围,至少多少次 # ? + *# 贪婪和非贪婪匹配 # 总是在量词范围内尽量多匹配 - 贪婪 # 总是在量词范围内尽量少匹配 - 惰性 # .*?x 匹配任意内容任意次数 遇到x就停止 # .+?x 匹配任意内容至少1次 遇到x就停止# 转义符问题 #.

2021-06-05 20:02:54 81

原创 ClickHouse单机安装部署

ClickHouse支持运行在主流64位CPU架构(X86、AArch和 PowerPC)的Linux操作系统之上,可以通过源码编译、预编译压缩包、Docker镜像和RPM等多种方法进行安装。下面是离线RPM的安装方法(yum方式安装):1、安装curl工具yum install -y curl2、添加clickhouse的yum镜像curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/scr

2021-05-06 14:43:17 399

原创 clickhouse集群模式下视图用dg查看时若隐若现

clickhouse集群模式的视图在集群新增节点时用dg查看视图表若隐若现现象:clickhouse集群模式的视图在集群新增节点时用dg查看视图表若隐若现,好像是在新增的节点上没有该视图。分析问题:出现上述现象,用clickhouse-client查看该视图时,发现新增节点的该视图处于detached状态,所以会看到该视图一会有一会没有(DG上观察,集群表没在各个节点都创建的现象)解决方法:attache这个视图即可。attach table ods.ods_jhff_XXXX_ch

2021-04-14 15:33:20 17213

原创  Kylin在refresh或者重新构建的时候报错Segments overlap

Kylin在build的时候报错:Segments overlap: cube_name_xxx_xx解决方法:方法1:先看是否已经有创建成功的segment,如果有,就用action中的refresh操作。方法2:如果没有,就在构建的历史任务重删掉对应的跑失败的任务,然后重新build。...

2021-04-14 13:18:09 17323

原创 kylin深度优化

任务引擎高可用从 v2.0 开始, Kylin 支持多个任务引擎一起运行,相比于默认单任务引擎的配置,多引擎可以保证任务构建的高可用。使用多任务引擎,你可以在多个 Kylin 节点上配置它的角色为job或all。kylin.job.scheduler.default=2kylin.job.lock=org.apache.kylin.storage.hbase.util.ZookeeperJobLockkylin.server.mode=all配置Kylin节点的运行模式kyli...

2021-04-13 13:23:03 17153

原创 python连接hive配置中遇到的问题及解决方法

1、message=("Could not start SASL: %s" % self.sasl.getError()))thrift.transport.TTransport.TTransportException: Could not start SASL: b'Error in sasl_client_start (-12) SASL library is not initialized解决方法:https://blog.csdn.net/wenjun_xiao/article/details/

2021-04-13 11:08:01 1213

原创 用flume从kafka导数据到kafka

用flume从kafka导数据到kafka时有坑,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数据仍然会被写入到Source中指定的Topic中,造成死循环。产生原因:If the event header contains a “topic” field, the event will be published to that topic overriding the topic configured here(来自flume官

2021-04-13 11:01:38 760

转载 Memcached的yum安装

1、服务端的安装:在这里,由于用编译安装memcached服务端过于复杂,因此我选用依赖管理工具 yum 来实现 memcached 的服务端安装:[root@localhost /]# yum install -y memcached-y 表示自动应答,即默认安装所有需要用到的依赖包在这一步之后,我们就安装完了。我们尝试去启动一下memcached:[ro

2017-06-21 10:08:47 251

原创 有三个箱子,有一个中奖,你选定了一个箱子,主持人打开一个没有奖的箱子,问你换不换,是换概率大还是不换概率大

有三个箱子,有一个中奖,你选定了一个箱子,主持人打开一个没有奖的箱子,问你换不换,是换概率大还是不换概率大?求原因.

2016-10-18 23:34:46 17627 4

原创 归并排序--java实现

归并排序--java实现 pekingpackage sort;import java.util.Arrays;public class MergeSort {public static void main(String[] args) {int[] nums ...

2016-10-15 22:04:35 203

原创 计算字符串最后一个单词的长度,单词以空格隔开

问题1:计算字符串最后一个单词的长度,单词以空格隔开。 pekingjava实现:首先切割字符串,然后获取最后一段的长度。代码如下:import java.util.*;public class Main{ public st...

2016-10-15 21:27:10 238

原创 斐波那契数列--java

斐波那契数列--java 邝倍靖斐波那契数列:第一个和第二个数字为1,其他数字为前面两个数字的和,给出一个正整数k,求得斐波那契数列中的第k个数是多少,采用递归的思想获得结果,代码如下importjava.util.*;public class Test{public static void main(Stri...

2016-10-13 10:39:26 406

原创 归并排序--java实现

排序之归并排序java实现

2016-10-13 09:46:51 274

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除