大数据玩家-CSDN博客

原创 (第七弹)Flink——Flink之Grafana监控

对于Flink中taskmanager、jobmanager有没有一个好的监控工具呢？答案是有的，下面让我们来看看如何监控！！！一、版本要求Flink 1.8 +二、Flink配置1）flink-conf.yamlmetrics.reporter.influxdb.class: org.apache.flink.metrics.infl...

2019-08-01 15:42:34 3682

原创 (第六弹)Flink——Flink 触发器 Trigger 详解（附案例实战源码）

在Flink中，有两种窗口类型，一种是基于时间的窗口timeWindow，一种是基于计数的窗口countWindow。但是是否存在一种情况，如果使用timeWindow，在窗口时间内，出现大量的数据过来，对该窗口的计算产生很大的压力，那该怎么办呢？是否能够结合两种窗口进行触发呢？答案是可以的，trigger正可以达到你的要求。Trigger的作用：就是...

2019-07-04 14:14:17 4465

原创 (第一弹)Elasticsearch-----ElasticSearch集群的安装7.X

本文以及后面的系列均已ElasticSearch7.X的版本讲解，欢迎支持！环境说明： centos7 、 elasticsearch7.2.0 、同一个机子安装3个节点、 7.x版本自带JDK一、下载并解压下载地址：https://www.elastic.co/cn/downloads/elasticsea...

2019-07-03 16:59:22 754

原创 (第二弹)Elasticsearch-----节点类型分工

1. 客户端节点　　当主节点和数据节点配置都设置为false的时候，该节点只能处理路由请求，处理搜索，分发索引操作等，从本质上来说该客户节点表现为智能负载平衡器。独立的客户端节点在一个比较大的集群中是非常有用的，他协调主节点和数据节点，客户端节点加入集群可以得到集群的状态，根据集群的状态可以直接路由请求。2. 数据节点　　数据节点主要是存储索引数据的节点，主要对文档进行增删改查操作，聚...

2019-06-29 20:18:31 202

原创 (第五弹)Flink——Flink 异步IO (附带RichAsyncFunction实战)

Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性，于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。背景对于实时处理，当需要使用外部存储数据染色的时候，需要小心对待，不能让与外部系统之间的交互延迟对流处理的整个工作进度起决定性的影响。如果我们是使用传统方式mapfunction等算子里访问外部存储，实际上该交...

2019-06-26 11:20:45 4975 1

原创 JVM详解和 7种垃圾回收器的使用（附带内存调优实战）

目录一、JVM内存监控工具二、jvm内存模型三、GC算法四、垃圾回收器一、JVM内存监控工具 1、jconsole 2、jvisualvm二、jvm内存模型 Java虚拟机运行时数据区域被分为五个区域：堆(Heap)、栈(Stack)、本地方法栈(Native Stac...

2019-02-22 10:17:39 299

原创 Hadoop Yarn 的三种资源调度器详解

1、调度器的选择在Yarn中有三种调度器可以选择：FIFO Scheduler ，Capacity Scheduler，FairS cheduler。 FIFO Scheduler把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满足后再给下一个分配，以此类推。 F...

2019-01-22 23:18:02 809

原创 Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

两种消费模式一、基于Receiver的方式 Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据...

2019-01-08 00:01:27 2973 2

原创海量文本Simhash去重，毫秒级去重判断 | 抽屉原理

一.背景互联网上，一篇文章被抄袭来抄袭去，转载来转载去。被抄袭的文章一般不改，或者少量改动就发表了，所以判重并不是等于的关系，而是相似判断，这个判别的算法就是simhash。二.simhash计算给定一篇文章内容，利用simhash算法可以计算出一个哈希值（64位整形）。判别两篇文章是相似的方法，就是两个simhash值的距离<=3，这里距离计算采用汉明距离，也就是2个s...

2018-12-22 14:22:03 2511 1

原创 spark中job、stage、task、partition、executor概念理解以及分区数深入探究

概念1. job定义：我们都知道，在spark rdd中，有action、transform操作，当真正触发action时，才真正执行计算，此时产生一个job任务。2. stage定义：以shuffle为界，当在一个job任务中涉及shuffle操作时，会进行stage划分，产生一个或多个stage。3. task定义：一个stage...

2018-12-21 00:40:07 2941

原创 HDFS文件删除后,HIVE元数据还存在的问题

即HDFS数据删除了，但是hive metastore元数据却没有更新，使用show partitions tablename 发现该分区还存在。手动在hdfs上删除了一个表的分区数据(inc_day=2023-08-30)，当查询这个表这个分区的数据时报错文件不存在。

2023-08-30 11:42:28 760

在Hive中，所谓的小文件是指文件大小远小于HDFS块大小的文件，通常小于128 MB，甚至更少。这些小文件可能是Hive表的一部分，每个小文件都包含一个或几个表的记录，它们以文本格式存储。存储空间占用过多：在Hadoop生态系统中，每个小文件都将占用一定的存储空间，而且每个小文件也需要一个块来存储。如果存在大量的小文件，将浪费大量的存储空间。处理延迟：小文件数量过多，会引起大量IO操作，导致处理延迟。查询性能下降：小文件用于分区和表划分，可能导致查询延迟并降低查询性能。

2023-08-29 16:24:11 635

原创自建minio实现doris的快速备份与恢复

doris支持通过腾讯云bos、阿里云oss、hdfs实现备份与恢复，但是我们公司doris部署在线下机房，如采用oss/bos, 大数据备份与恢复比较慢，会占用一定的带宽，如采用hdfs，担心小文件太多影响现有的hadoop集群。为了保险起见，而且能够达到快速的备份恢复，我们实现自主搭建一套minio对象存储。

2023-05-15 16:24:38 2124 3

原创一文详解GCC7、CUDA 11.2、CUDNN部署

在部署之前，需要了解下python-tensorflow-cuDNN-CUDA版本对应关系,以便能够完全兼容下文以此版本为例部署gcc-7.3.1cuda-11.2。

2023-01-09 14:23:40 1320

原创 mysql不停机搭建从库

mysql主从相关命令

2022-10-14 17:41:45 656

原创 Apache Doris编译教程(0.15.1) ｜ Docker版

前提：安装maven、docker一.docker镜像拉取编译doris-0.15.1需要 apache/incubator-doris:build-env-1.4.1 版本的镜像，否则会报错docker pull apache/incubator-doris:build-env-1.4.1二.doris代码拉取地址：https://github.com/apache/incubator-doris/tree/branch-0.15#拉取代码cd /data...

2021-10-21 17:16:38 718

原创 Apache hudi编译

1.配置maven镜像 $MAVEN_HOME/conf/settings.xml <mirrors> <mirror> <id>aliyunmaven</id> <mirrorOf>*</mirrorOf> <name>阿里云公共仓库</name> <url>https://maven.aliyun.com/reposit...

2021-10-13 14:37:40 531 1

原创最佳实战｜Apache Doris SQL日志审计功能

一.功能介绍 SQL日志审计是一个可插拔的插件，旨在将logs/fe.audit.log中的sql查询信息记录到doris集群中，方便用户对sql进行分析。二.安装 1）编译在doris源码目录下，执行sh build_plugin.sh编译完成后会在 fe_plugins/output 目录下得到 auditloader.zip 文件。登录到doris客户端，执行INSTALL PLUGIN FROM "/opt/doris/auditlo...

2021-10-07 14:41:15 2279

原创 clickhouse新特性：Projection (版本：21.6+)

一.解决目前以下痛点：1）建表时只支持一种排序方式（order by）建表的时候，Order By 同时决定了主键稀疏索引和数据的排序，假设 :Order BY A,B,C那么通常过滤查询 Where A 会很快，但是 Where C 会慢一些。2）ClickHouse物化视图无一致性保证，在明细表里做聚合查询和在物化表里做聚合查询出来的结果可能不一样3）用户在数据查询的场景中，会有着一定的使用习惯。比如，每天定时都会查看一些特定的图表。这些图表中包含全量的数据统计，复杂的数据

2021-09-24 16:55:38 664

原创 linux diff/patch打补丁

一. diff 命令 diff 比较两个文件或文件集合的差异，并记录下来，生成一个diff文件，就是patch文件，即补丁文件。常接选项： (1) -N --new-file 文件和文件对比的时候，如果没有，就拿一个空文件和别的文件进行对比 (2) -r --recursive 递归对比 (3) -u 按照统一的格式显示二. p...

2021-09-19 17:51:50 751

转载最佳实践｜Apache Doris Join 实现与调优实践

DorisJoin 实现机制Doris 支持两种物理算子，一类是Hash Join，另一类是Nest Loop Join。 Hash Join：在右表上根据等值 Join 列建立哈希表，左表流式的利用哈希表进行 Join 计算，它的限制是只能适用于等值 Join。 Nest Loop Join：通过两个 for 循环，很直观。然后它适用的场景就是不等值的 Join，例如：大于小于或者是需要求笛卡尔积的场景。它是一个通用的 Join 算子，但是性能表现差。 Join...

2021-09-19 15:32:08 1732

原创 clickhosue配置详解-load_balancing

一、需求四台服务器 32C 128G 4分配，2副本，每台机2个节点，互为副本因为默认的 load_balancing 采用随机的方式，所以我们会出现当一个sql查询的时候，一台机的2个节点内存都会涨起来，有时候会因为内存超过了操作系统的限制，导致ck服务被杀掉。查阅文档，发现 load_balancing 有五个属性（random / neare...

2021-04-02 11:48:28 1284

原创 Clickhouse集群部署(两分片两副本)

1、部署环境及版本说明以下部署配置按照生产环境为例进行安装。操作系统配置 IP 版本 Centos8 32C 128G 192.168.2.101 clickhouse_20.9.6.14 zookeeper-3.6.2 Centos8 32C 128G 192.168

2020-12-07 10:40:19 3447

原创 Clickhouse之物化视图

前言使用过ClickHouse的开发者都知道，ClickHouse能够使用向量化计算快速得出结果，但是并发量不高。如何解决呢？其实我们可以引入物化视图这个概念来解决。作用同一个表需要建立不同的索引粒度，提前预聚合降低查询速度，提高并发量降低服务的查询压力，cpu使用率平缓利用使用教程1.创建本地表CREATE TABLE if not exists exit \( \ app_id String, \ view_id UInt64,...

2020-05-25 18:02:40 3970

原创一致性Hash算法原理(面试必问)

一、前言在解决分布式系统中负载均衡的问题时候可以使用Hash算法让固定的一部分请求落到同一台服务器上，这样每台服务器固定处理一部分请求（并维护这些请求的信息），起到负载均衡的作用。但是普通的余数hash（hash(比如用户id)%服务器机器数）算法伸缩性很差，当新增或者下线服务器机器时候，用户id与服务器的映射关系会大量失效。一致性hash则利用hash环对其进行了改进。二、一致性Hash算法的神秘面纱一致性Hash算法也是使用取模的方法，只是，刚...

2020-05-18 11:05:23 729

原创 (第九弹)Flink——Flink之重启策略

概述 Flink支持不同的重启策略，以在故障发生时控制作业如何重启。集群在启动时会伴随一个默认的重启策略，在没有定义具体重启策略时会使用该默认策略。常用的重启策略有哪些呢？固定间隔 (Fixed delay) 失败率 (Failure rate) 无重启 (No restart)1、如果没有启用 checkpointing，则使用无重启 (no restart) 策...

2020-04-28 17:31:28 501

原创 ClickHouse分布式IN & JOIN 查询的避坑指南

一、前言当数据表包含多个分片的时候，我们需要将普通的本地查询转换为分布式查询。当然，这个转换动作是不需要用户自己进行的，在ClickHouse里面会由Distributed表引擎代劳。Distributed表引擎的定位就好比是一个分表的中间件，它本身并不存储数据，而是分片的代理，能自动的将SQL查询路由到每个分片。当我们面对Distributed表引擎查询的...

2020-04-22 16:23:18 12988 2

原创 Flink 整合 Nacos，动态更改作业配置！

我们知道 Flink 作业的配置一般都是通过在作业启动的时候通过参数传递的，或者通过读取配置文件的参数，在作业启动后初始化了之后如果再想更新作业的配置一般有两种解决方法：改变启动参数或者改变配置文件，重启作业，让作业能够读取到修改后的配置通过读取配置流（需要自定义 Source 读取配置），然后流和流连接起来这两种解决方法一般是使用的比较多，对于第一种方法...

2020-03-30 18:57:47 1663 3

原创利用neo4j+keepalived+nfs搭建高可用图数据库

一、介绍因neo4j社区版本无法支持高可用的集群部署，有单点故障的风险。为了达到高可用的目的，现结合keepalived做浮动IP切换，提供neo4j的状态检测配置方法，NFS做共享存储，保证两个节点数据一致性。二、整体技术方案三、部署流程本案例以3台机Centos7为例： server1(192.168.2.101) :...

2020-03-26 18:12:09 1276

原创 Spark on yarn(HDP) cluster踩坑记

集群环境 ambari:HDP-2.6.5.0 spark-2.1.0-bin-hadoop2.7踩坑一：NoClassDefFoundError: org/glassfish/jersey/server/spi/container或者NoClassDefFoundError：com/sun/jersey/api/client/...

2020-03-16 10:36:53 441

原创 Spark on hdp yarn cluster踩坑记

集群环境 ambari:HDP-2.6.5.0 spark-2.1.0-bin-hadoop2.7踩坑一：NoClassDefFoundError: org/glassfish/jersey/server/spi/ontainer或者NoClassDefFoundError：com/sun/jersey/api/client/c...

2020-03-04 14:25:07 986

原创 flink-metric原理与实战

一、背景介绍 flink内部实现了一套metric数据收集库。同时flink自身系统有一些固定的metric数据，包括系统的一些指标，CPU、内存、IO或者各个task运行的一些指标。具体包含那些指标可以查看官方文档:flink-metric。同时我们也可以利用系统的metric库在自己的代码中进行打点收集metrics数据。此外, flink提供了外部接口reporter，可以用...

2020-01-17 18:37:18 1714

原创一文读懂KYLIN3.0-OLAP原理与使用，以及现在存在的BUG

目录一、为什么在Kylin中建立实时流二、流多维数据集引擎如何工作1）流数据写入2）流数据查询三、流多维数据集详细概念和作用1、Assigment2、副本集3、流接收器4、流协调器5、Segment段四、重新分配Assigment1）重新分配步骤：2）重新分配图五、现有的BUG一、为什么在Kylin中建立实时流提供毫秒级的数据准...

2020-01-13 16:21:40 703

原创基于ClickHouse玩转每天1000亿数据量

1、为什么选择clickhouse? 足够快，在选择clickhouse以前我们也有调研过presto、druid等方案，presto的速度不够快，无法在5分钟内完成这么多次的查询。 druid的预计算挺好的，但是维度固定，我们的指标的维度下钻都是很灵活的，并且druid的角色太多维护成本也太高，所以也被pass了。最终我们选择了clickhouse，...

2020-01-10 19:02:25 3646

原创 KeyedProcessFunction功能详解与状态算子State结合实战(附github两个实战案例源码)

目录一、KeyedProcessFunction功能介绍二、使用案例案例一：案例二：一、KeyedProcessFunction功能介绍 KeyProcessFunction是一个低级的Stream处理操作（Operator），可以更加灵活的处理Stream的业务逻辑，它可以访问所有流应用程序的基本构建块：事件（Event）状态（State，仅支持Keye...

2020-01-08 18:16:32 1281

原创 Flink 单并行度内使用多线程，提高写入性能10倍

目录分析痛点方案一：同步批量请求优化为异步请求方案二：多线程 Client 模式实现原理：Flink 算子内多线程代码实现分析痛点笔者线上有一个 Flink 任务消费 Kafka 数据，将数据转换后，在 Flink 的 Sink 算子内部调用第三方 api 将数据上报到第三方的数据分析平台。这里使用批量同步 api，即：每 50 条数据请求一次第三方接...

2020-01-03 18:40:57 5406 1

原创 ElasticSearch DSL优化，让你的查询快100倍！

起因最近一直苦恼于elasticsearch中的一个查询，总数据量10亿条，按条件term查询，只取符合条件的10条数据，3个集群节点（64G 32C），查询耗时80ms，并发一直上不去，只有300qps。按理说，既无排序又无算分，不应该那么慢才对！GET demo/_search{ "query": { "nested": { "path": "ta...

2019-12-26 22:44:05 1765

转载 HBase原理|HBase内存管理之MemStore进化论

Java工程中内存管理总是一个绕不过去的知识模块，无论HBase、Flink还是Spark等，如果使用的JVM堆比较大同时对读写延迟等性能有较高要求，一般都会选择自己管理内存，而且一般都会选择使用部分堆外内存。HBase系统中有两块大的内存管理模块，一块是MemStore ，一块是BlockCache，这两块内存的管理在HBase的版本迭代过程中不断进行过各种优化，接下来笔者结合自己...

2019-10-23 14:47:04 750

转载如何在 1 秒内做到大数据精准去重？

去重计数在企业日常分析中应用广泛，如用户留存、销售统计、广告营销等。海量数据下的去重计数十分消耗资源，动辄几分钟，甚至几小时，Apache Kylin 如何做到秒级的低延迟精确去重呢？

2019-10-18 11:47:36 769

转载 Kylin 精确去重在用户行为分析中的妙用

示例先从一个简单的例子说起吧。现在有一个 app 的用户访问记录表 access_log，它包含三个字段：DT (访问日期），User ID（用户标示）和 Page（访问页）： DT User ID Page 20190101 100 index.html ...

2019-10-18 11:44:56 830

zookeeper备份恢复工具

可以指定zk node进行备份与恢复，方便使用

2021-11-05

kafka-manager2.0.0.2

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

kafka-manager3.0.0.4安装包（编译后）

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

clickhouse之zabbix监控模板（支持账号密码，配置文件可传）

2019-09-24

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

flink-hadoop-compatibility_2.12-1.7.1.jar javax.ws.rs-api-2.0.1.jar jersey-common-2.27.jar jersey-core-1.19.4.jar 解决 Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

2019-06-06

apache-kylin-2.6.2-bin-hadoop3.tar.gz

apache-kylin-2.6.2-bin-hadoop3.tar.gz 最新版本修复版下载，修改报错 Missing required configuration "partition.assignment.strategy" which has no default value. ".

2019-05-15

Spring 加密工具包(kylin密码加密工具包)

使用方法:用java命令 java -jar encryption.jar admin

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人