天空飘来一个云哥哥-CSDN博客

原创 Google Guice的使用方式

Google Guice（读音：juice）是从Google AdWords项目开源出来的一款轻量级的依赖注入（DI，Dependency Injection）框架(类似于spring boot依赖注入框架)注解：@Inject 注入类（跟spring 的Autowired类似）注解：@Singleton单例模式（跟spring 的Singleton类似）主类：package com.zhangmen;import com.beust.jcommander.JCommander;impor

2021-07-21 15:18:34 996

转载 spark thrift server 查询日志留存＜保留查询SQL＞

spark thrift server的web ui在运行时可以看到sql查询的提交用户，执行sql等信息但是当这个实例停掉或者异常终止以后，你再去spark history server的webui去查看，发现这部分信息就没有了……究其原因，原来spark thrift server并没有将这部分数据序列化到spark history server的store中，回头有空可以单独讲讲这部分源码的实现这篇帖子是使用一个折中的办法实现了这部分数据的日志留存修改spark-hive-thriftser

2021-07-02 19:18:53 416

转载 clickhouse重目录层级介绍(包括zk上注册节点)

参考地址：https://blog.csdn.net/weixin_39992480/article/details/105152055最终zk的目录结构为clickhouse└── tables ├── 1 │ ├── log_test │ │ ├── metadata #log_test表的元数据信息 │ │ ├── temp #临时节点，存储过程中的临时数据 │ │ └── mutations #表的变更信

2021-06-23 18:40:17 280

原创 flume自定义拦截器用法

业务场景1：埋点数据落hive表，且埋点数据中带有数据产生时的时间字段业务流程：kafka->flume->hdfs->hive问题：晚到的埋点数据会落到哪个分区中 9点产生的埋点数据由于数据上报或者flume sink的延迟会落到9点的分区中么？ ------->>>答案是不会的需求：flume消费kafka数据按照server_time时间字段，决定数据落的分区pom.xml<dependencies> <depe

2021-03-26 15:31:19 230

转载 presto安装配置文档

参考网址：https://blog.csdn.net/qq595662096/article/details/88077211Presto的安装非常的简单，集成的是hive，也就是利用hive的元数据信息来处理，直接上步骤（推荐看博客的同事一定要看看官网的信息，presto还在孵化的阶段，可能随着时间的推移改动比较大，所以强烈推荐看官网）1.下载presto：官网地址： https://prestodb.github.io/下载地址页面： https://prestodb.github.io/do

2021-01-23 17:01:39 436

原创 Clickhouse导数工具waterdrop用法

官方文档链接地址：https://interestinglab.github.io/waterdrop-docs/#/zh-cn/case_study/2Hive to ClickHouse假定我们的数据已经存储在Hive中，我们需要读取Hive表中的数据并筛选出我们关心的字段，或者对字段进行转换，最后将对应的字段写入ClickHouse的表中。Hive Schema我们在Hive中存储的数据表结构如下，存储的是很常见的Nginx日志hive的建表语句如下：CREATE TABLE `nginx

2020-12-07 18:52:00 3479

原创 Clickhouse优缺点、性能以及错误躺坑

优点：为了高效的使用CPU，数据不仅仅按列存储，同时还按向量进行处理；数据压缩空间大，减少IO；处理单查询高吞吐量每台服务器每秒最多数十亿行；索引非B树结构，不需要满足最左原则；只要过滤条件在索引列中包含即可；即使在使用的数据不在索引中，由于各种并行处理机制ClickHouse全表扫描的速度也很快；写入速度非常快，50-200M/s，按照每行100Byte估算，大约相当于50W-200W条/s的写入速度。对于大量的数据更新非常适用。缺点：不支持事务；不支持高并发，官方建议qps为100，

2020-12-02 16:14:02 9661

转载通过Prometheus监控ZooKeeper

通过在ZooKeeper中埋点来暴露数据，使用Prometheus监控抓取数据，并借助Prometheus Grafana大盘来展示数据，即可实现通过Prometheus监控ZooKeeper的目的。步骤一：启动JMX服务首先需要在ZooKeeper中启用JMX服务以获取资源信息。修改/opt/zk/zookeeper-3.4.10/bin/zkServer.sh，在第44行添加JMXPORT=8999。具体添加位置如下所示。if [ "x$JMXLOCALONLY" = "x" ]then

2020-11-24 15:24:45 1847

转载 ClickHouse-ReplicatedMergeTree主备同步

了解到，分布式DDL功能对Zookeeper的依赖情况还是比较轻量级的，接下来介绍的ReplicatedMergeTree表引擎对Zookeeper的依赖可以说是所有表操作全方面的依赖，真实集群中大量的ReplicatedMergeTree表会对Zookeeper造成非常大的请求压力，需要用户关注Zookeeper的运维。ReplicatedMergeTree表引擎实现的主备同步和传统主备同步有很大的差异：1）它不是一个（抢主，主节点执写入更新，备节点同步follow）的模型，ClickHouse的主节

2020-10-17 17:45:42 6240

转载 Clickhouse 国内应用案例汇总（持续更新）

QQ 音乐https://www.infoq.cn/article/3OfbQcStGJssh5CGl8VP原始地址：https://mp.weixin.qq.com/s/_pXPDbhqC1B1HQWQQEfAGw携程https://www.infoq.cn/article/Mv5QKf8BZdv4RVMhEa7o原始地址：https://mp.weixin.qq.com/s/IjOWAPOJXANRQqRAMWXmawhttps://www.infoq.cn/article/MHXgE5

2020-09-28 09:42:24 986

转载 Clickhouse 各种工具函数知识 -＜日期函数＞

-------------------------------------------------------------------------------------------------------------------Clickhouse基础知识：函数学习---------------官址学习文档：https://clickhouse.yandex/docs/zh/-------------------------------------------------------------

2020-09-11 10:53:33 1775

原创 ClickHouse节点扩容及数据迁移

背景之前公司面临磁盘不足的问题，虽然通过增加磁盘来缓解了。但是clickhouse集群节点扩充是发展迟早要面临的问题，所以尝试思考解决方案。ck不同于hadoop体系，hdfs当集群增减节点时可以通过balance命令去自动调节。但ck集群不能自动感知集群拓扑变化，也不能自动 balance 数据。当集群数据量较大，复制表和分布式表过多时、想做到表维度、或者集群之间的数据平衡会导致运维成本很高。方案这里提供三个解决思路方式一、复制当我们追求分布式表在新集群的平衡，数据量不大的情况，可以在新集群简

2020-09-03 19:32:13 6889

原创 docker安装prometheus、clickhouse-export监控

本次基于docker来实现对clickhouse的指标的监控，需安装三个软件Granfaprometheusclickhouse-export准备docker环境和docker-compose编排1、首先安装Granfa# 获取镜像docker pull grafana/grafana# 后台启动容器，将23000映射到容器的3000docker run -d -p 23000:3000 --name=my-grafana -v /data/grafana:/var/lib/grafa

2020-09-02 18:09:01 837

转载 ClickHouse之DBA运维宝典

ClickHouse 中有没有一些能够 “安家立命” 的运维 SQL 语句。我想对于这个问题很多朋友都会有兴趣，所以就在这里做一个简单的分享。在 ClickHouse 默认的 system 数据库下(databse)，拥有众多的系统表。我们对 ClickHouse 运行状态的各种信息，就主要来自于这些系统表。接下来就列举一些常用的运维 SQL 语句。当前连接数众所周知，CH 对外暴露的原生接口分为 TCP 和 HTTP 两类，通过 system.metrics 即可查询当前的 TCP、HTTP 与

2020-09-02 11:05:39 422

转载 Flink 集群安装部署和 HA 配置

我们在这一课时将讲解 Flink 常见的部署模式：本地模式、Standalone 模式和 Flink On Yarn 模式，然后分别讲解三种模式的使用场景和部署中常见的问题，最后将讲解在生产环境中 Flink 集群的高可用配置。Flink 常见的部署模式环境准备在绝大多数情况下，我们的 Flink 都是运行在 Unix 环境中的，推荐在 Mac OS 或者 Linux 环境下运行 Flink。如果是集群模式，那么可以在自己电脑上安装虚拟机，保证有一个 master 节点和两个 slave 节点。同时

2020-09-02 10:22:28 723

转载 ClickHouse中的物化视图简介与应用示例

参考链接：https://www.jianshu.com/p/3f385e4e7f95

2020-08-15 18:48:50 920

转载 Clickhouse 时间日期函数实战（详细）

链接地址：https://blog.csdn.net/u010180815/article/details/105250864

2020-08-15 18:46:14 3245

原创 ClickHouse版本升级

参考网址：https://blog.csdn.net/weixin_34220179/article/details/91644177升级CH版本：1、首先卸载原版本yum list installed | grep clickhouseyum remove -y clickhouse-server-common如果要删除原始数据，执行下面命令：rm -rf /var/lib/clickhouserm -rf /etc/clickhouse-*rm -rf /var/log/clickho

2020-08-14 15:03:35 805

原创 ClickHouse数据库的迁移

参考地址https://blog.csdn.net/dong120f/article/details/813563611、创建好目标库 create database DB12、首先将要备份库中的数据进行拷贝拷贝源库中的数据 /Path/to/clickhouse/data/DB0/table1 到目标库路径：/Path/to/clickhouse/data/DB13、找到CH的metadata中源库中保存的建表sql（很多个文件）路径: Path/to/clickhouse/

2020-08-13 20:45:50 1700

转载 ClickHouse的函数整理

链接地址：https://blog.csdn.net/u012111465/article/details/85250030

2020-08-13 16:41:06 302

原创 Docker的基本命令

下载Docker：yum -y install docker启动命令：service docker start如果需要用到 docker-compose 安装步骤如下（)1、centos使用命令yum -y install python-pip安装pip2、yum -y install python-pip docker-compose查看安装的版本docker-compose --version　Docker-compose卸载pip uninstall docker-compose使

2020-08-11 10:07:31 164

转载 Docker搭建 zk集群和kafka集群

福利网址：261.67.48709.%68ost/7/33/5.05下载Docker：yum -y install docker启动命令：service docker start如果需要用到 docker-compose 安装步骤如下（本文基于这种方式）1、centos使用命令yum -y install python-pip安装pip2、yum -y install python-pip docker-compose查看安装的版本docker-compose --version　Docke

2020-07-31 13:36:03 362

原创使用docker搭建clickHouse集群

使用docker搭建clickHouse集群背景：用一台物理机来搭建一个有两台CK的集群安装流程如下：1、操作docker1、首先起一个单机的CHdocker run -d \--name clickhouse-server \-p 9000:9000 \-p 8123:8123 \-p 9009:9009 \--ulimit nofile=262144:262144 \yandex/clickhouse-server2、将上面单机的CH中的配置文件复制到宿主机的目录中。没有/ho

2020-07-30 11:55:20 2748 1

原创 clickHouse语法测试

背景信息表引擎在ClickHouse中的作用十分关键，直接决定了数据如何存储和读取、是否支持并发读写、是否支持index、支持的query种类、是否支持主备复制等。ClickHouse提供了大约28种表引擎，各有各的用途，比如有Log系列用来做小表数据分析，MergeTree系列用来做大数据量分析，而Integration系列则多用于外表数据集成。再考虑复制表Replicated系列，分布式表Distributed等，纷繁复杂，新用户上手选择时常常感到迷惑。ClickHouse表引擎一共分为四个系列，

2020-07-09 18:33:28 1804

原创 clickHouse的安装配置流程：

clickHouse的安装配置流程：1、首先下载CH的安装包：1. curl -s https://packagecloud.io/install/repositories/Altinity/clickhouse/script.rpm.sh | sudo bash2. yum list 'clickhouse*'3. yum install -y clickhouse-server clickhouse-client2、更改配置文件在这里插入代码片...

2020-07-09 18:13:57 2158 4

qq_42016966的博客