子毅168-CSDN博客

原创 TiDB 单机伪分布式安装

一准备工作1 参考文档：第二种《使用 TiUP cluster 在单机上模拟生产环境部署步骤》https://docs.pingcap.com/zh/tidb/stable/quick-start-with-tidb2 单机配置：4核心8G内存3 服务器系统版本要求：CentOS 7.3及以上[root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.8.2003 (Core)4 环境初始化[roo.

2021-03-12 15:49:39 257

原创 Kylin4.0安装部署使用

1 Kylin4.01 新架构https://cwiki.apache.org/confluence/display/KYLIN/Architecture+of+Kylin+4.X2 新特性Parquet Storage：使用parquet来存储cubeid（移除了hbase作为存储） Spark Build Engine：使用spark来构建cubeid（移除了mr） RDBMS Metastore：使用RDBMS来存储metastore ...https://cwiki.ap

2021-02-08 19:44:56 3416 3

原创 pip下载慢-超时问题解决

pip的使用踩坑1 下载慢，导致超时：ReadTimeOut报错：pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool2 原因：下载很多包需要从国外下，被qiang了，所以慢，然后超时3 解决办法临时解决pip install -i https://mirrors.aliyun.com/pypi/simple/ pandas #指定下载网站永久解决1 linux#创建...

2021-01-28 14:05:23 285 1

原创 hive udf使用及踩坑

hive注册udf函数1 maven项目pow文件 <properties> <hive.version>2.1.1-cdh6.1.0</hive.version> </properties> <dependencies> <dependency> <groupId>org.apache.hive</groupId&.

2020-12-25 17:15:12 2168

原创 Cloudera Manager API使用(附代码)

Cloudera Manager API使用前言1. 需求：如何获取CDH集群的资源使用情况，包括cpu、磁盘、内存2. 实现：调用CDH提供的Cloudera Manager API包，来实时访问CDH上的各种监控指标数据，如下图接口介绍1 获取集群信息2 获取主机信息3 获取服务信息4 获取指标时序数据信息5 详细信息看：官网文档，使用实例demo：后面- cloudera官网文档：https://docs.cloudera.com/do...

2020-09-30 14:29:20 4925 6

原创 CentOS7安装ClickHouse

一卸载老版本1 卸载及删除安装文件# 查看clickhouse的yum源yum list installed | grep clickhouse# 移除clickhouse yumyum remove -y clickhouse-common-staticyum remove -y clickhouse-server-common# 移除相关目录rm -rf /var/lib/clickhouserm -rf /etc/clickhouse-*rm -rf /var/log/cl

2020-09-24 19:22:12 678

原创 Centos7安装Docker

一、Docker简介1 简介Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，相互之间不会有任何接口2 虚拟机和Docker的区别参考文章：https://www.cnblogs.com/kex1n/p/6933039.html3 Docker的概念镜像(Image)：类似于虚拟机的镜像，可以将他理解为一个面向Docker引擎的只读模板，包含了文件系.

2020-09-17 18:05:31 171

转载哈希算法和非对称加密算法的理解

1、哈希算法是什么？哈希算法又叫散列算法，是将任意长度的二进制值映射为较短的固定长度的二进制值，这个小的二进制值称为哈希值。它的原理其实很简单，就是把一段交易信息转换成一个固定长度的字符串。这串字符串具有一些特点：1.信息相同，字符串也相同。2.信息相似不会影响字符串相同。3.可以生成无数的信息，但是字符串的种类是一定的，所以是不可逆的。让我们举个例子理解一下：如果我们要搜一张图片，在没有人工标注的情况下，于巨大的图库中想要以图搜图是一件及其庞大而又困难的工作量。可是在训练集上，通过..

2020-08-18 17:53:22 1475 1

原创 cdh客户端部署

cdh客户端部署1. 服务器准备linux服务器CentOS72. 安装jdk1.8基本操作，这儿就不做介绍了3. 下载CDH的parcels包下载版本（这儿展示CDH6.1.0的，其他版本操作也一样的） cdh6.1.0 parcels下载地址,这儿建议挂代理下，否则可能有点慢，差不多1.9G4. 上传parcels包到CentOS7服务器上mkdir -p /opt/cloudera/parcelscd /opt/cloudera/parcelsrz 上传刚才.

2020-07-27 13:21:12 2443 2

转载 Hive实现自增列的两种方法

Hive实现自增列的两种方法背景说明1.多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数（UDF）。需求1. 假设有维度表tbl_dim和过渡表tbl_stg，现在要将tbl_stg的数据装载到tbl_dim，装载的同时生成维度表的代理键。实现.

2020-07-12 23:08:09 1193

原创 windows下统一换行符

windows下统一换行符背景 1. 系统说明-换行符：windows上换行符是CRLF；linux或者Mac OS上是LF 2. 统一为LF的原因： 1）由于我们最后的代码都是要部署到linux的，所以就统一设置成LF 2）不设置为LF的话，会导致windows下的某些shell脚本，放到linux上执行不了设置 1. git设置 1）git config --global core.eol lf #统一换行符为 lf...

2020-06-29 11:47:46 1658

原创 Azkaban安装部署教程

Azkaban安装部署教程源码编译下载源码git clone https://github.com/azkaban/azkaban.git#ps 如果github下载慢的话可以去码云上面下载码云地址：https://gitee.com/mirrors/azkaban?_from=gitee_searchgit clone https://gitee.com/mirrors/azkaban.git选择分支，编译成tar包git tag #查看所有taggit checkou

2020-06-28 21:49:30 579

原创 CentOS7安装Mysql

linux下mysql的安装安装前准备1.系统：CentOS72.准备工作1）检查是否已经安装过mysql，执行命令 rpm -qa | grep mysql #检查是否已经安装过mysql rpm -e --nodeps mysql-libs-5.1.73-5.el6_6.x86_64 #如果上述命令查出有历史版本，则删除该版本(查出来的版本)；没查出则不用管 rpm -qa | grep mysql #再次查看删除成功没2）查询所有Mysql对应的文件夹where..

2020-06-13 18:19:38 155

转载 DataX3.0简介

DataX3.0离线同步工具介绍目录DataX3.0离线同步工具介绍一. DataX3.0概览设计理念当前使用现状二、DataX3.0框架设计三. DataX3.0插件体系四、DataX3.0核心架构核心模块介绍：DataX调度流程：五、DataX 3.0六大核心优势可靠的数据质量监控丰富的数据转换功能精准的速度控制强劲的同步性能健壮...

2020-04-27 21:54:24 232

转载什么是Nacos？Nacos注册配置中心介绍

一、什么是Nacos英文全称Dynamic Naming and Configuration Service，Na为naming/nameServer即注册中心,co为configuration即注册中心，service是指该注册/配置中心都是以服务为核心。服务在nacos是一等公民二、Nacos原理nacos简单介绍Nacos注册中心分为server与client，se...

2020-04-26 09:56:40 738 1

原创 Python将Excel数据自动填写到Word

文章目录Python将Excel数据自动填写到Word需求实现py文件打包成exe程序Python将Excel数据自动填写到Word需求需求：批量制作劳动合同表，要从excel表格中将每个人的数据导入到docx劳动合同中，重复量很大，因此可以使用python高效解决渲染：为了让模板内容不变动，这里使用了类似jinja2的渲染引擎，使用{{ }}插值表达式把数据插入进去。也可以使用{% %...

2020-04-22 01:19:21 16111 6

转载 Draw.io--自认为最好用的流程图绘制软件

draw.io 是一个强大简洁的在线的绘图网站，支持流程图，UML图，架构图，原型图等图标。支持Github，Google Drive, One drive等网盘同步，并且永久免费。如果觉得使用Web版不方便，draw.io 也提供了多平台的离线桌面版可供下载。在线版：https://www.draw.io/PC电脑版：http://t.cn/Aid48ecf第一次使用，可以点击“la...

2020-04-12 14:29:43 2555

原创 Spark写入ES优化

文章目录Spark写入ES优化Spark写入ES方案写入性能优化案例Spark写入ES优化Spark写入ES方案1.写入demo，详情看官网- Elasticsearch for Apache Hadoop写入性能优化给filesystem cache更多的内存filesystem cache被用来执行更多的IO操作，如果我们能给filesystemcache更多的内存资源，那么...

2020-03-23 19:38:22 2978

原创 java.io.IOException: No FileSystem for scheme: hdfs

java.io.IOException: No FileSystem for scheme: hdfs在这篇文章中，介绍了如何将Maven依赖的包一起打包进jar包。使用maven-assembly打成jar后，将这个jar提供给其他工程引用的时候，报出如下错误：log4j:WARN No appenders could be found for logger (org.apa...

2020-03-04 17:00:18 888

转载 LSM树

关于LSM树LSM树，即日志结构合并树(Log-Structured Merge-Tree)。其实它并不属于一个具体的数据结构，它更多是一种数据结构的设计思想。大多NoSQL数据库核心思想都是基于LSM来做的，只是具体的实现不同。所以本来不打算列入该系列，但是有朋友留言了好几次让我讲LSM树，那么就说一下LSM树。LSM树诞生背景传统关系型数据库使用btree或一些变体作为存储结构，能...

2020-02-26 15:53:05 411

转载 zookeeper的原理和应用

场景一有这样一个场景：系统中有大约100w的用户，每个用户平均有3个邮箱账号，每隔5分钟，每个邮箱账需要收取100封邮件，最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力，从多个不同的网路出口进行访问外网，计算的压力得到缓解，那么每台机器的计算压力也不会很大了。通过我们的讨论和以往的经验判断在这场景中可以实现并行计算，但我们还期望能对并行计...

2020-02-19 17:06:12 266

转载 Windows系统IntelliJ IDEA安装配置

IntelliJ IDEA安装转载自：https://www.cnblogs.com/Dcl-Snow/archive/2019/03/07/10493341.htmlIntelliJ IDEA，是java编程语言开发的集成环境，业界公认的最好的Java开发IDE之一。打开IDEA官方网站https://www.jetbrains.com/idea/download/#section=w...

2020-02-11 18:22:13 494

转载原码、补码、反码的关系

一. 机器数和真值在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念.1、机器数一个数在计算机中的二进制表示形式, 叫做这个数的机器数。机器数是带符号的，在计算机用一个数的最高位存放符号, 正数为0, 负数为1.比如，十进制中的数 +3 ，计算机字长为8位，转换成二进制就是00000011。如果是 -3 ，就是 10000011 。那么，这里的 00000011 和...

2020-02-03 19:40:59 188

转载时序数据库技术体系 – Druid 多维查询之Bitmap索引

文章目录时序数据库技术体系 – Druid 多维查询之Bitmap索引背景Bitmap索引到底是什么Bitmap索引如何在内存中构建Bitmap索引构建时机维度列构建维度字典构建Bitmap索引Bitmap索引如何进行压缩处理Bitmap索引为什么需要压缩Bitmap索引如何进行压缩Bitmap索引如何持久化存储维度字典文件存储Bitmap索引文件存储查询时如何根据Bitmap索引构建Cursor...

2020-01-17 23:18:11 572

原创 Hive拉链表设计

文章目录拉链表设计选择原因具体实现拉链表设计选择原因选用拉链表的原因（粒度：天）利 1）相对于全量表来说，会省很多磁盘（因为从第一次初始化后，每天就只需要导入增量数据即可） 2）能有效的保留数据的整个生命周期弊 1）随着时间的迁移，拉链表会越来越大，查询性能会逐渐降低解决办法 1）可以在查询引擎中对t_start_date和t_end_date做索引 2）另外还可以...

2019-11-30 14:17:10 252

原创配置多个git账号

文章目录配置多个git账号背景开始配置多个git账号第一步：移除git全局配置第二步：生成账号1的ssh key并添加到github的setting处第三步：生成账号2的ssh key并添加到git私服的setting处第四步在/.ssh目录下配置config文件第五步为每个仓库配置用户名和邮箱（很重要）配置多个git账号背景平常工作中，我们一般设置一个全局账号就够了然而，有时候你除...

2019-10-17 18:04:54 283

原创 Hive数据同步到ES

文章目录Hive2Es需求准备工作-集群准备工作-数据Hive编码服务器部署Hive2Es需求将Hive的user标签数据同步到ElasticSearch每天生成一个index将user_id作为文档id准备工作-集群Hadoop集群、Hive集群、Yarn集群（用的是CDH）Spark集群（用的是CDH）ElasticSearch集群（单独部署的）准备工作-数据Hi...

2019-10-16 20:19:05 1288

原创递归和非递归方式实现文件读取

文章目录需求描述具体实现递归方式非递归方式（推荐使用）需求描述读取某个目录下的所有**文件名**具体实现递归方式递归方式读取普通目录 public static class LocalFileUtil { static ArrayList<String> files = new ArrayList<String>(); ...

2019-09-26 15:06:37 180

原创 Java搭建Spark程序，提交到Yarn

文章目录Java搭建Spark程序，提交到Yarn测试DemoJava搭建Spark程序，提交到Yarn测试Demopow文件依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www...

2019-08-18 21:39:39 1482 2

原创 Spark2.4读取HDFS失败

报错：Exception in thread “main” java.lang.IllegalAccessError: class org.apache.hadoop.hdfs.web.HftpFileSystem cannot access its superinterface org.apache.hadoop.hdfs.web.TokenAspect$TokenManagementDel...

2019-08-13 18:28:52 740

原创开源OLAP引擎对比

文章目录开源OLAP引擎对比OLAP简介分布式OLAP引擎分类及对比基于MPP架构的ROLAP引擎预计算引擎架构的MOLAP搜索引擎架构纯列存OLAP基于内存的SnappyData对比开源OLAP引擎对比OLAP简介OLAP(On-Line Analytical Processing)，即联机分析处理，其主要的功能在于方便大规模数据分析及统计计算，对决策提供参考和支持特点数据量大...

2019-07-28 15:59:50 9818 1

原创 Java8 Stream使用

文章目录Java8 Stream使用Demo1Java8 Stream使用Demo1Class1--->import lombok.AllArgsConstructor;import lombok.Data;@Data@AllArgsConstructorpublic class Post { private long id; private String ...

2019-06-30 17:52:55 282

原创 Java BigDecimal的使用

文章目录Java BigDecimal的使用Demo1Utils2Java BigDecimal的使用Demo1import java.math.BigDecimal;/** * class：ava.math.BigDecimal * 使用场景：金额的计算 */public class TestDecimal { public static void main(Stri...

2019-06-30 17:46:49 169

原创 Apache Pulsar和Apache BookKeeper

文章目录Apache Pulsar诞生背景及追求诞生背景发展历程追求、愿景安装部署安装参考相关知识介绍消息消费模型生产(发布)消费模型ACK机制消息的保留策略对比Kafka系统架构以及设计理念pulsar的分层架构部署架构存储和服务分离Pulsar的监控和报警Pulsar的其他应用DemoPulsar的应用场景与案例Apache BookKeeper术语和定义Bookeeper部署架构总结推荐一篇...

2019-05-28 23:43:51 1423

原创 Spring-Kafka源码解析

文章目录Spring-KafkakafkaConsumerkafkaConsumer消费者模型spring-kafka consumer实现Consumer ConfigskafkaProducerkafkaProducer生产者模型Producer Configs使用过程中踩的坑坑1坑2Spring-KafkakafkaConsumerkafkaConsumer消费者模型spring-...

2019-04-29 22:31:21 2098

原创 Flink实战（五）

文章目录Flink流处理过程剖析前言思考流的时间有序性保证窗口有序性流数据的容错：Checkpoint机制流、批处理对比flink流处理容错保障：Checkpoint机制StateFlink流处理过程剖析前言思考分布式领域，计算和存储一直是两大子领域各自分布式理念的实现逻辑也完全不同流的时间有序性保证背景：流处理框架消费kafka的topic的数据(多个分区)，由于网络延迟...

2019-03-19 23:37:22 412

原创 Flink实战（四）

文章目录Flink RuntimeFlink运行时概念Flink运行时架构Slot分配与共享Slot与parallelismFlink部署方式Flink RuntimeFlink运行时概念JobManagerTaskManagerTaskManager SlotsJobTask & SubtaskOperatorParallelismChainSlotSharing...

2019-03-02 11:50:08 610

原创 Flink实战（三）

文章目录Flink编程模型Flink分层架构Flink核心组件Flink分层架构Flink DataFlowFlink DataFlow基本套路Flink编程模型Flink分层架构Flink核心组件核心组件Flink分层架构Stateful Stream Processing位于最底层，是core API的底层实现Processing Function利用低阶，构建...

2019-03-02 02:55:25 905

原创 Flink实战（二）

文章目录Flink初探快速生成Flink项目Flink Batch版 WordCountFlink Stream版 WordCountFlink初探快速生成Flink项目推荐工具IDEA+Maven+Git推荐开发语言Java或者Scalaflink-quickstart：https://ci.apache.org/projects/flink/flink-docs-r...

2019-03-01 20:57:16 1039

原创 Flink实战（一）

文章目录Flink实战（一）Flink概述Flink是什么定义Stateful Computations over Data StreamsFlink的诞生和发展Flink特性Flink的生态与未来核心组件生态Flink未来Flink Use CasesFlink主要应用场景案例Flink vs Spark流处理框架对比Flink vs SparkFlink实战（一）Flink概述Flink...

2019-03-01 20:22:06 6883

空空如也

空空如也