诸葛余-CSDN博客

原创数据仓库与数据中台的区别？

数据中台把数据统一之后，会形成标准数据，再进行存储，形成数据大数据资产层，进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性，是这个企业独有的且能复用的，它是企业业务和数据的沉淀，其不仅能降低重复建设、减少烟囱式协作的成本，也是差异化竞争优势在。成本是消耗性质的、是临时的、无法被复用的。总的来说，数据中台吸收了传统数据仓库、数据湖、大数据平台的优势，同时又解决了数据共享的难题，通过数据应用，实现数据价值的落地。数据中台的核心，是避免数据的重复计算，通过数据服务化，提高数据的共享能力，赋能数据应用。

2023-04-09 15:47:12 246

原创数仓分层介绍

对ODS层的数据进行清洗转换，满足数据标准化的需求，如对NULL值得处理，日期格式转换，字段合并，脏数据处理等。对DWD的数据按照各种维度或多种维度进行组合，对一些事实字段进行汇总统计。根据业务需要，由DWD和DWS层统计处理的结果，可直接供业务查询使用。保留原始数据，不对原始数据做任何处理。1、ODS原始数据层。2、DWD明细数据层。3、DWS数据汇总层。4、ADS应用数据层。

2023-03-19 23:19:13 185

原创数据仓库为什么要分层？

把复杂的数据治理过程分解成多层来处理，每层只需处理简单的任务，方便问题的排查。规范数据分层，通过主题层数据，能极大减少重复研发，提升一次计算结果的复用性。真实数据和统计数据分离开。1、把复杂问题简单化。

2023-03-19 22:31:32 249

原创 Hadoop3.1.1源码编译--StagingTestBase.java:[647,23] cannot find symbol问题

StagingTestBase.java:[647,23] cannot find symbolStagingTestBase.java类在hadoop-tools/hadoop-aws/test目录下，属于测试类，可以删除。将hadoop源码目录hadoop-3.1.1-src/hadoop-tools/hadoop-aws/src/下的test目录移出后编译成功。...

2021-07-22 09:48:06 158

原创 Flink算子调用C语言.so文件

public interface Clibrary extends Library{// String path = Thread.currentThread().getContextClassLoader().getResource("sayhello").getPath(); Clibrary INSTANCE = (Clibrary) Native.loadLibrary("sayhello", Clibrary.class); int sayHello(); int add(int a,.

2021-03-23 17:26:30 1000 1

原创 FlinkSql配置Kerberos环境下的Kafka Source&Sink

1、配置flink-conf.yaml配置文件，将kerberos相关配置放开security.kerberos.login.use-ticket-cache: truesecurity.kerberos.login.keytab: /path/to/kerberos/keytabsecurity.kerberos.login.principal: flink-user# The configuration below defines which JAAS login contextsse

2021-03-19 10:14:39 2500 7

原创数据仓库构建方法论和简单实践

https://mp.weixin.qq.com/s/dPIySezOvvt80yZqVJSneQ

2021-03-14 20:05:51 111

原创数仓建设方法论

一、数仓分层1.1分层概念ods：原始数据层，存放原始数据。dwd：明细数据层，对原始数据进行清洗，如去空值、日期格式转换、数据脱敏、脏数据处理等。dws：数据服务层，对明细数据层进行轻度汇总。dwt：数据主题层，以dws层为基础，进行数据累积汇总。ads：数据应用层，为数据应用提供数据，指标等。1.2 数仓分层的意义1、把复杂的问题简单化。2、减少重复研发。3、使用数据与原始数据解耦。二、数仓理论2.1关系建模与维度建模...

2021-03-12 22:34:29 1030

原创数据中台建设方法论

一、数据中台定义数据中台是企业构建的标准的、安全的、统一的、共享的数据组织，通过数据服务化的方式支撑前端数据应用。一、数据中台建设基础元数据管理是建设数据中台的基础。数据中台建设需要保证一张表只加工一次、同等含义的指标只有一个即需要保证统一数据模型，统一指标口径，实现这些需要元数据管理作为基础。元数据管理应包含数据字典、数据血缘、指标管理、数据地图。数据字典让我们知道数据的结构信息，数据血缘让我们知道一张表是怎么来的，指标管理让我们清楚的知道指标的业务含义，数据地图...

2021-03-07 19:51:02 624

原创 Flink 1.11.1 No ExecutorFactory found to execute the application

Exception in thread "main" java.lang.IllegalStateException: No ExecutorFactory found to execute the application.需要引入依赖：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients_2.11</artifactId>

2021-01-04 20:29:14 141

原创 Scala与Java的关系

1、Scala语言诞生的小故事 Scala创始人马丁·奥德斯基（Martin Odersky）是编译器及编程的狂热爱好者，长时间的编程之后，希望发明一种语言，能够让写程序这样的基础工作变得高效，简单。所以当接触到JAVA语言后，对JAVA这门便携式，运行在网络，且存在垃圾回收的语言产生了极大的兴趣，所以决定将函数式编程语言的特点融合到JAVA中，由此发明了两种语言（Pizza&Scala） Pizza和Scala极大地推动了Java编程语言的发展。 jdk5.0的泛型，for循环...

2020-12-31 21:50:51 1820

原创 CDH Parcel包制作流程详解

CDH Parcel包制作流程详解背景介绍CDH可以很方便的添加一些大数据相关服务，但这仅限于cloudera公司提供。若想将第三方服务（如公司自己开发的组件）添加到CDH集群（托管在CDH上），需要按照一定的规则流程制作相关程序包，最后发布到CDH上。本文以开源项目dolphinscheduler的master服务打包成parcel包部署为例，详解cdh parcel包的制作详细流程。相关规则介绍一个完整的集成到CDH的parcel包应包含如下几个包：●parcel：以“...

2020-12-28 21:09:47 5085 10

原创 ClickHouse中文社区

https://clickhouse.tech/docs/zh/introduction/distinctive-features/

2020-11-20 09:37:16 1467

原创 flink on yarn 提交运行could not find a file system implementation for scheme ‘hdfs‘问题解决

12:50:44,201 WARN org.apache.flink.configuration.GlobalConfiguration - Error while trying to split key and value in configuration file /yarn/nm/usercache/root/appcache/application_1602660926640_0023/container_1602660926640_0023_01_000001/flink.

2020-10-31 12:14:58 2831

原创 ElasticSearch权限控制实战

1 简介当前直接使用ElasticSearch以及通过Kibana访问时，没有做任何限制，没有做用户和权限的控制，安全性上有一定风险，因此通过ES提供的X-PACK来实现这一需求。官网简介如下：X-Pack是一种Elastic Stack扩展，可将安全性，警报，监控，报告和图形功能捆绑到一个易于安装的软件包中。通过X-Pack组件可以无缝协同工作，但您可以轻松地启用或禁用要使用的功能（6.3版本后默认集成，免费功能可直接使用）。2 部署安装2.1生成证书借助elasticsearch-.

2020-09-03 22:01:39 3160

原创 Grafana集成Cloudera Manager监控指南

Grafana集成Cloudera Manager监控指南1 Cloudera Manager数据源●下载foursquare-datasource-plugin-clouderamanager-v0.9.2 cdh插件，解压插件到grafana的data/plugins目录下，重启grafana，开源的foursquare-datasource-plugin-clouderamanager-v0.9.2 cdh插件无法直接使用，会出现dateMath.parse is not function错.

2020-09-01 09:39:54 1209 8

原创 Prometheus技术讲义

Prometheus技术讲义1简介Prometheus是一个开源的系统监控和告警系统，现在已经加入到CNCF基金会，成为继k8s之后第二个在CNCF维护管理的项目，在kubernetes容器管理系统中，通常会搭配prometheus进行监控，prometheus支持多种exporter采集数据，还支持通过pushgateway进行数据上报，prometheus在性能上可以支持上万台规模的集群。作为新一代的监控框架，Prometheus 具有以下特点：●强大的多维度数据模型。●时间序列..

2020-08-20 22:26:34 733

原创 FlinkSql on yarn 提交踩坑记录

FlinkSql on yarn 提交踩坑记录最近需要实现一个flinksql执行引擎，实现前台只需关注sql编写，后台自动提交flinksql到yarn集群中，由于初次接触flinksql，对flinksql研究不深，在实现过程中遇到很多问题。其中一个问题研究了挺长时间，相信很多初次玩flinksql的朋友们也会遇到这个问题，所以在这里分享一下问题的解决方法。我是在本地跑通了flinksql的kafk...

2020-08-01 22:17:33 3788 3

原创 Sylph安装过程遇到的坑及解决方法

Sylph安装过程遇到的坑及解决方法1、下载安装包由于官方没有提供编译好的安装包，且安装包编译过程很慢，我这边上传了该编译好的资源，点击下方链接下载。包下载解压后目录结构如下：链接：https://pan.baidu.com/s/1_BNqpl0pkWj-FyHgRT-E4Q提取码：qwer2、准备好Spark和Flink安装环境在etc/sylph/sylph-env.sh配置SPARK_HOME和FLINK_HOME已经HADOOP_CONF_DIRSylp...

2020-07-26 18:42:32 483

原创 JAVA接入微信扫码支付，实测有效

2020-02-29 00:23:04 908

原创 Spark master和worker启动流程

一、master启动UML图1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数，并调用startRpcEnvAndEndpoint（）创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv（AkkaSystem），创建masterEndPoint（actor），new M...

2019-08-13 22:24:47 797

原创 CDH集群搭建总结

Centos6.7 + CDH5.4.5HADOOP 集群环境离线安装目录Centos6.7 + CDH5.4.5. 1HADOOP 集群环境离线安装... 1一、集群系统环境准备... 41. 环境介绍... 42. 安装文件...

2018-08-14 13:00:46 645 1

kafka可视化管理工具

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

2022-08-16

基于Trino358和Carbondata2.2.0编译的Trino Carbondata Plugin

CarbonData是一种新型的Apache Hadoop本地文件格式，使用先进的列式存储、索引、压缩和编码技术，以提高计算效率，有助于加速超过PB数量级的数据查询，可用于更快的交互查询。同时，CarbonData也是一种将数据源与Spark集成的高性能分析引擎。 Trino完全基于内存的并⾏计算，分布式SQL交互式查询引擎.是一种Massively parallel processing (MPP)架构，多个节点管道式执⾏,⽀持任意数据源（通过扩展式Connector组件），数据规模GB~PB级使用的技术，如向量计算，动态编译执⾏计划，优化的ORC和Parquet Reader等

2022-08-16

ranger-2.1.0-presto-plugin.tar.gz

2021-08-09

ranger-2.1.0-elasticsearch-plugin.tar.gz

2021-08-09

ranger-2.1.0-hbase-plugin.tar.gz

2021-08-09

ranger-2.1.0-tagsync.tar.gz

2021-08-09

ranger-2.1.0-yarn-plugin.tar.gz

2021-08-09

ranger-2.1.0-usersync.tar.gz

2021-08-09

ranger-2.1.0-hive-plugin.tar.gz

2021-08-09

ranger-2.1.0-hdfs-plugin.tar.gz

2021-08-09

ranger-2.1.0-admin.tar.gz

2021-08-09

ranger-2.1.0-kafka-plugin.tar.gz

2021-08-09

apisix-dashboard-2.0-rc2.tar.gz

APISIX 是一个云原生、高性能、可扩展的微服务 API 网关。它是基于 OpenResty 和 etcd来实现，和传统 API 网关相比，APISIX 具备动态路由和插件热加载，特别适合微服务体系下的 API 管理。 APISIX 是基于云原生的微服务 API 网关，它是所有业务流量的入口，可以处理传统的南北向流量(server-client)，也可以处理服务间的东西向流量(server-server)，也可以当做 k8s ingress controller 来使用。

2020-11-10

apisix-2.0-0.el7.noarch .rpm

2020-11-10

grafana-6.7.4.linux-amd64.tar.gz

grafana 6.7.4 linux安装包 grafana 是一款采用 go 语言编写的开源应用，主要用于大规模指标数据的可视化展现，是网络架构和应用分析中最流行的时序数据展示工具，目前已经支持绝大部分常用的时序数据库

2020-09-06

grafana-6.7.x.zip

grafana 6.7.x版本源码grafana 是一款采用 go 语言编写的开源应用，主要用于大规模指标数据的可视化展现，是网络架构和应用分析中最流行的时序数据展示工具，目前已经支持绝大部分常用的时序数据库

2020-09-06

大数据技术之Kafka详解

大数据技术之 Kafka

2020-09-03

foursquare-datasource-plugin-clouderamanager-v0.9.2-0-g9ac3d25.zip

grafana的cloudera manager插件，由于开源的grafana cdh插件在集成时会出现dateMath.parse is not a function问题，修复后可直接使用。本资源包是修复问题后的，可直接放到grafana plugins文件夹下，即可使用。

2020-08-31

go1.15.windows-amd64.msi

go windows平台安装包Go（又称 Golang）是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译型语言。Go 语言语法与 C 相近，但功能上有：内存安全，GC（垃圾回收），结构形态及 CSP-style 并发计算。

2020-08-21

Prometheus.docx

Prometheus技术讲义 1 1简介 1 2架构图 2 3 prometheus组件介绍 2 4基本原理 3 5服务过程 3 6部署 4 7度量类型 4 7.1、Counter(计数器类型) 4 7.2、Gauge(仪表测量类型) 4 7.3、Histogram(直方图类型) 5 7.4、Summary(摘要类型) 5 8查询语法 5 9常用函数 6

2020-08-20

Flink基础讲义.docx

第一章 Flink简介【了解】 1 1.1. Flink的引入 1 1.2. 什么是Flink 4 1.3. Flink流处理特性 4 1.4. Flink基石 5 1.5. 批处理与流处理 6 第二章 Flink架构体系 8 第三章 Flink集群搭建 12 第四章 DataSet开发 48 第五章 DataStream开发 111 第六章 Window 157 第七章 EventTime-Watermark(难点) 175 第八章 Flink的状态管理 200 第九章 Flink的容错 226 第1种：全局调整 235 第2种：单任务调整 235 第十章 flink 扩展知识 261 第十一章 flink-SQL开发 277 第十二章总结 292

2020-08-19

sql_exporter-0.5.linux-amd64.tar.gz

prometheus sql采集器,sql_exporter导出器主要用来配置连接到到MySQL（MariaDB）、PostgreSQL等数据库，允许用户编写SQL来获取业务相关指标

2020-08-19

大数据之flink教程-TableAPI和SQL.pdf

第一章整体介绍 2 1.1 什么是 Table API 和 Flink SQL 2 1.2 需要引入的依赖 2 1.3 两种 planner（old & blink）的区别 4 第二章 API 调用 5 2.1 基本程序结构 5 2.2 创建表环境 5 2.3 在 Catalog 中注册表 7 2.3.1 表（Table）的概念 7 2.3.2 连接到文件系统（Csv 格式） 7 2.3.3 连接到 Kafka 8 2.4 表的查询 9 2.4.1 Table API 的调用 9 2.4.2 SQL 查询 10 2.5 将 DataStream 转换成表 11 2.5.1 代码表达 11 2.5.2 数据类型与 Table schema 的对应 12 2.6. 创建临时视图（Temporary View） 12 2.7. 输出表 14 2.7.1 输出到文件 14 2.7.2 更新模式（Update Mode） 15 2.7.3 输出到 Kafka 16 2.7.4 输出到 ElasticSearch 16 2.7.5 输出到 MySql 17 2.8 将表转换成 DataStream 18 2.9 Query 的解释和执行 20 1. 优化查询计划 20 2. 解释成 DataStream 或者 DataSet 程序 20 第三章流处理中的特殊概念 20 3.1 流处理和关系代数（表，及 SQL）的区别 21 3.2 动态表（Dynamic Tables） 21 3.3 流式持续查询的过程 21 3.3.1 将流转换成表（Table） 22 3.3.2 持续查询（Continuous Query） 23 3.3.3 将动态表转换成流 23 3.4 时间特性 25 3.4.1 处理时间（Processing Time） 25 3.4.2 事件时间（Event Time） 27 第四章窗口（Windows） 30 4.1 分组窗口（Group Windows） 30 4.1.1 滚动窗口 31 4.1.2 滑动窗口 32 4.1.3 会话窗口 32 4.2 Over Windows 33 1）无界的 over window 33 2）有界的 over window 34 4.3 SQL 中窗口的定义 34 4.3.1 Group Windows 34 4.3.2 Over Windows 35 4.4 代码练习（以分组滚动窗口为例） 36 第五章函数（Functions） 38 5.1 系统内置函数 38 5.2 UDF 40 5.2.1 注册用户自定义函数 UDF 40 5.2.2 标量函数（Scalar Functions） 40 5.2.3 表函数（Table Functions） 42 5.2.4 聚合函数（Aggregate Functions） 45 5.2.5 表聚合函数（Table Aggregate Functions） 47

2020-07-27

flink-1.8.1-bin-scala_2.11.tgz

flink1.8部署包 Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行

2020-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人