leo825...-CSDN博客

原创大数据权限认证 Kerberos 部署

Kerberos是一种网络身份验证协议，旨在支持使用密钥加密的客户端/服务器应用程序的强大身份验证。Kerberos 为网络资源提供最高级别的安全性。Kerberos 应用客户端/服务器体系结构并支持用户到服务器的身份验证，而不是主机到主机的身份验证。在此模型中，安全性和身份验证将取决于密钥技术，其中网络上的每个主机都有自己的密钥。

2024-03-01 19:30:07 929

原创大数据集群管理软件 CDH、Ambari、DataSophon 对比

DataSophon也是个类似的管理平台，只不过与智子不同的是，智子的目的是锁死人类的基础科学阻碍人类技术爆炸，而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的，帮助您快速构建起稳定，高效的大数据集群服务。

2024-02-27 20:46:28 1218 1

原创 ClickHouse学习笔记（六）：ClickHouse物化视图使用

用户使用物化视图时跟普通的表没有太大区别，其实它就是一张逻辑表，也像是一张时刻在预计算的表，创建的过程它是用了一个特殊引擎，加上后来 as select，就是 create 一个 table as select 的写法。使用create 创建一个物化视图，会创建一个隐藏的目标表来保存视图数据，也可以 TO 表名，保存到一张显式的表。：普通视图不保存数据，保存的仅是查询语句，查询的时候还是从原表读取数据，可以将普通视图理解为是个子查询。同上，但是 cm 配置数据主键是 ne_name。

2024-01-17 18:02:38 1857

原创 Flink学习笔记（五）：Flink 四大基石之 State 和 Checkpoint

虽然数据流中的许多操作一次只查看一个单独的事件（例如事件分析器），但某些操作会记住跨多个事件的信息（例如窗口运算符）。这些操作称为有状态操作。当应用程序搜索某些事件模式时，状态需要存储截止当前时的事件序列；每分钟/每小时/每天聚合事件时，状态需要处理待处理的聚合；通过数据流训练机器学习模型时，状态保存模型参数的当前版本；当需要管理历史数据时，状态允许有效访问过去发生的事件。Flink 需要了解状态，以便使用 checkpoints 和 savepoints 使其容错。

2023-10-27 10:45:30 1678

原创 Flink学习笔记（四）：Flink 四大基石之 Window 和 Time

窗口 Window流数据计算中一般对数据尽心操作之前都会先进行开窗，即基于一个什么样的窗口上做这个计算Flink 提供了开箱即用的各种窗口，比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义窗口时间 TimeFlink 中窗口计算，基本都是基于时间窗口设置Flink 实现了 Watermark 的机制，能够支持基于事件时间的处理，能够容忍迟到、乱序的数据状态 StateFlink计算引擎，自身就是基于状态计算框架，默认情况下程序自己管理状态提供一致性的语义。

2023-10-23 10:46:45 1920

原创 Flink学习笔记（三）：Flink四种执行图

在 JobGraph 的基础上结合各算子的并行度生成的就是 ExecutionGraph （ExecutionGraph与 JobGraph 最大的区别就是按照并行度将每个算子的任务拆分成了多个并行的子任务，并明确了任务间数据传输的方式。：代表由一个 Task 的生成的数据，和 ExecutionGraph 中的 IntermediateResultPartition 一一对应。：Execution 被调度后在分配的 TaskManager 中启动对应的 Task。用来表示程序的拓扑结构。

2023-10-19 12:01:44 2028

原创 Flink学习笔记（二）：Flink内存模型

Flink JVM 进程的进程总内存（Total Process Memory）包含了由 Flink 应用使用的内存（Flink 总内存）以及由运行 Flink 的 JVM 使用的内存。Flink 总内存（Total Flink Memory）包括 JVM 堆内存（Heap Memory）和堆外内存（Off-Heap Memory）。如配置总内存中所述，另一种配置 JobManager 内存的方式是明确指定 JVM 堆内存的大小（jobmanager.memory.heap.size）。

2023-10-08 19:06:54 1507

原创 Flink学习笔记（一）：Flink重要概念和原理

Apache Flink是一个框架和分布式处理引擎，用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行，以内存速度和任何规模执行计算。本示例以 1.12 版本进行介绍，当前版本更新至 1.17。Apache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架，它基于同一个Flink流式执行模型（streaming execution model），能够支持流处理和批处理两种应用类型。

2023-10-07 18:12:24 1355

原创 SpringBoot笔记：SpringBoot 集成 Dataway 多数据源配置（二）

之前简单介绍了一下 Dataway 使用，本文继续介绍一下它的多数据源配置和使用。可以使用自定义udf

2023-08-10 16:42:36 732

原创一些低代码平台或者工具

Dataway 是基于 DataQL 服务聚合能力，为应用提供的一个接口配置工具。使得使用者无需开发任何代码就配置一个满足需求的接口。整个接口配置、测试、冒烟、发布。一站式都通过 Dataway 提供的 UI 界面完成。UI 会以 Jar 包方式提供并集成到应用中并和应用共享同一个 http 端口，应用无需单独为 Dataway 开辟新的管理端口。这种内嵌集成方式模式的优点是，可以使得大部分老项目都可以在无侵入的情况下直接应用 Dataway。进而改进老项目的迭代效率，大大减少企业项目研发成本。

2023-08-02 11:52:08 276

原创 SpringBoot笔记：SpringBoot 集成 Dataway（一）

依托DataQL 服务聚合能力，为应用提供一个 UI 界面。并以 jar 包的方式集成到应用中。通过 Dataway 可以直接在界面上配置和发布接口。这种模式的革新使得开发一个接口不必在编写任何形式的代码，只需要配置一条 DataQL 查询即可完成满足前端对接口的需求。

2023-08-01 14:46:04 1938

原创 Neo4j的简单使用

Neo4j的简单使用。

2023-06-28 16:44:09 578

原创知识图谱相关概念整理

知识图谱的定义：“知识图谱本质上是语义网络（）的知识库换个角度，从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图（。什么是对关系图？图（Graph）是由节点（Vertex）和边（Edge）来构成，但这些图通常只包含一种类型的节点和边。多关系图一般包含多种类型的节点和多种类型的边。知识图谱中，我们通用“实体（Entity）”来表达图中的节点，用“关系（Relation）”来表达图中的边；实体指的是显示世界中的事物比如人、地名、概念、药物、公司等，关系则用来表达不同实体之间的某种联系。

2023-06-27 19:48:54 940

原创 PostgreSQL学习笔记（一）：数据库、模式、表空间、用户、用户角色

当需要对一组数据库表(或函数等)的并发数进行单独控制时，需要对这些表(或函数等)放入一个新建的 database 中，PostgreSQL 对最大并发访问会话进行单独控制的最小单元是 database。其中的层级关系是：数据库-模式-对象。需要注意的是，虽然能创建多个数据库实例，但不能同时访问不同数据库中的对象，当需要访问另一个数据库中的表或其他对象时，需要重新连接到这个数据库，而模式却没有此限制，一个用户在连接到一个数据库后，就可以同时访问这个数据库中多个模式的对象。不同的数据库表空间有不同的定义。

2023-06-26 14:52:16 2485

原创数据仓库建设指导说明

元数据可以包括以下内容：数据定义描述数据的结构、格式、模式和约束条件。例如，数据表、字段、数据类型、主键、外键等。数据源和来源：记录数据的来源和数据源的信息，包括数据提供方、数据采集方式、数据传输协议等。数据质量指标：定义和记录数据质量指标和标准，例如数据准确性、完整性、一致性、时效性等。数据变动历史：记录数据的变动历史，包括数据的创建时间、修改时间、版本号等信息。数据访问权限：记录数据的访问权限和安全设置，包括数据的可访问范围、用户权限、角色权限等。

2023-06-25 16:18:23 1293

原创 Spark学习笔记（一）：Spark 基本原理

DAG Scheduler 是面向stage的高层级的调度器，DAG Scheduler 把 DAG 拆分为多个 Task，每组 Task 都是一个 Stage，解析时是以 shuffle 为边界进行反向构建的，每当遇见一个 shuffle，Spark 就会产生一个新的 Stage，接着以 TaskSet 的形式提交给底层的调度器（Task Scheduler），每个 Stage 封装成一个 TaskSet。很多复杂的 SQL 语句，在 Hive 中执行都需要一个小时以上的时间。

2023-06-13 17:10:14 937

原创 ClickHouse学习笔记（五）：ClickHouse 副本与分片

第一种：从数据层面区分，假设 ClickHouse 的 N 个节点组成了一个集群，在集群的各个节点上，都有一张结构相同的数据 Y。如果 N1 的 Y 和 N2 的 Y 中的数据完全不同，则 N1 和 N2 互为分片；如果他们的数据完全相同，则他们互为副本。分片之间的数据是不同的，副本之间的数据是完全相同的。第二种：从功能作用层面区分，使用副本的主要目的是防止数据丢失，增加数据存储的冗余；而使用分片的主要目的是实现数据的水平切分。

2023-05-04 17:47:39 1517 1

原创 ClickHouse学习笔记（四）：MergeTree 系列表引擎

MergeTree系列表引擎介绍

2023-03-29 17:54:41 1024

原创项目管理：一个“赢”字概括信息系统十大领域

月、贝、凡这三个叫做项目三制约，也叫作三个基准。

2023-03-28 17:16:05 695

原创 ClickHouse学习笔记（三）：MergeTree 原理解析

ClickHouse 有很多表引擎，而在众多的表引擎中，又属合并树（MergeTree）表引擎及其家族系列（*MergeTreee）最为强大，在生产环境的绝大部分场景中，都会使用此系列的表引擎。（1）生成分区目录，写入第一批数据；（2）相同分区的目录依照规则合并到一起；（3）按照 index_granularity 索引粒度生成 primary.idx 一级索引、二级索引、每一列的 .mrk 数据标记、.bin压缩文件。

2023-03-28 11:41:17 1486 1

原创 ClickHouse学习笔记（二）：ClickHouse常见表引擎简介

摘要：简单介绍了一下 ClickHouse 的常见表引擎

2023-03-27 13:43:21 1711

原创到底什么是跨域，如何解决跨域（常见的几种跨域解决方案）？

协议：http://子域名：www子域名：a.com端口号：8080请求资源地址：scripts/jquery.js跨域根本原因是由同源策略引起的。所谓同源是指域名，协议，端口相同，当页面在执行一个脚本时会检查访问的资源是否同源，如果非同源，在请求数据的时候浏览器会在控制台报一个异常，提示拒绝访问。注意：跨域限制访问，其实是浏览器的限制。理解这一点很重要！！！跨域访问的例子：请求跨域了，那么请求到底发出去没有？

2023-03-13 16:44:55 5730 2

原创 Servlet、ServletConfig、ServletContext、DispatcherServlet、ApplicationContext、WebApplicationContext区别？

Tomcat 是 Web 应用服务器，一个 Servlet 容器，Tomcat 作为 Servlet 容器，负责处理客户端请求，把请求传给 Servlet ，并将 Servlet 的响应返回给客户端。DispatcherServlet 本质上就是一个特殊的 Servlet ， web.xml 经过上述加载过程配置其他 Servlet，例如 DispatcherServlet，然后会找到 WebApplicationContext 容器，并把它作为自己的上下文。

2023-02-23 15:48:33 703

原创 ClickHouse学习笔记（一）：ClickHouse架构概述（为什么ClickHouse这么快呢？）

ClickHouse是一款MPP架构的数据库，它没有采用Hadoop生态中的主从架构，而是使用了多主对等网络结果，同时它也是基于关系模型的ROLAP方案。

2023-02-22 17:43:05 3096 2

原创 k8s笔记：MountVolume.SetUp failed for volume “secret-kube-etcd-client-certs“

MountVolume.SetUp failed for volume "secret-kube-etcd-client-certs" : secret "kube-etcd-client-certs" not found

2023-02-07 14:10:51 1431

原创 SpringBoot笔记：统一请求参数修改(HttpServletRequest流复制)，加解密参数也可参考处理

需要进行统一的解密请求 header 头里面的关键字 encryKey ，将解密出来的值赋给 provinceId 并传递给后端的每一个请求接口，并通过 provinceId 字段进行`数据分权`。

2023-01-31 13:13:28 3181

原创 Mysql：sql去重的几种方式（大数据hive也可参考）

我们做数据分析的时候经常会遇到去重问题，下面总结 sql 去重的几种方式，后续如果还有再补充，大数据分析层面包括也可参考。

2022-11-30 16:50:36 3338 3

原创 SpringBoot笔记：SpringBoot集成JWT、Shiro实战

之前写过《Spring集成Shiro框架实战》，最近看了JWT，正好两个整合一下，加深一下理解。

2022-11-14 21:57:21 804 2

原创 SpringBoot笔记：SpringBoot集成JWT实战

JWT。它将用户信息加密到 token 里，服务器不保存任何用户信息。服务器通过使用保存的密钥验证 token 的正确性，只要正确即通过验证。

2022-11-11 21:41:11 1847

原创 Lambda使用——Stream流合并、分组内对象数据合并

最终实现的效果是返回一个最终的list，里面的每一个实体值是上面所有字段合并后的值（provinceId、field1、field2、field3、field4、field5、field6、field7、field8、field9）A接口返回List里面有值的的字段为：provinceId、field1、field2、field3。B接口返回List里面有值的的字段为：provinceId、field4、field5、field6。数据出自许多接口数据，需要将几个接口数据根据省份id进行分组合并。

2022-11-04 17:46:03 3131

Java线程中wait,await,sleep,yield,join用法总结.pdf

空空如也