自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

u011047968的专栏

越努力越幸运

  • 博客(209)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据权限认证 Kerberos 部署

Kerberos是一种网络身份验证协议,旨在支持使用密钥加密的客户端/服务器应用程序的强大身份验证。Kerberos 为网络资源提供最高级别的安全性。Kerberos 应用客户端/服务器体系结构并支持用户到服务器的身份验证,而不是主机到主机的身份验证。在此模型中,安全性和身份验证将取决于密钥技术,其中网络上的每个主机都有自己的密钥。

2024-03-01 19:30:07 929

原创 大数据集群管理软件 CDH、Ambari、DataSophon 对比

DataSophon也是个类似的管理平台,只不过与智子不同的是,智子的目的是锁死人类的基础科学阻碍人类技术爆炸,而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。

2024-02-27 20:46:28 1218 1

原创 ClickHouse学习笔记(六):ClickHouse物化视图使用

用户使用物化视图时跟普通的表没有太大区别,其实它就是一张逻辑表,也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select 的写法。使用create 创建一个物化视图,会创建一个隐藏的目标表来保存视图数据,也可以 TO 表名,保存到 一 张显式的表。:普通视图不保存数据,保存的仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询。同上,但是 cm 配置数据主键是 ne_name。

2024-01-17 18:02:38 1857

原创 Flink学习笔记(五):Flink 四大基石之 State 和 Checkpoint

虽然数据流中的许多操作一次只查看一个单独的事件(例如事件分析器),但某些操作会记住跨多个事件的信息(例如窗口运算符)。这些操作称为有状态操作。当应用程序搜索某些事件模式时,状态需要存储截止当前时的事件序列;每分钟/每小时/每天聚合事件时,状态需要处理待处理的聚合;通过数据流训练机器学习模型时,状态保存模型参数的当前版本;当需要管理历史数据时,状态允许有效访问过去发生的事件。Flink 需要了解状态,以便使用 checkpoints 和 savepoints 使其容错。

2023-10-27 10:45:30 1678

原创 Flink学习笔记(四):Flink 四大基石之 Window 和 Time

窗口 Window流数据计算中一般对数据尽心操作之前都会先进行开窗,即基于一个什么样的窗口上做这个计算Flink 提供了开箱即用的各种窗口,比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义窗口时间 TimeFlink 中窗口计算,基本都是基于时间窗口设置Flink 实现了 Watermark 的机制,能够支持基于事件时间的处理,能够容忍迟到、乱序的数据状态 StateFlink计算引擎,自身就是基于状态计算框架,默认情况下程序自己管理状态提供一致性的语义。

2023-10-23 10:46:45 1920

原创 Flink学习笔记(三):Flink四种执行图

在 JobGraph 的基础上结合各算子的并行度生成的就是 ExecutionGraph (ExecutionGraph与 JobGraph 最大的区别就是按照并行度将每个算子的任务拆分成了多个并行的子任务,并明确了任务间数据传输的方式。:代表由一个 Task 的生成的数据,和 ExecutionGraph 中的 IntermediateResultPartition 一一对应。:Execution 被调度后在分配的 TaskManager 中启动对应的 Task。用来表示程序的拓扑结构。

2023-10-19 12:01:44 2028

原创 Flink学习笔记(二):Flink内存模型

Flink JVM 进程的进程总内存(Total Process Memory)包含了由 Flink 应用使用的内存(Flink 总内存)以及由运行 Flink 的 JVM 使用的内存。Flink 总内存(Total Flink Memory)包括 JVM 堆内存(Heap Memory)和堆外内存(Off-Heap Memory)。如配置总内存中所述,另一种配置 JobManager 内存的方式是明确指定 JVM 堆内存的大小(jobmanager.memory.heap.size)。

2023-10-08 19:06:54 1507

原创 Flink学习笔记(一):Flink重要概念和原理

Apache Flink是一个框架和分布式处理引擎,用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行,以内存速度和任何规模执行计算。本示例以 1.12 版本进行介绍,当前版本更新至 1.17。Apache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,它基于同一个Flink流式执行模型(streaming execution model),能够支持流处理和批处理两种应用类型。

2023-10-07 18:12:24 1355

原创 SpringBoot笔记:SpringBoot 集成 Dataway 多数据源配置(二)

之前简单介绍了一下 Dataway 使用,本文继续介绍一下它的多数据源配置和使用。可以使用自定义udf

2023-08-10 16:42:36 732

原创 一些低代码平台或者工具

Dataway 是基于 DataQL 服务聚合能力,为应用提供的一个接口配置工具。使得使用者无需开发任何代码就配置一个满足需求的接口。整个接口配置、测试、冒烟、发布。一站式都通过 Dataway 提供的 UI 界面完成。UI 会以 Jar 包方式提供并集成到应用中并和应用共享同一个 http 端口,应用无需单独为 Dataway 开辟新的管理端口。这种内嵌集成方式模式的优点是,可以使得大部分老项目都可以在无侵入的情况下直接应用 Dataway。进而改进老项目的迭代效率,大大减少企业项目研发成本。

2023-08-02 11:52:08 276

原创 SpringBoot笔记:SpringBoot 集成 Dataway(一)

依托DataQL 服务聚合能力,为应用提供一个 UI 界面。并以 jar 包的方式集成到应用中。通过 Dataway 可以直接在界面上配置和发布接口。这种模式的革新使得开发一个接口不必在编写任何形式的代码,只需要配置一条 DataQL 查询即可完成满足前端对接口的需求。

2023-08-01 14:46:04 1938

原创 Neo4j的简单使用

Neo4j的简单使用。

2023-06-28 16:44:09 578

原创 知识图谱相关概念整理

知识图谱的定义:“知识图谱本质上是语义网络()的知识库换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(。什么是对关系图?图(Graph)是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。多关系图一般包含多种类型的节点和多种类型的边。知识图谱中,我们通用“实体(Entity)”来表达图中的节点,用“关系(Relation)”来表达图中的边;实体指的是显示世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系。

2023-06-27 19:48:54 940

原创 PostgreSQL学习笔记(一):数据库、模式、表空间、用户、用户角色

当需要对一组数据库表(或函数等)的并发数进行单独控制时,需要对这些表(或函数等)放入一个新建的 database 中,PostgreSQL 对最大并发访问会话进行单独控制的最小单元是 database。其中的层级关系是:数据库-模式-对象。需要注意的是,虽然能创建多个数据库实例,但不能同时访问不同数据库中的对象,当需要访问另一个数据库中的表或其他对象时,需要重新连接到这个数据库,而模式却没有此限制,一个用户在连接到一个数据库后,就可以同时访问这个数据库中多个模式的对象。不同的数据库表空间有不同的定义。

2023-06-26 14:52:16 2485

原创 数据仓库建设指导说明

元数据可以包括以下内容:数据定义描述数据的结构、格式、模式和约束条件。例如,数据表、字段、数据类型、主键、外键等。数据源和来源:记录数据的来源和数据源的信息,包括数据提供方、数据采集方式、数据传输协议等。数据质量指标:定义和记录数据质量指标和标准,例如数据准确性、完整性、一致性、时效性等。数据变动历史:记录数据的变动历史,包括数据的创建时间、修改时间、版本号等信息。数据访问权限:记录数据的访问权限和安全设置,包括数据的可访问范围、用户权限、角色权限等。

2023-06-25 16:18:23 1293

原创 Spark学习笔记(一):Spark 基本原理

DAG Scheduler 是面向stage的高层级的调度器,DAG Scheduler 把 DAG 拆分为多个 Task,每组 Task 都是一个 Stage,解析时是以 shuffle 为边界进行反向构建的,每当遇见一个 shuffle,Spark 就会产生一个新的 Stage,接着以 TaskSet 的形式提交给底层的调度器(Task Scheduler),每个 Stage 封装成一个 TaskSet。很多复杂的 SQL 语句,在 Hive 中执行都需要一个小时以上的时间。

2023-06-13 17:10:14 937

原创 ClickHouse学习笔记(五):ClickHouse 副本与分片

第一种:从数据层面区分,假设 ClickHouse 的 N 个节点组成了一个集群,在集群的各个节点上,都有一张结构相同的数据 Y。如果 N1 的 Y 和 N2 的 Y 中的数据完全不同,则 N1 和 N2 互为分片;如果他们的数据完全相同,则他们互为副本。分片之间的数据是不同的,副本之间的数据是完全相同的。第二种:从功能作用层面区分,使用副本的主要目的是防止数据丢失,增加数据存储的冗余;而使用分片的主要目的是实现数据的水平切分。

2023-05-04 17:47:39 1517 1

原创 ClickHouse学习笔记(四):MergeTree 系列表引擎

MergeTree系列表引擎介绍

2023-03-29 17:54:41 1024

原创 项目管理:一个“赢”字概括信息系统十大领域

月、贝、凡 这三个叫做项目三制约,也叫作三个基准。

2023-03-28 17:16:05 695

原创 ClickHouse学习笔记(三):MergeTree 原理解析

ClickHouse 有很多表引擎,而在众多的表引擎中,又属合并树(MergeTree)表引擎及其家族系列(*MergeTreee)最为强大,在生产环境的绝大部分场景中,都会使用此系列的表引擎。(1)生成分区目录,写入第一批数据;(2)相同分区的目录依照规则合并到一起;(3)按照 index_granularity 索引粒度生成 primary.idx 一级索引、二级索引、每一列的 .mrk 数据标记、.bin压缩文件。

2023-03-28 11:41:17 1486 1

原创 ClickHouse学习笔记(二):ClickHouse常见表引擎简介

摘要:简单介绍了一下 ClickHouse 的常见表引擎

2023-03-27 13:43:21 1711

原创 到底什么是跨域,如何解决跨域(常见的几种跨域解决方案)?

协议:http://子域名:www子域名:a.com端口号:8080请求资源地址:scripts/jquery.js跨域根本原因是由同源策略引起的。所谓同源是指域名,协议,端口相同,当页面在执行一个脚本时会检查访问的资源是否同源,如果非同源,在请求数据的时候浏览器会在控制台报一个异常,提示拒绝访问。注意:跨域限制访问,其实是浏览器的限制。理解这一点很重要!!!跨域访问的例子:请求跨域了,那么请求到底发出去没有?

2023-03-13 16:44:55 5730 2

原创 Servlet、ServletConfig、ServletContext、DispatcherServlet、ApplicationContext、WebApplicationContext区别?

Tomcat 是 Web 应用服务器,一个 Servlet 容器,Tomcat 作为 Servlet 容器,负责处理客户端请求,把请求传给 Servlet ,并将 Servlet 的响应返回给客户端。DispatcherServlet 本质上就是一个特殊的 Servlet , web.xml 经过上述加载过程配置其他 Servlet,例如 DispatcherServlet,然后会找到 WebApplicationContext 容器,并把它作为自己的上下文。

2023-02-23 15:48:33 703

原创 ClickHouse学习笔记(一):ClickHouse架构概述(为什么ClickHouse这么快呢?)

ClickHouse是一款MPP架构的数据库,它没有采用Hadoop生态中的主从架构,而是使用了多主对等网络结果,同时它也是基于关系模型的ROLAP方案。

2023-02-22 17:43:05 3096 2

原创 k8s笔记:MountVolume.SetUp failed for volume “secret-kube-etcd-client-certs“

MountVolume.SetUp failed for volume "secret-kube-etcd-client-certs" : secret "kube-etcd-client-certs" not found

2023-02-07 14:10:51 1431

原创 SpringBoot笔记:统一请求参数修改(HttpServletRequest流复制),加解密参数也可参考处理

需要进行统一的解密请求 header 头里面的关键字 encryKey ,将解密出来的值赋给 provinceId 并传递给后端的每一个请求接口,并通过 provinceId 字段进行`数据分权`。

2023-01-31 13:13:28 3181

原创 Mysql:sql去重的几种方式(大数据hive也可参考)

我们做数据分析的时候经常会遇到去重问题,下面总结 sql 去重的几种方式,后续如果还有再补充,大数据分析层面包括也可参考。

2022-11-30 16:50:36 3338 3

原创 SpringBoot笔记:SpringBoot集成JWT、Shiro实战

之前写过《Spring集成Shiro框架实战》,最近看了JWT,正好两个整合一下,加深一下理解。

2022-11-14 21:57:21 804 2

原创 SpringBoot笔记:SpringBoot集成JWT实战

JWT。它将用户信息加密到 token 里,服务器不保存任何用户信息。服务器通过使用保存的密钥验证 token 的正确性,只要正确即通过验证。

2022-11-11 21:41:11 1847

原创 Lambda使用——Stream流合并、分组内对象数据合并

最终实现的效果是返回一个最终的list,里面的每一个实体值是上面所有字段合并后的值(provinceId、field1、field2、field3、field4、field5、field6、field7、field8、field9)A接口返回List里面有值的的字段为:provinceId、field1、field2、field3。B接口返回List里面有值的的字段为:provinceId、field4、field5、field6。数据出自许多接口数据,需要将几个接口数据根据省份id进行分组合并。

2022-11-04 17:46:03 3131

原创 HDFS学习笔记(五):Yarn架构原理

调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念“资源容器”(Resouce Container,简称 Container)标识,Container 是一个动态资源分配单位,它将内存、CPU、磁盘、网络等资源封装在一起,从而限定每个任务使用的资源量。Container 是 Yarn 中的资源抽象,它封装了某个 节点上的多维度资源,如内存、CPU、磁盘、网络等,当 AM 向 RM 申请资源时,RM 为 AM 返回的资源便是用 Container 表示的。

2022-09-08 13:32:05 1304

原创 HDFS学习笔记(四):MapReduce原理

MapReduce 是面向大数据并行处理的计算模型、框架和平台。1)MapReduce 是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。使用它来编写的数据处理应用可以运行在大型的商用硬件集群上来处理大型数据集中的可并行化问题,数据处理可以发生在存储在文件系统(非结构化)或数据库(结构化)中的数据上。MapReduce 可以利用数据的位置,在存储的位置附近处理数据,以最大限度地减少通信开销。......

2022-08-31 16:59:02 1260

原创 HDFS学习笔记(三):HDFS 分布式文件系统原理

HDFS 全称是 Hadoop Distribute File System,翻译过来就是 Hadoop 分布式文件系统

2022-07-27 17:58:57 1426

原创 SpringBoot笔记:SpringBoot集成MybatisPlus、H2纯内存数据库实战

有一些使用场景比较简单不需要搭建mysql等比较重型的服务,使用小而轻巧的内存数据库也能满足要求,本文将实战操作纯内存型数据库H2。非常快、开源、支持JDBCAP嵌入式和服务式模式,内存型数据库基于浏览器控制台的应用程序,不需要安装第三方工具占用空间小,jar仅仅只有2MB大小springboot整合h2和sqlite、mysql差不多,代码库地址如下httpshttpshttpshttps。...

2022-07-27 08:43:36 3837 4

原创 HDFS学习笔记(二):HDFS 常用操作命令大全(Hadoop版本3.3.1)

hdfs 常见命令汇总

2022-07-22 18:05:18 2814

原创 SpringBoot笔记:SpringBoot集成FTP(连接池)、SFTP(连接池)

即 文件传输协议(英语: 的缩写)是一个用于计算机网络上在客户端和服务器之间进行文件传输的应用层协议。完整的 FTP 是由 FTP 服务器 和 FTP 客户端组成的,客户端可以将本地的文件通过 FTP 协议上传到服务器,也可以将服务器的文件下载到本地。它是当今使用的最古老的文件传输协议之一,是一种非常便捷的移动文件的方式。 连接需要 FTP 服务器和客户端两方在网络上建立通信。建立 FTP 连接时会有两个不同的通信通道。一个被称为命令通道,它的作用是发出和响应指令。另一个为数据通道,用于客户端和服务

2022-07-20 15:04:05 8717 28

原创 Java字节码学习笔记(二):Java字节码怎么看?

.class 文件本身是二进制字节码,直接看的话太晦涩难懂,我们这边看的时候借助一些反汇编工具来查看。 可以反编译字节码文件。通过 命令可以了解 javap 的基本用法。1.2、jclasslib 是 IDEA 开发工具中的一个插件,可以方便查看每个 java 类编译后的字节码文件。具体安装方法很多,不再赘述。2.2、编译后使用 javap 命令查看字节码:使用 javap 反编译后的文件内容如下:2.3、字节码结构引用 Oracle 官方给的字节码结构如下:解释一下无符

2022-07-12 18:42:42 1709

原创 SpringBoot笔记:SpringBoot集成MyBatisPlus、Sqlite实战

时间关系,不做太多解释,sqlite 是一个很轻量级的数据库,可以满足日常 sql 的需求,如果不需要使用像 mysql 那样重量级的数据库可以考虑使用 sqllite。 SQLite 一般用于处理小到中型数据存储,对于高并发高流量的应用不适用。application.yml 配置schema.sqldata.sqlmapperserviceimpl 实现类:controller总结springboot 整合 sqllite 和 mysql 差不多,代码库地址如下:...

2022-07-05 17:29:12 4857 14

原创 SpringBoot笔记:SpringBoot集成MyBatisPlus实战

(简称 MP)在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。 使用 mybatisplus 需要先确定表结构,下面就是测试用的表结构。pom 配置yml配置代码生成器(神器) 使用代码生成器,把以前用于 CURD 的代码一键生成,大大节省了时间提高了效率,把原本1天的工作量,1个小时就能完成。MybatisPlusGenerator.java生成结果如下:...

2022-07-05 12:34:17 933

原创 SpringBoot笔记:SpringBoot集成MyBatis实战

因时间有限,简单说明一下 springboot 如何集成 mybatis的。详细的代码库地址:2、代码实战2.1、pom.xml 配置本地开发使用 jdk8,mysql 版本 8.0.282.2、yml 配置springboot 配置文件配置如下:2.3、整体的代码层次结构使用 @MapperScan 注解,添加 Mapper2.5、mysql 表结构2.6、Model2.7、Mappermapper.xml2.8、Serviceimpl 实现类2.9、Controlle

2022-07-04 16:52:26 876

Java线程中wait,await,sleep,yield,join用法总结.pdf

Java线程中wait、await、sleep、yield、join用法汇总,文章里面总结了这些关键字的用法,并且里面带有源码帮助分析用法,此一文就可以理解这些关键字用法,推荐拥有

2020-06-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除