自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

木南曌的博客

知行合一

  • 博客(70)
  • 资源 (1)
  • 收藏
  • 关注

原创 Flink 作业管理器:核心功能、角色与责任详解

它负责作业的接收、解析、规划、调度、状态管理、容错处理以及与用户的交互,确保流处理作业在复杂的分布式环境中高效、可靠地运行。通过高可用部署和丰富的监控手段,作业管理器为用户提供了一个稳定、可控的流处理平台,适应各种规模和复杂度的实时数据处理场景。Apache Flink 中的作业管理器(JobManager),又称为 Master,是整个 Flink 集群的核心控制组件,负责对提交的流处理作业进行全局管理和协调。

2024-04-24 16:25:02 196

原创 Flink Checkpoint 状态后端详解:类型、特性对比及场景化选型指南

用户还可以根据自己的需求实现自定义的状态后端,以对接第三方存储系统或满足特定的存储和访问特性。场景化选型方案:小型且短生命周期的流处理作业:优先考虑 MemoryStateBackend,因为它在内存中直接存储状态,拥有最快的访问速度。中等规模且状态不需要长期保留的作业:FsStateBackend 是一个不错的选择,既能克服内存限制,又能保证较好的性能。大型流处理作业,需要长期维护大状态数据。

2024-04-02 19:23:10 488

原创 Flink Checkpoint 机制深度解析:原理、注意事项与最佳实践

Checkpoint 主要通过周期性地创建应用流图状态的全局快照来实现,当系统发生故障时,可以从最近成功的 Checkpoint 快照恢复,从而实现 Exactly-Once 处理语义。:所有算子完成状态快照后,会通知 Checkpoint Coordinator,只有当所有参与 Checkpoint 的算子都成功完成了状态持久化,这个 Checkpoint 才会被标记为“已完成”。:若在处理过程中某部分失败,Flink 会从最近的已完成 Checkpoint 进行状态恢复,重新构建出一致的数据流视图。

2024-04-01 11:43:18 700

原创 Flink 中 Slot 机制详解:概念、原理与开发实践

Flink 支持算子链(Operator Chaining),当链上的算子具有相同的并行度时,这些算子可以共享一个 Slot,减少数据在内存中传输的成本,提高性能。总结来说,Flink 中的 Slot 是实现作业并行执行和资源管理的关键组件,通过灵活配置 Slot 数量和合理使用 Slot Sharing Group,能够有效优化分布式环境下作业的执行效率和资源利用率。:作业中的一个算子设置了并行度之后,会生成对应的多个子任务,这些子任务将会被分配到不同或相同的 Slot 上执行,以实现并行处理数据。

2024-03-29 16:26:07 499

原创 大模型的 Token 使用详解:限制与注意事项

Token 可以是单个字符、单词、或由多个词组成的短语。Token 作为模型理解和处理文本的基础,有助于模型捕捉语言的结构和语义信息。

2024-03-27 23:14:38 604

原创 Flink 中 Task(任务)的概念、定位及应用详解与易混淆点梳理

在 Flink 中,Task 是作业(Job)拆解后的最小执行单元,它负责执行具体的计算逻辑。一般情况下每个 Task 对应着作业中特定运算步骤的一个实例,比如 map、filter、join 等操作。在发生 Operator Chain 情况下,一个 Task 可能包含多个算子的操作逻辑。任务的划分:在一个job的执行计划(数据流图)中,从source到计算到sink,每当并行度发生变化或者数据需要分组(keyBy)时(还可通过API明确设置),就会产生任务。

2024-03-25 17:07:30 679

原创 深度解析大模型的关键特性与优势

大模型在经过大规模数据训练后,能在未经见过的场景下表现出良好的泛化能力,即在处理未在训练集中出现过的任务时仍能给出合理的答案或结果,体现出较强的“涌现”能力。总而言之,大模型以其显著的规模优势、强大的泛化能力和广泛的应用前景,正在深度学习和人工智能领域发挥着至关重要的作用,并引领新一轮的技术创新和产业变革。大模型的广泛应用带来了伦理和社会问题的讨论,例如隐私保护、数据偏见、模型可解释性等方面,这些都是大模型发展过程中不容忽视的重要方面。

2024-03-22 16:44:35 198

原创 Apache Flink 中 Watermark 机制详解及其核心原理与应用示例

在 Apache Flink 流处理框架中,Watermark 是一个关键的时间概念,用于处理事件时间窗口(event-time processing)中的乱序事件问题。由于网络延迟等因素,事件可能会乱序到达,为了确保在某个时间窗口内完成所有相关的事件处理,Flink 引入了 Watermark 机制。水印是一个特殊的时间戳,代表了某个时间点之前的数据理论上应该都已经到达了系统,即“最多允许的延迟”。一旦水印时间戳超过了窗口结束时间,窗口就可以被认为是完整的,并触发窗口计算。

2024-03-20 19:13:26 614

原创 深度解析大模型:概念、架构与应用价值

大模型,作为一种前沿的人工智能技术,已经成为深度学习领域的研究热点和发展趋势。这一概念主要指代那些规模庞大、参数数量众多、结构复杂的机器学习模型,尤其是深度神经网络模型。总结来说,大模型凭借其前所未有的规模和复杂性,正持续拓展人工智能技术的边界,为未来智能系统的开发和应用开辟了广阔的可能性。随着技术的不断迭代升级,大模型有望进一步推动人工智能向通用智能方向发展。

2024-03-18 22:24:44 417

原创 Flink 数据目录体系:深入理解 Catalog、Database 及 Table 概念

综上所述,Catalog、Database 和 Table 构成了 Flink 数据管理的基础架构,它们共同提供了对分布式数据源的抽象和统一访问接口,使得用户能够在一个统一的视角下对各类数据源进行透明化管理和高效处理。Apache Flink 在其数据处理框架中引入了 Catalog、Database、Table 等一系列概念,旨在为用户提供一种结构化的元数据管理和访问机制,从而简化大数据环境下的数据源整合和处理流程。

2024-03-15 17:58:24 618

原创 Flink 流处理框架核心性能

Flink 提供了一系列丰富的窗口操作支持,包括基于时间(time-based)、计数(count-based)、会话(session-based)以及数据驱动(data-driven)的窗口定义,大大增强了对复杂流数据模式分析的能力。对于有状态计算,Flink 实现了 Exactly-once 的一致性保证,确保在出现故障或系统重启的情况下,每个记录只被精确处理一次,从而避免重复计算和数据丢失,这对于涉及资金交易、审计跟踪等要求极高准确性的应用至关重要。3 多元数据处理模式。

2024-03-15 17:57:11 550

原创 Flink 简述

Apache Flink 是一款开源的分布式流处理和批量数据处理框架,以其高效、容错性强、精确一次(exactly-once)的状态一致性保证而著称,在实时计算领域占据重要地位。Flink 最初专注于流式计算,但它同时支持批处理,并认为批处理不过是有限流的一个特殊形式,从而实现了真正意义上的流批一体(streaming-first)计算模型。总之,Apache Flink是一个强大而灵活的实时计算引擎,尤其适用于那些需要对实时数据流进行复杂计算、分析和响应的应用场景。

2024-03-15 17:13:39 428

原创 机器学习完整路径

要剖析业务场景,设定清晰的目标,同时还要明确当前问题属于哪一种机器学习类型。

2023-07-30 16:37:08 1010

原创 生成4位不重复的字符串

实际的业务场景中需要生成4位不重复的字符串,这个场景比较特殊,不具有普遍性,正常场景的唯一单号都不会只有4位。最先想到的是随机生成4位字符串,字符包括数字、大小写字母一共62位,基本可以满足使用要求,但是越到后面,重复的概率就会越大。想要保证不重复,可以加入时间戳,机器id等,类似雪花算法的思路,但是长度都比较长,将其映射为4位长度的字符串有点困难。只能换一个思路,通过递增的方式来保证唯一性,递增可以借助数据库实现。同时将10进制转换为62进制可以满足4位长度的限制。这样10进制的最大值为 147763

2020-11-20 15:08:27 2172

原创 单例模式的实现方法

单例模式(Singleton)是一种使用率非常高的设计模式,其主要目的在于保证某一类在运行期间仅被创建一个实例,并为该实例提供了一个全局访问方法。下面分别给出 java 和 python 的实现方式:java 的 6 种实现方法:1 懒汉式,线程不安全public class SingletonModle1 { private static SingletonModle1 inst...

2020-05-05 19:05:17 170

原创 谈谈银联 js 支付

业务场景:银联 JS 支付指二维码为收单机构订单的 URL,用户扫描二维码后在 APP 浏览器中打开收单机构的 H5 页面,收单机构在确认支付后调用银联统一网关,由银联调用 APP 完成支付的场景。银联 JS 支付为丰富 APP 受理范围,现中国银联正在积极推动包括各大行、京东、携程等在内等其他银联标准 APP 银联 JS 支付付款侧改造。现已支持云闪付 APP、交通银行手机银行、交通银行买单...

2020-04-07 13:28:03 7326 6

原创 神经网络

原理神经网络从大脑的工作原理得到启发,可用于解决通用的学习问题。神经网络的基本组成单元是神经元(neuron)。每个神经元具有一个轴突和多个树突。每个连接到本神经元的树突都是一个输入,当所有输入树突的兴奋水平之和超过某一阈值,神经元就会被激活。激活的神经元会沿着其轴突发射信号,轴突分出数以万计的树突连接至其他神经元,并将本神经元的输出并作为其他神经元的输入。数学上,神经元可以用感知机的模型表示。...

2019-04-18 07:36:47 198

原创 支持向量机 SVM

原理SVM 是一种基于最大间隔分隔数据的算法。将数据集分隔开的决策边界被称为 分隔超平面(separating hyperplane)。形象地说,分隔超平面是一个N-1的对象,如果数据点分布在二维平面上,则分隔超平面就是一条直线;如果在三维空间上,就是一个平面。支持线性可分和线性不可分。优点:1 支持各种不同类型的数据集;2 对高维数据集和低维数据集的支持都很好缺点:1 数据规模不能太...

2019-04-14 21:46:06 148

原创 决策树

决策树原理决策树是属于机器学习监督学习分类算法中比较简单的一种,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。优点:1、很容易将模型进行可视化;2、不需要对数据进行转换缺点:1、容易出现过拟合现象具体用法import numpy as...

2019-04-13 07:33:05 173

原创 朴素贝叶斯

原理贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯定理P(A∣B)P(A|B)P(A∣B) 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)​贝叶斯定理之所以有用,是因为我们在生活中经...

2019-04-07 08:04:54 261

原创 线性模型

常用的线性模型有线性回归、岭回归、套索回归、逻辑回归和线性 SVM 等。线性回归原理线性回归(linear regression)是一种回归分析技术。线性回归试图学习到一个线性模型以尽可能准确地预测实值输出标记。通过在数据集上建立线性模型,建立代价函数(loss function),最终以优化代价函数为目标确定模型参数w和b,从而得到模型用以后续的预测。具体用法from sklearn....

2019-04-05 18:12:58 653

原创 K 最近邻算法

算法原理一个样本与数据集中的k个样本最相似,如果这k个样本中的大多数属于某一个类别,则该样本也属于这个类别。K值选择k 值对模型的预测有着直接的影响,如果 k 值过小,预测结果对邻近的实例点非常敏感。如果邻近的实例恰巧是噪声数据,预测就会出错。也就是说,k 值越小就意味着整个模型就变得越复杂,越容易发生过拟合。相反,如果 k 值越大,优点是可以减少模型的预测误差,缺点是学习的近似误差会增大...

2019-04-01 07:57:43 468

原创 python http 服务

如果电脑装有 Python 环境,可以非常简便的搭建一个web http 服务。利用这个小技巧可以实现文件共享的功能。以共享某个文件夹下的文件为例:(Python环境为Python3)1.进入到目标文件夹2.在当前文件夹下启动服务python -m http.server 8080即可实现文件共享的功能。...

2019-03-28 19:30:29 541

原创 设计模式

设计模式的分类创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。...

2019-03-11 22:00:19 117

原创 分布式事务

参考:再有人问你分布式事务,把这篇扔给他

2019-02-13 20:38:10 173

原创 正则表达式小结

参考

2018-12-21 19:15:45 191

原创 docker 知识点梳理

常用命令服务管理service docker startservice docker stopservice docker restart容器-- 查看正在运行容器docker ps-- 查看所有容器docker ps -a-- 查看某个容器docker inspect xxx-- 重新启动停止的容器docker start xxx-- 删除停止的容器...

2018-09-15 15:09:23 312

原创 sql 知识点整理

SQL 基础数据操纵语言: DML(Data Manipulation Language)select insert update delete merge 数据库模式定义语言: DDL(Data Definition Language)create alert drop truncate事务控制语言: TCL(Transaction Control Language)...

2018-09-01 16:37:16 1581

原创 java 高并发

线程安全 当多个线程访问某个类时,不管运行时环境采用何种调度方式或者这些线程将如何交替执行,并且在主调代码中不需要任何额外的同步或协同,这个类都能表现出正确的行为,那么这个类就是线程安全的。...

2018-07-29 17:08:06 155

原创 python 字符串拼接

参考:Python中字符串拼接的N中方法

2018-07-24 12:46:28 203

原创 spring batch

参考:Spring Batch 批处理框架介绍

2018-07-08 14:29:11 134

原创 算法基础

先验概率:是指根据以往经验和分析得到的概率。后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。 P(A|B)=P(A,B)P(B)=P(B|A)∗P(A)P(B|A)∗P(A)+P(B|C)∗P(C)P(A|B)=P(A,B)P(B)=P(B|A)∗P(A)P(B|A)∗P(A)+P(B|C)∗P(C)P(A|B) = \frac{P(A,B)}{P(B)} = ...

2018-07-03 23:05:09 157

原创 加密整理

参考:非对称加密与安全证书看这一篇就懂了

2018-07-03 12:38:14 138

原创 量化投资

CAPM Model个股的 CAPM Model ri(t)=betai∗rm(t)+alphai(t)ri(t)=betai∗rm(t)+alphai(t)r_i(t) = beta_i * r_m(t) + alpha_i(t)E(alpha(t)) = 0

2018-06-18 20:57:34 290

原创 Redis 相关

参考:精讲Redis内存模型

2018-06-15 12:50:25 124

原创 Linux 的使用

重要日志参考:linux 重要日志说明

2018-06-06 11:03:49 106

原创 IDEA 小技巧

参考:Intellij IDEA神器那些让人爱不释手的小技巧

2018-06-05 19:53:55 148

原创 Oracle 数据库查询优化方案

对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from ...

2018-05-31 15:46:09 259

原创 精确地测量java对象的大小

参考:如何精确地测量java对象的大小

2018-05-28 12:47:03 210

原创 Java 学习方向

做任何事都有方法,这是行动的指南。否则,即便付出再多的努力,可能效果也不会好。下面给出提高 Java 水平的方法。弄懂代码背后的真相误区:热衷于使用各种框架,各种 api,常以今天学习了某个 api,组件,框架的使用就觉得自己学到了东西,设计模式也看过不止一次,但都没有啥感觉。一方面很努力学习,一方面又觉得不踏实,是因为这个 api 我知道而你不知道,但我告诉你之后你就知道了,那我比你的...

2018-05-15 19:10:17 760

mysql-connector-java-5.1.6-bin

好用的jar包

2017-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除