我先森-CSDN博客

原创【实战-01】flink cdc 实时数据同步利器

对很多初入门的人来说是无法理解cdc到底是什么个东西。有这样一个需求，比如在mysql数据库中存在很多数据，但是公司要把mysql中的数据同步到数据仓库(starrocks), 数据仓库你可以理解为存储了各种各样来自不同数据库中表。数据的同步目前对mysql来说比较常见是方式是使用：datax 和 canal配合，为什么需要这两个框架配合呢？因为datax不支持实时的同步， datax只能定义一个范围去同步，而且同步结束后程序就结束了。

2022-12-21 17:17:25 6921

原创十三.Elasticsearch 分析器-analyzers

目录摘要：一：认识analyzers三大组件1.Character filters （字符过滤器）2.Tokenizer （分词器）3.Token filters （token过滤器）二：各种分析器Analyzer 介绍2.1Standard Analyzer（标准分析器） 2.11拓展标准分析器的语法2.12自定义分析器的语法2.2Sim...

2019-09-26 17:35:01 1331

原创二.elasticsearch 为什么合并segment

目录1:优化所需要的空间2：为什么合并segment可以达到优化效果3：优化的时机1:优化所需要的空间segment优化是需要将将多个segment合并成，以减少segment的数量，在新的segment合并完成之前旧的较小的segment是不会删除的，比如说此时你的总磁盘大小是10T ，segment已经占用了7T这个时候进行合并很可能会出问题，导致磁盘不够用，这个问题...

2019-05-28 15:22:15 2981 1

原创 java获取elasticsearch所有的数据

注意：下面的代码是用的java-high客户端在贴出程序之前先提出几个问题，首先在搜索引擎中任何时候涉及到批量数据处理的时候，都不可能在一次请求中获取到所有的数据，这样是为了节省内存，而且全部拿到也不现实，一般都是分页获取的，也就是说先给你展示，下一页的话通过你的点击会从上次展示的位置往后获取数据，而这个位置你可以理解为位置指针。就这样循环获取循环请求才能真正的将数据全部拿到。下面的程序...

2019-03-14 17:47:08 11743 7

原创 centos7 linux网卡配置

TYPE="Ethernet"BOOTPROTO="static"//意思是使用静态ip而不是动态分配DEFROUTE="yes"PEERDNS="yes"PEERROUTES="yes"IPV4_FAILURE_FATAL="no"IPV6INIT="yes"IPV6_AUTOCONF="yes"IPV6_DEFRO

2017-11-24 11:21:33 1060

原创 java volatile

需要注意的是，尽管 volatile 保证了每次读取的都是最新的值，并且每次写入都会立即反映到主内存中，但它并不能保证加一操作的原子性。这意味着如果有多个线程同时对这个 volatile int 变量执行加一操作，它们可能会读取到相同的旧值，并在此基础上进行加一，导致最终的结果比预期的要小。如果需要确保加一操作的原子性，应该使用原子类（如 AtomicInteger）中的 incrementAndGet() 方法，或者使用 synchronized 关键字或其他锁机制来同步对这个变量的访问。

2024-03-19 15:46:13 228 1

原创【shell-14】java获取shell设置的环境变量

在底层框架研发中, 框架启动脚本，在调用核心入口类之前需要先获取以及解析环境变量，然后解析到的环境变量可能想要在框架启动类中做info日志输出。

2024-03-13 18:09:50 363 1

原创【shell-13】shell解析配置文件(正则)

shell 正则解析配置文件，代码适合在大型框架性应用中使用，稳定性经过我们的验证。

2024-03-12 10:49:47 265

原创【shell-12】find查找目录所有路径，循环输出

read 命令用于从标准输入（stdin）读取一行数据，并根据定界符（delimiter）分割当前行数据，将分割后的数据赋值给一个或多个变量，默认的界定符 \n, 可通过参数-d指定界定符。- 想要识别为换行符需要语法格式为： $‘ASCII转义字符’ ，例：$‘\n’, $'\t’等。意思是不输出表面的字符串样式，而是按照转义字符处理。- 在单引号字符串中，\n 会被当作普通字符。shell识别转义字符。

2024-03-11 16:35:10 312

原创【shell-11】获取当前执行脚本的路径

本代码在框架开发比较有用，比如别人安装了你开发的东西，你的启动脚本都在自己的某个 bin目录下，但是使用者可能ln -s /…/…/bin/start_demo.sh /home/张三/start.sh 建立了一个软连接，因此有时候我们可能需要获取真实bin路径。

2024-03-11 12:15:48 451

原创 java空字符和空的区别

ASCII 编码表，中前三十个左右都是控制字符，控制字符的意思是可以实现一些控制，而不仅仅是表面人眼看到的字符的样子。unicode 表示方式是：\u0000 八进制表示方式是\000 十六进制表示方式是\x00。空字符：是一个不可见的字符，再控制台打印的时候它是不存在的，但是物理意义上是存在的。比如图中十进制10 表示换行。请找到对应的行，我们来解读。\u0000: 指的是空字符。“” : 表示空字符串。

2024-03-08 15:23:58 429

原创一.jwt token 前后端的逻辑

jwt token 前后端的交互逻辑，此部分只描述了一些交互逻辑，不涉及到真实应用的开发。

2024-03-04 12:17:33 524

原创【实战-08】 flink自定义Map中的变量的行为

则当前线程的valueState是和某一个key绑定的，符合flink预期行为，但是ArrayList以及其它你定义的变量则不做保证。这说明了，keBy后的逻辑，ArrayList不会按照预期的行为执行。自定义Map或者别的算子的时候，有时候需要定义一些类变量，在flink内部高并发的情况下需要正确理解这些便令的行为。keyBy之后，理论上相同key的会在map中用同样的处理逻辑，我们的预期行为是输出：bb,cc,dd。但是用ArrayList实现的逻辑最终输出却是：bb,bc,cc,dd。

2024-02-26 12:22:38 350

原创 git基础

分支分为三种：master dev feature三种master和dev分支是项目管理人员创建的，不是开发人员创建的。开发人员不要在 master和dev分支上做任何修改。开发人员牢记一点，你只能在你自己创建的分支上写代码，你的分支基于dev分支手动创建的。

2024-02-23 12:27:25 1320

原创【kafka-01数据保留时间设置】

某天突然发现我的kafka中group_id消费记录不见了，特地查了下咋回事。众所周知新版本的kafka group_id消费的offset记录已经不存储在zookeeper上了，而是存储在__consumer_offsets 这个kafka内部自己管理的topic中，这个topic有50个分区。毫无疑问估计是group_id offset存储也应该是有时间过期值的，于是专门查了查。需要两个参数结合，且最好配置的时间是一样的，下面是例子。

2024-01-30 20:03:41 538

原创【shell-10】shell实现的各种kafka脚本

因为经常要用kafka环境参与测试，所以写了不少脚本。在很多时候可以大大提高测试的效率。topic数据传输【file数据录入到topic,topic数据下载到本地文件】此文件是个额外的日志文件主要用于打印日志，该文件会被下面的shell文件引用。topic信息查看【topic列表，topic groupid 消费情况】脚本中做了各种检查，日志的输出做了颜色区分，用起来没啥问题。topic的管理【创建，删除】

2024-01-26 12:07:21 1860

原创【shell-09】 shell控制台颜色输出

分析->这里的 \012 意思就是12这个数字是是实现做控制的，\0作为控制标志位，指的就是八进制，\012 用八进制实现的控制，实际上转成十进制就是->10 找到下图中，10对应的就是**\n**，同理\x也是控制位标志符，指的是用十六进制， 10 的八进制是12，十六进制是 A。分析：echo -e 的意思：如果字符串中出现某些特定的字符组合（转义字符），echo会将这些字符组合解释为特殊的含义，而不是将其作为普通文本输出。其中有一个字符是控制终端颜色的，十进制就是。

2024-01-23 19:45:51 422

原创【shell-09】shell 属性传递问题

export 命令用于将 shell 变量输出为环境变量，或者将 shell 函数输出为环境变量。以下是 export 命令的参数及其详解和举例：-f：指向函数。这个参数用于将一个 shell 函数输出为环境变量。当使用这个参数时，函数会被导出为环境变量，使得它可以被子进程调用。上述代码将 my_function 函数导出为环境变量，使其可以在其他 shell 脚本或子进程中被调用。-n ：删除变量的导出属性。这个参数用于删除一个环境变量的导出属性，使得它不再被子shell进程继承。bash。

2024-01-22 19:48:10 361

原创 SQL-01求连续七天登陆的用户

【代码】SQL-01求连续七天登陆的用户。

2024-01-17 11:36:00 638

原创 21. python init.py 文件的行为

from aaa.F import Cat 改成 from F import Cat 则print只会打印一次。我在调试代码的时候，发现上面的print打印了两次，如果将图片中的。.py 都会执行一次，顺序依次为：aaa->bbb->ccc。这个特性十分重要，一不小心容易重复打印。则用 ‘.’ 分割的每个包中的。

2023-12-14 18:18:35 85

原创 [Django-05 ]自定义sql查询

settings.py 设置数据库自定义sql查询这里在一些多表关联的时候是特别特别有用的，也是实际开发中不可避免的知识点with 写法cursor.execute("SELECT * FROM app_grade WHERE grade_name='二班'")print(row)普通写法cursor.execute("SELECT * FROM app_grade WHERE grade_name='二班'")

2023-12-13 18:30:28 422

原创【Django-03】模型常用的增删改查

返回符合要求的一条数据，只返回一条，当未找到数据或者是返回的数据超过一条都会抛出异常，因此需要做异常捕捉处理。指定返回的列，相当于 select grade_name create_time from student.逻辑很简单：先查出来数据，再对查出来的对象修改之后再保存进去即可。表示查询集，是从数据库中获取到的Model集合，集合中每个元素都是我们的Model对象。返回的对象包含的数据类型是指定表列的字典dict结构，所以代码中取值略有不同。一些基础的组合是可以链式调用的，不必那么死板。

2023-12-13 12:25:02 223

原创 [Django-04]一对一，一对多

*************************************** 从查主，找到 “一” *************************************************************************************** 主查从，找到"多" ************************************************OneToOneField()，ForeignKey() 的参数如下。

2023-12-13 12:23:35 263

原创【shell-05】之读取控制台用户输入

代码解读：“exit 0” 是一个常见的Shell命令，它表示在命令执行成功后退出。数字0在Shell中通常代表成功，因此"exit 0"表示退出并返回成功状态。根据用户不同的输入执行不通的逻辑，要求当用户输入完成，点击键盘Enter按键的时候读取用户的输入并做出逻辑判断。

2023-12-07 14:42:58 380

原创【Django-02】 Model模型和模型描述对象Meta

就是对象的意思，底层一个Model对应一张表，而Meta是Model的内部类，是用来描述Model和数据库表的相关元数据信息，比如主键，排序，unique_key 的。VooleanField: true/false 数据库存的是数字，模型映射为True/False。DateTimeField: 日期时间【2023-10-01 23:10:33】TimeField:对应数据库Time [23:12:10]db_table: 值类型字符串->对应生成的数据库表名。TextField: 对应数据库text。

2023-11-21 16:07:18 484

spark解析csv文件，存入数据库

java 配置porperties简单易懂

空空如也