QYHuiiQ-CSDN博客

原创数据库是否可以直接作为数据仓库的数据源

在数据仓库使用数据时，我们是否可以直接将数据库作为数据源？如果使用了，会存在哪些问题？

2023-12-28 21:09:57 725

数据库：由于数据库的主要作用就是用来查找业务数据，而行式存储有利于查询服务，数据库中采用的是行式存储；并且查询数据时，如果数据量是巨大的，那么就会影响查询性能，所以数据库中不存储海量数据。数据仓库：由于数据仓库的主要作用是用来做分析统计的，而列式存储有利于统计分析，在数据仓库中使用的是列式存储；数据库：数据库中的数据存储的是业务核心数据，在企业运行中，应保证数据库中的数据正常可用。数据仓库：数据来源于数据库，将数据库中的数据加工处理之后得到的数据。数据库：数据来源于企业中基础的、核心的业务数据。

2023-12-28 20:46:09 986

原创 2023下软考高项信息系统项目管理师考试总结

停更的这段时间一直在备考学习软考信息系统项目管理师考试，然而论文没有通过，三科成绩：51/57/39，论文考的是合同管理，自认为合同管理的四个方面都答得挺好的，但是没有通过，这个分数可能是踩到红线了，但也确实不知道该怎么准备了，看到网上很多同学考了好几次了还没通过，感觉自己也不是很想继续考了，如果是综合知识和案例分析这种答案明确的科目没有通过的话，还可以去弥补，但论文这种没有统一标准的东西很难把握，接下来可能还是继续直接学习技术吧。

2023-12-14 15:49:10 529

原创 Flink DataStream之输出数据到File中

正在写入的文件会有inprogress的标识（在指定的目录下生成文件时会按照日期的年月日时进行分目录，因为我在执行时的时间是2023/7/12 22点，所以它就会自动生成一个2023-07-12--22目录，分桶策略也可以自己在代码中配置。

2023-07-12 22:11:10 973

原创 Flink DataStream之Connect合并流

此时在窗口中输入数据，注意在7777端要输入数字，8888端输入字符串，然后观察控制台输出。

2023-07-09 17:42:07 876

原创 Flink DataStream之Union合并流

【代码】Flink DataStream之Union合并流。

2023-07-09 16:11:05 756

原创 Flink DataStream之使用filter实现分流

可以看到输入的"World"由于不满足两个filter中的任何一个，所以数据被舍弃。"Monday"和"World"分别打印在两个不同的流中。

2023-07-09 14:30:14 753

原创 Flink DataStream之从Kafka读数据

如图说明flink从kafka成功读取数据。

2023-07-04 22:28:42 844

原创 Flink读取kafka数据报错

【代码】Flink读取kafka数据报错。

2023-07-04 22:26:49 2631

原创 Flink DataStream之从集合/文件读数据

【代码】Flink DataStream之从集合/文件读数据。

2023-06-24 22:01:44 430

原创 Flink DataStream之创建执行环境

【代码】Flink DataStream之创建执行环境。

2023-06-24 17:47:52 285

原创 Flink 1.17.0集群搭建

修改hadoop02和hadoop03的conf/flink-conf.yaml中的taskmanager.host，改为当前各自的主机名。修改conf/flink-conf.yaml（从flink1.16版本开始，需要修改以下配置）然后将hadoop01节点上的flink包分发至hadoop02和hadoop03。修改conf/workers（将三台TaskManager节点加进来）修改conf/masters（将JobManager节点加进来）

2023-06-10 16:09:46 2533 1

原创 Flink 1.13.0集群搭建

默认情况下每个TaskManager的任务槽是1，这里我们有两个TaskManager。然后我们尝试用Yarn模式启动集群，前提是要启动Hadoop。停掉flinnk集群。

2023-04-06 22:11:39 626

原创以Yarn模式启动Flink报错Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/ex

下载对应的jar，按照Hadoop的版本（我的是2.7.5）下载。然后放到Flink的lib目录下。

2023-04-06 21:58:46 948 2

原创 Flink入门WordCount无界流处理实现

由于同一条数据中的word是并行运算的，所以同一条数据的word的输出结果也是乱序的。

2023-04-04 22:09:15 205

原创 Flink入门WordCount有界流处理实现

与之前批处理的运行结果相比，这里可以发现有的word出现了多次，这正是体现了流处理按照流的方式一条一条处理的，所以每次处理后都会有一个结果输出。在使用IDEA运行该程序时，它会以多线程的方式模拟Flink集群的工作机制并行计算（并行数默认是本机CPU核心数，假设CPU核心数是8，那么最前面的数字就只会出现1-8），每行结果最前面的数字表示哪个线程负责的此次运算。基于多线程并行运算，所以计算输出的结果并没有按照原始数据文件的word顺序进行输出，所以运算结果看到的就是乱序的。

2023-04-04 21:42:35 131

原创 Flink入门WordCount批处理实现

【代码】Flink入门WordCount批处理实现。

2023-04-04 20:58:21 124

原创好记性不如烂笔头之Java基础复习笔记

未完待续。。。

2023-02-14 20:30:33 2283 1

原创 Spark DStream之有状态操作实现WordCount

在之前的案例中，实现的DStream是通过每个采集周期内独立进行逻辑处理的，在某些业务场景中，可能是需要将每个周期内的计算结果进行汇总，这时就需要一种有状态的采集。可以看到最终态的count值确实是所有周期内的结果汇总在一起的。

2022-11-24 20:11:35 321

原创 Spark DStream之无状态操作实现WordCount

可以看到控制台中是以2秒的周期进行数据采集的，同一周期内的数据一起处理。这样就实现了DStream中近实时、微批量的数据处理。

2022-11-23 20:52:12 568

原创 windows下安装netcat

打开两个窗口，一个发消息，一个监听。这样就说明连接建立成功。nc -lp 端口号。

2022-11-23 20:27:10 308

原创 Spark SQL之IDEA中的应用

【代码】Spark SQL之IDEA中的应用。

2022-11-20 19:51:20 658

原创 Spark SQL之DataSet简单操作

【代码】Spark SQL之DataSet简单操作。

2022-11-16 20:16:00 708

原创 SparkSQL之DataFrame的简单操作

【代码】SparkSQL之DataFrame的简单操作。

2022-11-15 20:45:35 378

原创 Spark自定义累加器实现WordCount

【代码】Spark自定义累加器实现WordCount。

2022-11-05 21:04:36 160

原创 Spark自定义分区器

【代码】Spark自定义分区器。

2022-11-03 21:33:30 576

原创 Spark join操作

所以在使用join操作的时候要慎重，因为在这个过程中涉及到笛卡尔积的计算会造成join之后的数据量大量增长，引起性能问题。当两个RDD中的key没有同时存在时，只会将共同存在的key的值进行连接，各自单独存在的key会丢掉。rdd1中单独存在的key为x，和rdd2中单独存在的key为y的元素都不会进行连接。同一个key在某个RDD中出现多次时，会做一个类似于笛卡尔积的操作，进行两两连接。rdd1调用右外连接时，会以rdd2为主，将rdd2中的所有key进行连接。

2022-10-30 16:20:34 485

原创 Spark交集/差集/并集/拉链

一定要注意，在Spark中使用zip时，必须是两个RDD中的元素个数相同才可以，否则报错。

2022-10-25 21:33:55 930

原创 Spark sort算子

在多个分区的情况下，如果使用sort，会将所有分区的数据放在一起进行排序，排序后再重新分区，而不是在各自的分区内进行排序，在该算子实现过程中是有shuffle操作的。默认排序是升序，也就是sortBy中的参数二表示升序默认是true，如果需要降序排序，可以将其设置为false。可以看到结果中是将原RDD中的所有数据放一起进行排序的，之后再进行分区。可以看到运行结果也是先对全局RDD进行排序，再分组。对于字符串类型的数据，会按照字典序进行排序。

2022-10-25 21:11:38 603

原创 Spark coalesce算子

出现这样的结果是因为，coalesce算子默认不会打乱原来分区内的数据，即不会拆散原来某个分区内的数据重新组合，这样也就会可能导致数据倾斜，所以我们可以加上第二个参数设置为true，来表示在缩减分区时允许数据重新组合（是否shuffle）来实现数据均衡。好像并没有像我们想的那样会将原来RDD中的前三个元素放在一个分区，后三个元素放在一个分区。原来RDD中的前两个元素被分到了一个分区，后两个元素被分到了一个分区。这样，缩减分区后的数据相对来讲就不会出现不平衡的情况。

2022-10-25 19:52:38 715

原创 Spark测试元素操作前后分区不变

可以看到，原始元素中1和2都在分区00000中，做乘操作后，对应的2和4也在分区00000中，以上测试说明在操作元素前后，分区不变。在Spark中，对原始的RDD中的元素进行操作，例如乘法操作，操作前后，元素对应的值所在的分区不变。生成了两个目录，并在各自目录下根据我们的参数配置，各自生成了两个分区文件。

2022-10-20 21:19:14 181