- 博客(479)
- 收藏
- 关注
原创 浅识数据库与数据仓库的区别
数据库:由于数据库的主要作用就是用来查找业务数据,而行式存储有利于查询服务,数据库中采用的是行式存储;并且查询数据时,如果数据量是巨大的,那么就会影响查询性能,所以数据库中不存储海量数据。数据仓库:由于数据仓库的主要作用是用来做分析统计的,而列式存储有利于统计分析,在数据仓库中使用的是列式存储;数据库:数据库中的数据存储的是业务核心数据,在企业运行中,应保证数据库中的数据正常可用。数据仓库:数据来源于数据库,将数据库中的数据加工处理之后得到的数据。数据库:数据来源于企业中基础的、核心的业务数据。
2023-12-28 20:46:09 986
原创 2023下软考高项信息系统项目管理师考试总结
停更的这段时间一直在备考学习软考信息系统项目管理师考试,然而论文没有通过,三科成绩:51/57/39,论文考的是合同管理,自认为合同管理的四个方面都答得挺好的,但是没有通过,这个分数可能是踩到红线了,但也确实不知道该怎么准备了,看到网上很多同学考了好几次了还没通过,感觉自己也不是很想继续考了,如果是综合知识和案例分析这种答案明确的科目没有通过的话,还可以去弥补,但论文这种没有统一标准的东西很难把握,接下来可能还是继续直接学习技术吧。
2023-12-14 15:49:10 529
原创 Flink DataStream之输出数据到File中
正在写入的文件会有inprogress的标识(在指定的目录下生成文件时会按照日期的年月日时进行分目录,因为我在执行时的时间是2023/7/12 22点,所以它就会自动生成一个2023-07-12--22目录,分桶策略也可以自己在代码中配置。
2023-07-12 22:11:10 973
原创 Flink DataStream之Connect合并流
此时在窗口中输入数据,注意在7777端要输入数字,8888端输入字符串,然后观察控制台输出。
2023-07-09 17:42:07 876
原创 Flink DataStream之使用filter实现分流
可以看到输入的"World"由于不满足两个filter中的任何一个,所以数据被舍弃。"Monday"和"World"分别打印在两个不同的流中。
2023-07-09 14:30:14 753
原创 Flink 1.17.0集群搭建
修改hadoop02和hadoop03的conf/flink-conf.yaml中的taskmanager.host,改为当前各自的主机名。修改conf/flink-conf.yaml(从flink1.16版本开始,需要修改以下配置)然后将hadoop01节点上的flink包分发至hadoop02和hadoop03。修改conf/workers(将三台TaskManager节点加进来)修改conf/masters(将JobManager节点加进来)
2023-06-10 16:09:46 2533 1
原创 Flink 1.13.0集群搭建
默认情况下每个TaskManager的任务槽是1,这里我们有两个TaskManager。然后我们尝试用Yarn模式启动集群,前提是要启动Hadoop。停掉flinnk集群。
2023-04-06 22:11:39 626
原创 以Yarn模式启动Flink报错Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/ex
下载对应的jar,按照Hadoop的版本(我的是2.7.5)下载。然后放到Flink的lib目录下。
2023-04-06 21:58:46 948 2
原创 Flink入门WordCount有界流处理实现
与之前批处理的运行结果相比,这里可以发现有的word出现了多次,这正是体现了流处理按照流的方式一条一条处理的,所以每次处理后都会有一个结果输出。在使用IDEA运行该程序时,它会以多线程的方式模拟Flink集群的工作机制并行计算(并行数默认是本机CPU核心数,假设CPU核心数是8,那么最前面的数字就只会出现1-8),每行结果最前面的数字表示哪个线程负责的此次运算。基于多线程并行运算,所以计算输出的结果并没有按照原始数据文件的word顺序进行输出,所以运算结果看到的就是乱序的。
2023-04-04 21:42:35 131
原创 Spark DStream之有状态操作实现WordCount
在之前的案例中,实现的DStream是通过每个采集周期内独立进行逻辑处理的,在某些业务场景中,可能是需要将每个周期内的计算结果进行汇总,这时就需要一种有状态的采集。可以看到最终态的count值确实是所有周期内的结果汇总在一起的。
2022-11-24 20:11:35 321
原创 Spark DStream之无状态操作实现WordCount
可以看到控制台中是以2秒的周期进行数据采集的,同一周期内的数据一起处理。这样就实现了DStream中近实时、微批量的数据处理。
2022-11-23 20:52:12 568
原创 Spark join操作
所以在使用join操作的时候要慎重,因为在这个过程中涉及到笛卡尔积的计算会造成join之后的数据量大量增长,引起性能问题。当两个RDD中的key没有同时存在时,只会将共同存在的key的值进行连接,各自单独存在的key会丢掉。rdd1中单独存在的key为x,和rdd2中单独存在的key为y的元素都不会进行连接。同一个key在某个RDD中出现多次时,会做一个类似于笛卡尔积的操作,进行两两连接。rdd1调用右外连接时,会以rdd2为主,将rdd2中的所有key进行连接。
2022-10-30 16:20:34 485
原创 Spark sort算子
在多个分区的情况下,如果使用sort,会将所有分区的数据放在一起进行排序,排序后再重新分区,而不是在各自的分区内进行排序,在该算子实现过程中是有shuffle操作的。默认排序是升序,也就是sortBy中的参数二表示升序默认是true,如果需要降序排序,可以将其设置为false。可以看到结果中是将原RDD中的所有数据放一起进行排序的,之后再进行分区。可以看到运行结果也是先对全局RDD进行排序,再分组。对于字符串类型的数据,会按照字典序进行排序。
2022-10-25 21:11:38 603
原创 Spark coalesce算子
出现这样的结果是因为,coalesce算子默认不会打乱原来分区内的数据,即不会拆散原来某个分区内的数据重新组合,这样也就会可能导致数据倾斜,所以我们可以加上第二个参数设置为true,来表示在缩减分区时允许数据重新组合(是否shuffle)来实现数据均衡。好像并没有像我们想的那样会将原来RDD中的前三个元素放在一个分区,后三个元素放在一个分区。原来RDD中的前两个元素被分到了一个分区,后两个元素被分到了一个分区。这样,缩减分区后的数据相对来讲就不会出现不平衡的情况。
2022-10-25 19:52:38 715
原创 Spark测试元素操作前后分区不变
可以看到,原始元素中1和2都在分区00000中,做乘操作后,对应的2和4也在分区00000中,以上测试说明在操作元素前后,分区不变。在Spark中,对原始的RDD中的元素进行操作,例如乘法操作,操作前后,元素对应的值所在的分区不变。生成了两个目录,并在各自目录下根据我们的参数配置,各自生成了两个分区文件。
2022-10-20 21:19:14 181
原创 Linux环境搭建spark3 yarn模式
这里一定要注意hostname中不能包含下划线!搭建好之后启动hadoop集群。至此,spark的搭建基本完成。
2022-10-12 22:05:56 796
原创 Hadoop3.2.0运行wordcount程序报错Please check whether your etc/hadoop/mapred-site.xml contains the below
将修改后的文件同步到集群中的其他节点上,不需要重启集群,重新运行原来自己要执行的程序即可正常执行。
2022-10-12 20:28:37 1231
原创 启动hadoop集群报错ERROR: Cannot set priority of namenode process 2570
因为主机名中包含了下划线,所以报错。
2022-10-11 22:01:16 2361 1
原创 运行Spark报错org.apache.spark.SparkException: A master URL must be set in your configuration
【代码】运行Spark报错org.apache.spark.SparkException: A master URL must be set in your configuration。
2022-10-08 21:16:36 951
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人