New One-CSDN博客

原创初学大数据_day5_Hive HQL

Hive中的数据类型指的是Hive表中的列字段类型。原生数据类型（primitive data type）和==复杂数据类型数值类型、时间类型、字符串类型、杂项数据类型；array数组、map映射、struct结构、union联合体。关于Hive的数据类型，需要注意：英文字母大小写不敏感；除SQL数据类型外，还支持Java数据类型，比如：string；int和string是使用最多的，大多数函数都支持；复杂数据类型的使用通常需要和分隔符指定语法配合使用。。

2024-04-08 23:50:07 891

原创初学大数据_day5_Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件为一张数据库表，并提供类功能。本质是将程序。主要用途：用来做离线数据分析，比直接用MapReduce开发效率更高。早期开发MapReduce只能通过Java语言，语法比较复杂，学习成本高。大数据专家汇总在一起，开发了一个软件叫做Hive（Facebook） => Hive => 把类似SQL语言（HiveSQL）=> 编译成Hadoop中的MapReduce。

2024-04-08 15:20:48 949

原创初识数据仓库

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建==面向分析的集成化数据环境，为企业提供决策支持它出于分析性报告和决策支持目的而创建。MySQL数据库 => 面向事务的集成化数据环境；但是DW则是面向分析的集成化数据环境，主要实现数据的写入与数据分析，很少有数据的修改操作！数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。

2024-04-01 23:43:41 861

原创初学大数据_day4_Yarn

（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。。ResourceManager负责所有资源的监控、分配和管理；ApplicationMaster负责每一个具体应用程序的调度和协调；NodeManager负责每一个节点的维护。

2024-04-01 12:52:20 874

原创初学大数据_day3_MapReduce

MapReduce的核心思想是“Map：分，把大问题拆解为若干个小问题Reduce：合，把小问题的结果进行合并，得到最终问题的答案所谓“分而治之”就是把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分，然后逐个解决，分别找出各部分的解，再把把各部分的解组成整个问题的解。这种朴素的思想来源于人们生活与工作的经验，也完全适合于技术领域。诸如软件的体系结构设计、模块化设计都是分而治之的具体表现。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。Map负责“分”

2024-03-28 17:45:43 909

原创初学大数据_day2_hdfs

HDFS是Hadoop Distribute File System 的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。==分布式文件系统解决的问题就是大数据存储。==它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

2024-03-28 16:48:35 547 1

原创 SQL进阶（一）ON CONFLICT

ON CONFLICT

2024-03-27 16:26:03 777

原创初学大数据_day1_hadoop

Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。Hadoop基于Java实现 => JDKHadoop属于Apache基金会（ASF）下的一个开源框架 => 开源 + 免费Hadoop主要是对大数据集（数据量比较大 => 适合处理GB级别以上数据集）进行分布式（多台机器）处理。Map ：分，把大数据分解为多个部分，每个部分单独计算。

2024-03-27 14:42:34 999 1

原创实时数仓模拟当前时间

RisingWave实时数据库不能将带有NOW(),current_timestamp()等语义的函数使用在流程判断（case when）结构的语句中，为了不刻意拆分sql逻辑，此处暂时采用取巧的办法。2.用数据库自带的工作流工具crontab，如果设置每分钟跑，对于有实时需求的业务满足不到。如果设置每秒都跑，crontab不支持划分到秒级。只能设置每分钟跑，休眠多少秒之后再跑。1.做一个记录当前时间的表，定时刷新表中的时间，表中只存一条记录。需要当前时间的时候就关联取。3.以下是一些常用调度周期。

2024-03-26 15:22:34 170

weixin_44407267的博客

原创初学大数据_day5_Hive HQL

原创初学大数据_day5_Hive

原创初识数据仓库

原创初学大数据_day4_Yarn

原创初学大数据_day3_MapReduce

原创初学大数据_day2_hdfs

原创 SQL进阶（一）ON CONFLICT

原创初学大数据_day1_hadoop

原创实时数仓模拟当前时间

原创 MySQL和PostgreSQL对比

原创 pg12语法和doris区别收集

原创将RDD转换为Dataframe几种方法

原创 GitLab 提交以及向远程分支推送时报错

原创 Doris 实战踩坑点：datetimev2类型

空空如也

空空如也