自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 初学大数据_day5_Hive HQL

Hive中的数据类型指的是Hive表中的列字段类型。原生数据类型(primitive data type)和==复杂数据类型数值类型、时间类型、字符串类型、杂项数据类型;array数组、map映射、struct结构、union联合体。关于Hive的数据类型,需要注意:英文字母大小写不敏感;除SQL数据类型外,还支持Java数据类型,比如:string;int和string是使用最多的,大多数函数都支持;复杂数据类型的使用通常需要和分隔符指定语法配合使用。。

2024-04-08 23:50:07 891

原创 初学大数据_day5_Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件为一张数据库表,并提供类功能。本质是将程序。主要用途:用来做离线数据分析,比直接用MapReduce开发效率更高。早期开发MapReduce只能通过Java语言,语法比较复杂,学习成本高。大数据专家汇总在一起,开发了一个软件叫做Hive(Facebook) => Hive => 把类似SQL语言(HiveSQL)=> 编译成Hadoop中的MapReduce。

2024-04-08 15:20:48 949

原创 初识数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建==面向分析的集成化数据环境,为企业提供决策支持它出于分析性报告和决策支持目的而创建。MySQL数据库 => 面向事务的集成化数据环境;但是DW则是面向分析的集成化数据环境,主要实现数据的写入与数据分析,很少有数据的修改操作!数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。

2024-04-01 23:43:41 861

原创 初学大数据_day4_Yarn

(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。。ResourceManager负责所有资源的监控、分配和管理;ApplicationMaster负责每一个具体应用程序的调度和协调;NodeManager负责每一个节点的维护。

2024-04-01 12:52:20 874

原创 初学大数据_day3_MapReduce

MapReduce的核心思想是“Map:分,把大问题拆解为若干个小问题Reduce:合,把小问题的结果进行合并,得到最终问题的答案所谓“分而治之”就是把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分,然后逐个解决,分别找出各部分的解,再把把各部分的解组成整个问题的解。这种朴素的思想来源于人们生活与工作的经验,也完全适合于技术领域。诸如软件的体系结构设计、模块化设计都是分而治之的具体表现。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”

2024-03-28 17:45:43 909

原创 初学大数据_day2_hdfs

HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。==分布式文件系统解决的问题就是大数据存储。==它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。

2024-03-28 16:48:35 547 1

原创 SQL进阶(一)ON CONFLICT

ON CONFLICT

2024-03-27 16:26:03 777

原创 初学大数据_day1_hadoop

Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。Hadoop基于Java实现 => JDKHadoop属于Apache基金会(ASF)下的一个开源框架 => 开源 + 免费Hadoop主要是对大数据集(数据量比较大 => 适合处理GB级别以上数据集)进行分布式(多台机器)处理。Map :分,把大数据分解为多个部分,每个部分单独计算。

2024-03-27 14:42:34 999 1

原创 实时数仓模拟当前时间

RisingWave实时数据库不能将带有NOW(),current_timestamp()等语义的函数使用在流程判断(case when)结构的语句中,为了不刻意拆分sql逻辑,此处暂时采用取巧的办法。2.用数据库自带的工作流工具crontab,如果设置每分钟跑,对于有实时需求的业务满足不到。如果设置每秒都跑,crontab不支持划分到秒级。只能设置每分钟跑,休眠多少秒之后再跑。1.做一个记录当前时间的表,定时刷新表中的时间,表中只存一条记录。需要当前时间的时候就关联取。3.以下是一些常用调度周期。

2024-03-26 15:22:34 170

原创 MySQL和PostgreSQL对比

**MySQL和PostgreSQL对比数值类型MySQL 数据类型PostgreSQL 数据类型描述TINYINTSMALLINT8位有符号整数SMALLINTSMALLINT16位有符号整数MEDIUMINTINTEGER24位有符号整数INTINTEGER32位有符号整数BIGINTBIGINT64位有符号整数FLOATREAL 或 FLOAT4单精度浮点数DOUBLEDOUBLE PRECISION双精度浮点数

2024-03-18 09:54:21 292 1

原创 pg12语法和doris区别收集

含义pgdoris字符串切分为数组string_to_array(text, text [, text])使用提供的定界符和可选的空串将字符串划分成数组元素split_by_string判断数组是否包含指定元素array_position(anyarray, anyelement [, int])返回在该数组中从第三个参数指定的元素开始或者 第一个元素开始(数组必须是一维的)、第二个参数的 第一次出现的下标array_contains日期转换函数EXTRACT(Y

2024-03-12 16:40:09 106 1

原创 将RDD转换为Dataframe几种方法

如果一个RDD中的元素类型为列表或者元组,可以根据RDD中的元素自定义一个Schema,然后合并构建一个DataFrame要求1:RDD中元素类型必须为列表或者元组要求2:基于RDD中的数据自定义一个Schema:表的结构信息表的结构信息就是一个列表,这个列表中一条信息代表一列的信息:列名、列的类型、列是否允许为空StructType:代表一个SchemaStructField:代表一列的信息# 构建要求2:自定义一个Schema])# 构建DataFrame。

2024-03-12 15:18:13 549 1

原创 GitLab 提交以及向远程分支推送时报错

遇到的报错详情如下图。

2023-12-27 15:34:43 443 1

原创 Doris 实战踩坑点:datetimev2类型

doris建表DATETIMEV2([P])格式

2023-05-23 18:26:15 1875 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除