若叶时代-CSDN博客

转载 Doris_语法

①Duplicate 数据模型。②Aggregate 数据模型。③Unique 数据模型。

2023-04-10 21:37:09 264

key为聚合的键,value为聚合的值(设置了 AggregationType),所有的key列必须在value列之前.导入数据时,对于 Key 列相同的行会聚合成一行,而 Value 列会按照设置的 AggregationType 进行聚合.②写时合并:数据在导入阶段就会去将被覆盖和被更新的数据进行标记删除,同时将新的数据写入新的文件.在查询的时候,所有被标记删除的数据都会在文件级别被过滤掉,读取出来的数据就都是最新的数据.数据查询时,对于查询涉及到的数据,会进行对应的聚合.(3) 数据合并的场景。

2023-04-10 09:48:14 140

转载任务调度_Dolphin Scheduler

任务统计,流程状态统计.

2023-04-07 10:29:46 437

原创 Spark_优化/问题

⑤spark.default.parallelism:设置每个stage的默认task数量.④尽量避免使用shuffle类算子,如reduceByKey、groupByKey.③executor-cores:设置每个Executor的CPU数量.②executor-memory:设置每个Executor的内存.⑤使用高性能的算子,如mapPartitions替代普通map.①num-executors:设置Executor的个数.④driver-memory:设置Driver进程的内存.

2023-03-28 00:40:12 62

转载 Flume

原理:Source采集数据并包装成Event,Event缓存在Channel中,Sink不断地从Channel获取Event,最终将数据写入目标存储.③Sink:不断地轮询Channel中的事件,并将这些事件批量写入到存储、索引系统、或者发送到另一个Flume Agent,成功后批量移除临时数据.④Channel:缓冲数据,能同时处理多个Source的写入操作和多个Sink的读取操作.可缓冲在内存、磁盘、数据库、Kafka中.②Source:负责各种类型、各种格式的日志数据到Flume Agent.

2023-03-27 16:18:49 58

转载 Sqoop

(2) 原理:Sqoop接收到客户端的shell命令或者Java api命令后,通过Sqoop中的任务翻译器将命令转换为对应的MapReduce任务,而后在关系型数据库和Hadoop之间完成数据同步.(1) 概念: 一款在Hadoop和关系数据库之间传输数据的工具,可以将关系型数据库的数据导入到HDFS中,也可以将HDFS数据导出到关系型数据库中.要指定增量数据是要append(追加)还是要–merge-key(合并)(1) 基于递增列的增量数据导入。(2) 基于时间列的增量数据导入。

2023-03-26 23:47:06 40

转载 MySQL_索引

复合索引idx_列名1_列名2_列名3 等于创建了索引(列名1,列名2,列名3)、(列名1,列名2)和(列名1),因此创建时应该将最常用作限制条件的列放在最左边,依次递减.在使用组合索引的列为条件时,必须要出现最左侧列作为条件,否则索引不生效的.索引是帮助MySQL高效获取数据的数据结构,对数据库表中一列或多列的值进行排序,使用索引可快速访问数据库表中的特定信息.③text/blob 类型:只支持前缀索引,不支持整个字段建索引.基于原始索引字段,截取前面指定的字符个数或者字节数来做的索引.

2023-03-25 22:35:05 46

转载 Canal

(2) 监控MySQL时报错:com.alibaba.otter.canal.parse.exception.CanalParseException: java.io.IOException: connect localhost/127.0.0.1:3306 failure。(3) 解压:tar -xf canal.deployer-1.1.6.tar.gz -C /soft/canal/Canal 服务日志:canal/logs/canal/canal.log。

2022-09-25 22:41:23 280

原创 DataX

(3) 执行自检脚本: python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json。(1) 执行自检脚本报错:您提供的配置文件[/soft/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件。执行脚本:python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json.③改为全量同步数据.

2022-09-23 09:33:38 461

转载 Spark_SparkStreaming

②Direct 方式:周期性地查询 Kafka,获取最新的offset,从而定义每个batch的offset的范围.使用 kafka 的简单 API ,Spark Streaming 自己负责追踪消费的 offset,并保存在 checkpoint 中.②SparkStreaming:是一个准实时计算框架,实时接受输入的数据,将数据流抽象成DStream,每个 DStream 表示的是一系列 RDD,并按照固定长度的时间段将源源不断进来的数据划分成batch,每一个batch进行一次计算.

2022-09-16 17:16:33 265

原创 Spark_SparkSQL

(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(3) 关闭Hive3 ACID功能.

2022-09-08 12:01:16 892

原创数据查询_Phoenix

Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表，插入数据和对HBase数据进行查询.Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描，并编排执行以生成标准的JDBC结果集.①Hbase是区分大小写的，Phoenix 默认会把sql语句中的小写转换成大写，再建表.如果不希望转换，需要将表名，字段名等使用""(1) 插入数据(主键相同时,后面插入的会覆盖前面的,可用于修改)(1) 清空(没有truncate)

2022-09-02 15:10:03 891

转载开发工具_IDEA

③在 Setting -> Maven -> Runner 中配置 VM Options:-Dmaven.multiModuleProjectDirectory=$MAVEN_HOME.②在 Setting -> Maven 中配置 Maven home path、User settings file 和Local repository。开启代码自动换行:Settings -> Editor -> General ->Soft Wrap->Soft-Wrap these files.

2022-08-27 17:16:11 39

原创 Spark_SparkCore_RDD

Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.①血缘关系:节点之间存在直接或间接依赖关系,多个节点的依赖关系构成血缘关系,每个节点都维护着本节点的血缘关系.当程序出错时,可通过血缘关系向上追溯到有数据的节点,重新计算恢复.将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。

2022-08-27 15:39:38 310

原创数据仓库2_数据建模_建模规范/优化

①如果数据源的数据量很大,可将数据同步到不同分区,例如时间分区.(2) DIM层:{模型层级}_{业务板块}_{主题域}_{自定义标签}.①ADS层优先调用DWS层数据,不能直接调用ODS层数据.增量表:ods_{来源数据库缩写}_源数据库表名_inc。全量表:ods_{来源数据库缩写}_源数据库表名.②各层表增加数据处理时间,取当前系统时间.①字段值按最小单位保存,如时间保留到秒.②通过增加汇总表,减少数据的动态汇总.③复合指标字段尽量在DWS层才添加.④通过字段冗余,减少表连接的数量.

2022-08-23 16:06:55 218

转载数据仓库3_ETL_数据清洗/装载

对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据.数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认.数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取.不符合要求的数据主要是残缺的数据、错误的数据、重复的数据、差异的数据四大类.

2022-08-23 15:41:46 526

转载分布式资源管理和任务调度系统伏羲

(1) 抢占策略:任务提交时配置优先级(越小优先级越高),相同优先级的任务中先提交的优先级高;资源优先分配给高优先级的任务,剩余的资源继续分配给次高优先级.如果临时有高优先级的紧急任务加入,FuxiMaster会从当前正在运行的任务中,从最低优先级任务开始强制收回资源,以分配给紧急任务.①一个数据集成任务需要一级调度资源组下发任务到二级数据集成资源组来同步数据.执行数据同步任务的流程为先从数据来源所在的机器抽取数据至资源组所在的机器,在资源组所在的机器进行处理,最后推送至目标数据源所在的机器.

2022-07-25 11:45:34 405

转载阿里云飞天平台

阿里云飞天（Apsara）是由阿里云开发的一个大规模分布式计算系统,包括飞天内核和飞天开放服务.分布式系统底层服务协调服务(女娲)，远程过程调用(夸父)，安全管理(钟馗)；云服务引擎(ACE)作为第三方应用开发和Web应用运行和托管的平台.集群部署和监控集群监控(神农)、集群部署(大禹).开放数据处理服务(ODPS/Maxcompute);分布式资源管理和任务调度系统(伏羲);开放结构化数据服务(OTS);关系型数据库服务(RDS);弹性计算服务(ECS);开放存储服务(OSS);......

2022-07-25 11:07:00 1788

转载 MySQL_优化/问题

通过某种策略将数据分片来存储,分库内分表和分库两部分,每片数据会分散到不同的MySQL表或库.分片策略有范围分片、时间分片、字段冷热拆分.如表分区.①列裁剪:不读取不需要的列,减少IO消耗.读取操作有select,where,join,group by,sort by等.为了确保数据库的稳定性,很多数据库拥有双机热备功能.即一台数据库服务器提供增删改业务,一台数据库服务器提供查询业务.②把一个多字段的大表按常用字段和非常用字段,拆分到不同表中,每个表的记录数相同,只是字段不一样,使用主键关联.

2022-07-22 11:04:13 68

原创数据仓库4_数据开发

(2) 配置任务周期,根据数据血缘配置任务依赖,配置任务监控;(3) 数据测试:数据核对、性能测试,数据核对文档;(1) 数据开发,开发规范;(4) 部署上线,上线文档.

2022-07-15 16:18:44 72

转载数据开发与运维中心_数据开发

调度参数是DataWorks任务调度时使用的参数,调度参数会根据任务调度的业务日期、定时时间及参数的取值格式自动替换为具体的值,实现在任务调度时间内参数的动态替换.③提供隔离的开发和生产环境,结合版本管理、代码评审、冒烟测试、发布管控、操作审计等配套功能,帮助企业规范地完成数据开发.①调度周期为'小时调度'时,须配置上一周期的依赖项为本节点,且不可调过上游的空跑属性.数据开发模块包含数据开发、临时查询、运行历史、表管理、函数管理等功能.数据开发、代码评审、任务发布、运维中心....

2022-07-13 18:06:46 165

转载数据开发与运维中心_运维中心

运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控、智能诊断、资源运维和引擎运维功能模块,提供任务操作与状态、引擎、资源等多方位的运维能力.从运行状态分布、调度资源分配运、行时长排行等多个报表,对任务运行状态和资源使用状况进行监控.设置监控报警,如出错、超时、波动过大等异常,支撑短信、钉钉机器人等方式发送告警.①对于小时调度,须指定小时周期。阿里云:DataWorks_运维中心概述。

2022-06-28 18:25:44 391

转载 DataX_DataWorks_数据集成_离线同步

③支持在各类复杂网络环境下,连通数据源的网络解决方案.阿里云:DataWorks公共云优先级和离线同步任务实时同步任务速度。④支持安全控制与运维监控,保障数据同步的安全、可控.①离线同步场景下,支持设置离线同步任务的调度周期.①导出节点名称:export_{来源表名称}②支持多种异构数据源之间的数据同步.

2022-06-17 11:13:30 394

转载数据仓库2_数据建模

(1) 主题:在较高层次上将数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域,在逻辑意义上对应企业中某一宏观分析领域所涉及的分析对象.(1) 按照业务或者业务过程划分:比如一个靠销售广告位置的门户网站主题域可能会有广告域、客户域等,而广告域可能就会有广告的库存,销售分析、内部投放分析等主题；(1) 数据模型:是抽象描述现实世界的一种工具和方法,通过对实体和实体之间关系的定义和描述,来表达实际业务中具体的业务关系.①运用实体建模法,将业务模型抽象化,合并类似的概念,细化概念;

2022-05-06 14:27:17 125

转载 Hive_数据类型/运算符

目录1 数据类型1.1 复杂数据类型1 数据类型1.1 复杂数据类型(1) 数组由一系列相同数据类型的元素组成,元素可以通过下标来访问,从0开始.-- 1 要导入的数据 monday,sunday,tuesday-- 2 建表create table day( week_name array<string>)row format delimitedfields terminated by '\t'collecti...

2022-04-29 17:58:22 94

转载 Hive_函数

UDF :操作单行数据,产生单行数据;UDAF :操作多行数据,产生单行数据;UDTF :操作单行数据,产生多行数据.

2022-04-28 17:27:25 1605

转载 MaxCompute_概念/使用

最上层部分,负责数据上传下载、用户鉴权以及负载均衡.①各种外部数据源都可以通过外部传输工具将数据同步到分布式文件存储系统盘古中.②用户使用命令行工具、MaxCompute Studio以及DataWorks等开发完任务提交后,提交HTTP服务,向用户中心做身份鉴权.MaxCompute是适用于数据分析场景的模式云数据仓库.采用的是类似与SQL的语法,可以看作是标准SQL的子集.核心的部分,负责对命令的解析与执行、用户空间和对象的管理控制及授权等功能,元数据存储在分布式元数据服务上....

2022-01-03 11:03:57 745

转载 MySQL_事务

事务是一组SQL语句,要么全部执行成功,要么全部执行失败,通常一个事务对应一个完整的业务.

2021-12-31 15:33:51 109

原创 MySQL_函数

(3) char:将value转换成char格式。CSDN:[Mysql] CAST函数。

2021-12-06 17:10:17 112

转载 MySQL_概念/命令

binlog(binary log) 是 Server层二进制日志,以事件形式记录了除查询语句外所有的 DDL 和 DML 语句,还包含语句执行消耗的时间.binlog是事务安全型的.存储引擎层日志.当有一条记录需要更新时,InnoDB 引擎会先把记录写到 redo log 里面,并更新内存.随后InnoDB引擎会在适当的时候,将这个操作记录更新到磁盘里面.涵盖MySQL的大多数核心服务功能,以及所有的内置函数,所有跨存储引擎的功能(比如存储过程、触发器、视图等).

2021-12-06 17:02:27 1001

转载 Windows

②网络和Inertnet->更改适配器选项->以太网或者无线网,属性-> IPv4->配置固定 IP 和 DNS.①Shell下,ipconfig /all,获取IP、子网掩码、默认网关和 DNS.①修改C:Windows/System32/drivers/etc/hosts。①文件名:不要带有空格的,用英文下划线"_"或减号"-"代替.①资源管理器默认展开目录:查看->选项->展开到打开的文件夹。使用DirectX修复工具修复系统缺失的文件.②格式为: IP 域名。

2021-12-06 16:50:39 41

转载数据仓库7_数据治理_数据血缘

目录0 参考列表1 概念2 应用场景3 特征3.1 数据血缘关系的层次4 数据血缘的可视化 CSDN:数据治理：数据血缘关系分析_q1042960848的博客-CSDN博客_数据血缘分析数据治理：数据血缘关系分析此文章由百度的多篇文章归纳总结而成，以供本人学习和记录方便，不做任何商务用途，如有侵权，请联系我删除，谢谢！参考列表：微信 - 头哥侃码公众号：数据治理的大方向是Database Mesh？先把数据之间的血缘关系搞明白，咱再吹行吗？搜狐 - 数据大家：数据之间有血缘关系？数据治理不得不

2021-10-18 10:31:31 773

原创 MaxCompute_函数

4)去除字符串的首尾空格。(1)获取字符串的长度。(1)获取当前系统时间。(1)查看支持的函数。(1)时间戳转时间。(2)时间转时间戳。(3)日期转字符串。(2)数据类型转换。

2021-06-12 17:41:14 809

转载浏览器_Chrome

②单击最左边的标签页,按照Shi键,再点击其它标签页,可实现选中区间标签页.①单击一个标签页,按住Ctrl键,再点击其它标签页,可实现选中多个标签页.(2) 选中多个标签页。导出chrome插件。

2021-04-11 23:35:22 126

转载 Hive_概念/使用

①textfile :默认格式,导入数据时会直接把数据文件拷贝到 HDFS 上不进行处理,行存储.存储空间大,解析时资源消耗大.其它存储格式的表不能直接从本地文件导入数据,要先将数据导入到textfile表中,再用 insert 或者 create table as select 导入数据.①内部表(管理表):表数据由Hive自身管理,表数据存储的位置是hive.metastore.warehouse.dir,删表会直接删除元数据及存储数据.②连接hiveserver2:beeline。

2021-03-21 16:10:09 125

原创 Hive_语法

-表类型...--分区--分桶--行分隔符--数据存储方式--外部表数据存储路径--表内部属性-- 例tblproperties("skip.header.line.count"="1"):导入数据时忽略文件第一行.

2021-03-21 15:57:40 481

原创数据仓库2_数据建模_维度建模

大多数维度都不是完全相互独立的,可能存在多对多的关系.例如银行系统中,一个账户有多个客户,一个客户也有多个账户,想根据账户的月度账单统计客户的月度账单.可以创建账户和客户的桥接表,并添加权重因子,同一账户的权重因子之和为1.根据每个客户的在桥接表中的权重因子分配事实.(3) 合并事实表:是指将位于不同事实表中处于相同粒度的事实进行组合建模而成的一种事实表,它的维度是两个或多个事实表的相同维度的集合.合并事实表的粒度可以是原子粒度也可以是聚集粒度.

2020-12-01 21:40:40 1675

转载数据仓库1_概念

Kimball与Inmon两种架构的主要区别在于核心数据仓库的设计和建立.Kimball的数据仓库包含高粒度的企业数据,使用多维模型设计,这也意味着数据仓库由星型模式的维度表和事实表构成.分析系统或报表工具可以直接访问多维数据仓库里的数据.在此架构中的数据集市也与Inmon中的不同.这里的数据集市是一个逻辑概念,只是多维数据仓库中的主题域划分,并没有自己的物理存储,也可以说是虚拟的数据集市.数据集市是按主题域组织的数据集合,用于支持部门级的决策也称之为部门级数据仓库.分为独立数据集市和从属数据集市....

2020-12-01 21:20:19 446

转载数据仓库3_ETL_数据抽取

在来源表系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容.当ETL加载时,通过读日志表数据决定抽取哪些数据及如何抽取.例如使用Mysql的binlog.ETL是指将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据.(1) 确定数据源:数据源的访问方式,数据源的形式(是数据库还是手工数据,是否存在非结构化的数据)等.缺点:时戳维护需要由来源表系统完成,需要修改来源表的结构.工作量大,改动面大.

2020-12-01 20:38:26 1805

原创网站流量日志分析

目录1 分析的意义2 Web访问日志2.1 日志来源2.2 数据分类2.2.1 按类型分2.2.2 按内容分2.3 日志搜集原理3 日志处理流程图1 分析的意义(1) 优化页面及业务流程设计，提高流量转化率。(2) 帮助企业对客户群进行细分，针对不同客户制定个性化的促销策略.2 Web访问日志访问日志指用户访问网站时的所有浏览、点击行为数据.2.1 日志来源(1) web服务器软件（httpd、nginx、tomcat）自带的日志记录功..

2020-12-01 20:21:31 835

空空如也

空空如也