自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Shell中单引号‘‘和双引号的区别

       在练习数仓项目是,涉及到很多导入导出脚本,脚本中双引号和单引号的一直弄混,参考其他大神的答案,自己总结了一下区别。       看代码:#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`输出结

2020-09-08 20:52:23 165

原创 HBase学习的一些笔记

1、ROWKEY的设计原则       三大原则:rowkey长度原则、rowkey散列原则、rowkey唯一原则。       如何设计:1)生成随机数、hash、散列值;2)字符串反转;3)字符串拼接。2、HBase宕机如何处理       宕机分为HMaster宕机和HRegionSer

2020-09-03 16:24:37 136

原创 Hbase架构图

Hbase架构图Hbase是一种分布式、可扩展、支持海量数据储存的NoSQL数据库。Hbase架构图1)Master: Master是所有Region Server的管理者,主要是进行DDL操作,对表进行创建删除等等;对Region Server操作主要是分配regions到每个RegionServer,监控每个RegionServer的状态,负载均衡以及故障转移。2)RegionServer: 主要是进行DML操作,是Region的管理者,对数据可以进行增删查操作,对Region可以进行切分合并

2020-09-03 10:37:51 463

原创 Hive学习总结(版本:1.2.1)

1、Hive架构Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。用户接口:ClientCLI(hive shell)⃝JDBC/ODBC(java 访问 hive)⃝WEBUI(浏览器访问 hive)元数据:Metastore元数据包括:表名、表所属的数据库(默认是 default)表的所有者 列/分区字段 表的类型(是否是外部表)表的数据所在目录等;默认存储在

2020-09-02 10:47:44 245

原创 Hive窗口函数理解

窗口函数       一直对Hive窗口函数半知半解,最近一直在学习相关知识,记录一下自己的理解。       首先是窗口函数出现的概念,指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化; 概念比较抽象,字都认识,放一块就不知道啥意思了。。。再来说说窗口函数应用的场景,因为之前我们接触过聚合函数,比如sum(),avg(),max()等,而且

2020-09-01 22:08:40 256

原创 Spark学习笔记01-Local模式/Standaline模式安装测试

1、Spark简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2、local模式安装及测试       Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。       从官网下载Spark的安装包,因为我的Hadoop是2.7.2,所以我下载的是spark-2.1.1-bin-hadoop2.7.tgz。下载地址

2020-08-31 22:14:40 203

原创 IDEA 常用快捷键(Win + Linux)

Ctrl快捷键介绍Ctrl + F 在当前文件进行文本查找 (必备)Ctrl + R 在当前文件进行文本替换 (必备)Ctrl + Z 撤销 (必备)Ctrl + Y 删除光标所在行 或 删除选中的行 (必备)Ctrl + X 剪切光标所在行 或 剪切选择内容Ctrl + C 复制光标所在行 或 复制选择内容Ctrl + D 复制光标所在行 或 复制选择内容,并把复制内容插入光标位置下面 (必备)Ctrl + W 递进式选择代码块。可选中光标所在的单词或段落,连续按会在原有选中的基础上再

2020-08-31 16:16:58 157

原创 Kafka的学习笔记01

1、Kafka架构Producer:消息生产者,也就是向Broker发送消息的客户端;Consumer:消息消费者,向Broker消费数据的客户端;Consumer Group(GC):消费者组,也就是由多个消费者组成的。消费者组内的每个消费者负责消费不同分区的数据,一个分区只能由一个组内的消费者消费,消费者组间互不影响;Broker:一台Kafka服务器就是一个Broker,一个集群由多个Broker组成,同时一个Broker由多个Topic组成;Topic:可以理解我一个队列,生产者和消费者面

2020-08-31 10:15:35 131

原创 Flume学习的一些笔记

1、Source、Channel、sinkSource       目前Flume中Source基本是Taildir Source,它可以实现断点续传,以及监控多目录,在Flume1.6以前需要自定义Source记录每次读取的文件位置,实现断点续传。Exec Source虽然可以实时搜集数据集,但在Flume不运行或者Shell出错时,数据会丢失。而SpoolingDirectory source能监控目录,但是不能断点续传,所以推荐

2020-08-29 15:00:51 148

原创 Hadoop优化的一些笔记

1、Hadoop小文件影响(1)影响NameNode寿命,因为NameNode的内存存储文件的元数据信息(2)影响计算引擎的任务数量,因为一个文件就会创建一个Map任务2、数据输入小文件处理(1)合并小文件:对小文件进行归档(har),自定义Inputformat将小文件存储为SequenceFile文件;(2)采用CombinFileInputformat来作为输入,解决大量小文件的问题;(3)对于大量小文件job,开启JVM重用。3、Map端(1)增大环形缓冲区的大小,从100M增大到2

2020-08-27 09:29:02 116

原创 Linux常用命令

1 top查看内存使用情况2 df -h查看磁盘存储情况3 netstat -tunlp | grep 端口号查看端口占用情况4 iotop (yum install iotop安装)查看磁盘IO读写5 iotop -o直接查看比较高的磁盘读写程序6 uptime查看报告系统的运行时长及平均负载7 ps aux查看进程...

2020-08-26 15:07:08 135

原创 **离线电商数仓学习笔记day11**

离线电商数仓学习笔记03-系统业务数据电商常识SKU:库存量基本单位,引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU:商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。比如我们去商场买一部苹果手机IPhonex,IPhonex就是SPU,而128G内存,银色的IPhonex这种具体到颜色的就是SKU。有点类似于类与对象的区别。数仓理论1 表的分类实体表:一般用于存储现实存在的业务对象,比如用户,商品,商家等;维度表:一般指对应的业务状态,比如订单状态之类的,也称

2020-08-25 21:21:16 191

原创 Hive的一些小笔记01

1 where和Having的区别(1)where可以用在select、update、delete等多种语句中,而having只能用在select语句中;(2)where 子句在聚合之前起作用,不能放在 GROUP BY 子句之后;having 子句在聚合之后起作用,不能放在 GROUP BY 子句之前;(3)where子句中的条件表达式having都可以跟,而having子句中的有些表达式where不可以跟;比如having子句可以用集(/聚)合函数(sum、count、avg、max和min),

2020-08-24 21:00:29 120

原创 **离线电商数仓学习笔记day10**

需求四:本周回流用户数本周回流是指上周之前活跃过,上周未活跃,但本周活跃了公式:回流=本周活跃-上周本周新增-上周活跃ADS层插入表drop table if exists ads_back_count;create external table ads_back_count( `dt` string COMMENT '统计日期', `wk_dt` string COMMENT '统计日期所在周', `wastage_count` bigint COMMENT '回流设

2020-08-24 20:27:13 158

原创 **离线电商数仓学习笔记day09**

需求三:沉默用户数沉默用户指的是只在安装当天启动过,且启动时间是在一周前准备新数据为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数,需要准备2019-02-12、2019-02-20日的数据。2019-02-12数据准备修改日志时间dt.sh 2019-02-12启动集群cluster.sh start生成日志数据lg.sh将HDFS数据导入到ODS层ods_log.sh 2019-02-12将ODS数据导入到DWD层dwd_

2020-08-24 18:31:31 139

原创 **离线电商数仓学习笔记day08**

需求一:用户新增DWS层建表drop table if exists dws_new_mid_day;create external table dws_new_mid_day( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT '用户标识', `version_code` string COMMENT '程序版本号', `version_name` string COMMENT '程序版本名'

2020-08-24 16:26:05 163

原创 **离线电商数仓学习笔记day07**

离线电商数仓学习笔记02-数仓分层数仓分层-ADS层ADS层是对DWD层数据进行再加工汇总,为统计报表提供数据。1,统计每日设备活跃数建表drop table if exists ads_uv_count;create external table ads_uv_count( `dt` string COMMENT '统计日期', `day_count` bigint COMMENT '当日用户数量', `wk_count` bigint COMMENT '当周用户数

2020-08-20 20:13:18 162

原创 **离线电商数仓学习笔记day06**

离线电商数仓学习笔记02-数仓分层数仓分层-DWS层DWS层主要负责对数据进行轻度汇总,但粒度和DWD层基本保持一致。注:我在notepad++上面写Hive命令,一开始写命令复制到虚拟机上执行,一直报错,而且对了一遍命令也没有错误,百度之后有人说不能用tab键,应该用四个空格代替,试过之后果然就不报错了1,统计每日活跃设备明细(1)建表create external table dws_uv_detail_day( `mid_id` string COMMENT '设备唯一标识',

2020-08-20 17:52:44 187

原创 **离线电商数仓学习笔记day05**

离线电商数仓学习笔记02-数仓分层数仓分层1 为什么要数仓分层(1)复杂问题简单化:可以将一个复杂的任务需求分解为多个步骤,每层只处理简单的业务逻辑,比较方便,而且可以方便定位问题。(2)增强数据的复用性:通过分层计算所得的数据,在处理其他的业务逻辑时,可以直接使用中间数据,不需要从头计算,提高工作效率。(3)隔离原始数据:不论是数据的异常性或者是数据敏感性,将统计数据和原始数据解耦开。2 数仓分几层一般情况下数仓分为四层:ODS层、DWD层、DWS层、ADS层。当然对于大公司来说,由于业务逻

2020-08-19 15:45:59 373

原创 **离线电商数仓学习笔记day04**

离线电商数仓学习笔记01-数据采集模块安装02安装Zookeeper集群规划在三个节点上均安装zookeeper解压安装配置服务器编号在/opt/module/zookeeper-3.4.10目录下创建zkData,并在这个目录下创建myid文件,随后在myid文件中添加与节点对应的编号,随后分发到其他节点上。每个节点的id不能重复,必须改成不同配置zoo.cfg文件首先重命名/opt/module/zookeeper-3.4.10/conf目录下的zoo_sample.cfg为zoo.cf

2020-08-18 09:02:56 157

原创 **离线电商数仓学习笔记day03**

离线电商数仓学习笔记01-数据采集模块安装01安装Hadoop虚拟机环境准备(1)克隆虚拟机(Hadoop102 hadoop103 hadoop104)(2)修改克隆虚拟机的静态IP(3)修改主机名(与第一步主机名一致)(4)关闭防火墙(5)在/opt目录下创建software、module文件夹[root@hadoop102 opt]$ sudo mkdir module[root@hadoop102 opt]$ sudo mkdir software安装JDK(1)检查是否安

2020-08-17 21:50:11 160

原创 **离线电商数仓学习笔记day02**

离线电商数仓学习笔记02-数据生成(用户行为数据)埋点数据格式数据主要分为两类:(1)事件日志数据 (2)启动日志数据数据格式分为两类:(1)公共字段(2)业务字段公共字段:所以手机都包含的字段(如IP地址、版本号等)业务字段:埋点上报的字段,有具体的业务类型实例:{"ap":"xxxxx",//项目数据来源 app pc"cm": { //公共字段 "mid": "", // (String) 设备唯一标识 "uid": "", // (String) 用户标识

2020-08-17 20:57:48 370

原创 **离线电商数仓学习笔记day01**

离线电商数仓学习笔记01-数仓概念及架构设计数仓概念数据仓库(Data Warehouse)是为企业所有部门决策制定过程,提供所有系统数据支持的数据集合。与数据仓库相类似的集合叫数据集市(Data Mart),它是满足特定部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。数据仓库并不是数据的最终目的地,而是为数据最终目的地做好准备。准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。数仓概念图如上所示,数据来源主要为日

2020-08-17 18:56:36 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除