J1nX1N-CSDN博客

原创 Shell中单引号‘‘和双引号的区别

在练习数仓项目是，涉及到很多导入导出脚本，脚本中双引号和单引号的一直弄混，参考其他大神的答案，自己总结了一下区别。看代码：#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`输出结

2020-09-08 20:52:23 165

原创 HBase学习的一些笔记

1、ROWKEY的设计原则三大原则：rowkey长度原则、rowkey散列原则、rowkey唯一原则。如何设计：1）生成随机数、hash、散列值；2）字符串反转；3）字符串拼接。2、HBase宕机如何处理宕机分为HMaster宕机和HRegionSer

2020-09-03 16:24:37 136

Hbase架构图Hbase是一种分布式、可扩展、支持海量数据储存的NoSQL数据库。Hbase架构图1）Master： Master是所有Region Server的管理者，主要是进行DDL操作，对表进行创建删除等等；对Region Server操作主要是分配regions到每个RegionServer，监控每个RegionServer的状态，负载均衡以及故障转移。2）RegionServer：主要是进行DML操作，是Region的管理者，对数据可以进行增删查操作，对Region可以进行切分合并

2020-09-03 10:37:51 463

原创 Hive学习总结（版本：1.2.1）

1、Hive架构Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。用户接口：ClientCLI（hive shell）⃝JDBC/ODBC(java 访问 hive)⃝WEBUI（浏览器访问 hive）元数据：Metastore元数据包括：表名、表所属的数据库（默认是 default）表的所有者列/分区字段表的类型（是否是外部表）表的数据所在目录等；默认存储在

2020-09-02 10:47:44 245

原创 Hive窗口函数理解

窗口函数一直对Hive窗口函数半知半解，最近一直在学习相关知识，记录一下自己的理解。首先是窗口函数出现的概念，指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化；概念比较抽象，字都认识，放一块就不知道啥意思了。。。再来说说窗口函数应用的场景，因为之前我们接触过聚合函数，比如sum（），avg（），max（）等，而且

2020-09-01 22:08:40 256

原创 Spark学习笔记01-Local模式/Standaline模式安装测试

1、Spark简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2、local模式安装及测试 Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。从官网下载Spark的安装包，因为我的Hadoop是2.7.2，所以我下载的是spark-2.1.1-bin-hadoop2.7.tgz。下载地址

2020-08-31 22:14:40 203

原创 IDEA 常用快捷键（Win + Linux）

Ctrl快捷键介绍Ctrl + F 在当前文件进行文本查找（必备）Ctrl + R 在当前文件进行文本替换（必备）Ctrl + Z 撤销（必备）Ctrl + Y 删除光标所在行或删除选中的行（必备）Ctrl + X 剪切光标所在行或剪切选择内容Ctrl + C 复制光标所在行或复制选择内容Ctrl + D 复制光标所在行或复制选择内容，并把复制内容插入光标位置下面（必备）Ctrl + W 递进式选择代码块。可选中光标所在的单词或段落，连续按会在原有选中的基础上再

2020-08-31 16:16:58 157

原创 Kafka的学习笔记01

1、Kafka架构Producer：消息生产者，也就是向Broker发送消息的客户端；Consumer：消息消费者，向Broker消费数据的客户端；Consumer Group(GC)：消费者组，也就是由多个消费者组成的。消费者组内的每个消费者负责消费不同分区的数据，一个分区只能由一个组内的消费者消费，消费者组间互不影响；Broker：一台Kafka服务器就是一个Broker，一个集群由多个Broker组成，同时一个Broker由多个Topic组成；Topic：可以理解我一个队列，生产者和消费者面

2020-08-31 10:15:35 131

原创 Flume学习的一些笔记

1、Source、Channel、sinkSource 目前Flume中Source基本是Taildir Source，它可以实现断点续传，以及监控多目录，在Flume1.6以前需要自定义Source记录每次读取的文件位置，实现断点续传。Exec Source虽然可以实时搜集数据集，但在Flume不运行或者Shell出错时，数据会丢失。而SpoolingDirectory source能监控目录，但是不能断点续传，所以推荐

2020-08-29 15:00:51 148

原创 Hadoop优化的一些笔记

1、Hadoop小文件影响（1）影响NameNode寿命，因为NameNode的内存存储文件的元数据信息（2）影响计算引擎的任务数量，因为一个文件就会创建一个Map任务2、数据输入小文件处理（1）合并小文件：对小文件进行归档（har），自定义Inputformat将小文件存储为SequenceFile文件；（2）采用CombinFileInputformat来作为输入，解决大量小文件的问题；（3）对于大量小文件job，开启JVM重用。3、Map端（1）增大环形缓冲区的大小，从100M增大到2

2020-08-27 09:29:02 116

原创 Linux常用命令

1 top查看内存使用情况2 df -h查看磁盘存储情况3 netstat -tunlp | grep 端口号查看端口占用情况4 iotop （yum install iotop安装）查看磁盘IO读写5 iotop -o直接查看比较高的磁盘读写程序6 uptime查看报告系统的运行时长及平均负载7 ps aux查看进程...

2020-08-26 15:07:08 135

原创离线电商数仓学习笔记day11

离线电商数仓学习笔记03-系统业务数据电商常识SKU：库存量基本单位，引申为产品统一编号的简称，每种产品均对应有唯一的SKU号。SPU：商品信息聚合的最小单位，是一组可复用、易检索的标准化信息集合。比如我们去商场买一部苹果手机IPhonex，IPhonex就是SPU，而128G内存，银色的IPhonex这种具体到颜色的就是SKU。有点类似于类与对象的区别。数仓理论1 表的分类实体表：一般用于存储现实存在的业务对象，比如用户，商品，商家等；维度表：一般指对应的业务状态，比如订单状态之类的，也称

2020-08-25 21:21:16 191

原创 Hive的一些小笔记01

1 where和Having的区别（1）where可以用在select、update、delete等多种语句中，而having只能用在select语句中；（2）where 子句在聚合之前起作用，不能放在 GROUP BY 子句之后；having 子句在聚合之后起作用，不能放在 GROUP BY 子句之前；（3）where子句中的条件表达式having都可以跟，而having子句中的有些表达式where不可以跟；比如having子句可以用集（/聚）合函数（sum、count、avg、max和min），

2020-08-24 21:00:29 120

原创离线电商数仓学习笔记day10

需求四：本周回流用户数本周回流是指上周之前活跃过，上周未活跃，但本周活跃了公式：回流=本周活跃-上周本周新增-上周活跃ADS层插入表drop table if exists ads_back_count;create external table ads_back_count( `dt` string COMMENT '统计日期', `wk_dt` string COMMENT '统计日期所在周', `wastage_count` bigint COMMENT '回流设

2020-08-24 20:27:13 158

原创离线电商数仓学习笔记day09

需求三：沉默用户数沉默用户指的是只在安装当天启动过，且启动时间是在一周前准备新数据为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数，需要准备2019-02-12、2019-02-20日的数据。2019-02-12数据准备修改日志时间dt.sh 2019-02-12启动集群cluster.sh start生成日志数据lg.sh将HDFS数据导入到ODS层ods_log.sh 2019-02-12将ODS数据导入到DWD层dwd_

2020-08-24 18:31:31 139

原创离线电商数仓学习笔记day08

需求一：用户新增DWS层建表drop table if exists dws_new_mid_day;create external table dws_new_mid_day( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT '用户标识', `version_code` string COMMENT '程序版本号', `version_name` string COMMENT '程序版本名'

2020-08-24 16:26:05 163

原创离线电商数仓学习笔记day07

离线电商数仓学习笔记02-数仓分层数仓分层-ADS层ADS层是对DWD层数据进行再加工汇总，为统计报表提供数据。1，统计每日设备活跃数建表drop table if exists ads_uv_count;create external table ads_uv_count( `dt` string COMMENT '统计日期', `day_count` bigint COMMENT '当日用户数量', `wk_count` bigint COMMENT '当周用户数

2020-08-20 20:13:18 162

原创离线电商数仓学习笔记day06

离线电商数仓学习笔记02-数仓分层数仓分层-DWS层DWS层主要负责对数据进行轻度汇总，但粒度和DWD层基本保持一致。注：我在notepad++上面写Hive命令，一开始写命令复制到虚拟机上执行，一直报错，而且对了一遍命令也没有错误，百度之后有人说不能用tab键，应该用四个空格代替，试过之后果然就不报错了1，统计每日活跃设备明细（1）建表create external table dws_uv_detail_day( `mid_id` string COMMENT '设备唯一标识',

2020-08-20 17:52:44 187

原创离线电商数仓学习笔记day05

离线电商数仓学习笔记02-数仓分层数仓分层1 为什么要数仓分层（1）复杂问题简单化：可以将一个复杂的任务需求分解为多个步骤，每层只处理简单的业务逻辑，比较方便，而且可以方便定位问题。（2）增强数据的复用性：通过分层计算所得的数据，在处理其他的业务逻辑时，可以直接使用中间数据，不需要从头计算，提高工作效率。（3）隔离原始数据：不论是数据的异常性或者是数据敏感性，将统计数据和原始数据解耦开。2 数仓分几层一般情况下数仓分为四层：ODS层、DWD层、DWS层、ADS层。当然对于大公司来说，由于业务逻

2020-08-19 15:45:59 373

原创离线电商数仓学习笔记day04

离线电商数仓学习笔记01-数据采集模块安装02安装Zookeeper集群规划在三个节点上均安装zookeeper解压安装配置服务器编号在/opt/module/zookeeper-3.4.10目录下创建zkData，并在这个目录下创建myid文件，随后在myid文件中添加与节点对应的编号，随后分发到其他节点上。每个节点的id不能重复，必须改成不同配置zoo.cfg文件首先重命名/opt/module/zookeeper-3.4.10/conf目录下的zoo_sample.cfg为zoo.cf

2020-08-18 09:02:56 157

原创离线电商数仓学习笔记day03

离线电商数仓学习笔记01-数据采集模块安装01安装Hadoop虚拟机环境准备（1）克隆虚拟机（Hadoop102 hadoop103 hadoop104）（2）修改克隆虚拟机的静态IP（3）修改主机名（与第一步主机名一致）（4）关闭防火墙（5）在/opt目录下创建software、module文件夹[root@hadoop102 opt]$ sudo mkdir module[root@hadoop102 opt]$ sudo mkdir software安装JDK（1）检查是否安

2020-08-17 21:50:11 160

原创离线电商数仓学习笔记day02

离线电商数仓学习笔记02-数据生成（用户行为数据）埋点数据格式数据主要分为两类：（1）事件日志数据（2）启动日志数据数据格式分为两类：（1）公共字段（2）业务字段公共字段：所以手机都包含的字段（如IP地址、版本号等）业务字段：埋点上报的字段，有具体的业务类型实例：{"ap":"xxxxx",//项目数据来源 app pc"cm": { //公共字段 "mid": "", // (String) 设备唯一标识 "uid": "", // (String) 用户标识

2020-08-17 20:57:48 370

原创离线电商数仓学习笔记day01

离线电商数仓学习笔记01-数仓概念及架构设计数仓概念数据仓库（Data Warehouse）是为企业所有部门决策制定过程，提供所有系统数据支持的数据集合。与数据仓库相类似的集合叫数据集市（Data Mart）,它是满足特定部门或者用户的需求，按照多维的方式进行存储，包括定义维度、需要计算的指标、维度的层次等，生成面向决策分析需求的数据立方体。数据仓库并不是数据的最终目的地，而是为数据最终目的地做好准备。准备包括对数据的：清洗、转义、分类、重组、合并、拆分、统计等。数仓概念图如上所示，数据来源主要为日

2020-08-17 18:56:36 384

J1NX1N的博客