自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 超级详细的大数据面试题

**超级详细的大数据面试题(持续更新中…)https://blog.csdn.net/zuochang_liu/article/details/105274316?**

2020-10-09 14:18:11 138

原创 Kafka常用命令汇总

Kafka常用API命令汇总:0、启动kafka集群kafka-server-start.sh -d config/server.properties1、列出集群里的所有主题。$ kafka-topics.sh --zookeeper node01:2181,node02:2181,node03:2181 --list2、 创建一个叫作my-topic的主题,主题包含8分区,每个分区拥有两个副本。kafka-topics.sh --zookeeper node01:2181,node02:21

2020-08-26 14:06:20 328

原创 大数据面试

适合应届生的大数据面试题 **一、 java基础**1、 Queue和Stack你平时有用过么,说说你常用的方法,他们的却别在哪呢?2、 了解java的异常吗,有什么区别,常见的异常有哪些呢?3、 两个字面值相同的Integer,它们两个用等于号去比较,结果是true还是false?(这个题要分两部分去回答,结果可能为true,也可能为false。因为有缓存)4、 可以讲一下你常用的集合类么?他们的实现类有哪些?5、 Ar

2020-08-21 14:03:37 608

转载 用户画像简介

https://www.rookiegao.top

2020-08-20 17:33:08 261 1

原创 Hive分析窗口函数

Hive窗口函数 Hive分析窗口函数(一) NTILE,ROW_NUMBER,RANK,DENSE_RANK数据准备cookie1,2018-04-10,1cookie1,2018-04-11,5cookie1,2018-04-12,7cookie1,2018-04-13,3cookie1,2018-04-14,2cookie1,2018-04-15,

2020-08-11 15:32:42 132

原创 hive中的lateral view 与 explode函数的使用

hive中的lateral view(侧视图) 与 UDTF(explode)函数的使用背景介绍:explode与lateral view在关系型数据库中本身是不该出现的。因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分)。本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),在面向分析的数据库 数据仓库中,发生了改变。explode函数可以将一个array或者map展开,其中explode(array)使得结果中将array列表里的每个元素生成一行;explode

2020-08-10 22:04:21 595

原创 Hive 自定义函数 UDF UDAF UDTF

Hive 自定义函数 UDF UDTF UDAFUDF:用户定义(普通)函数,只对单行数值产生作用;UDF只能实现一进一出的操作。定义udf 计算两个数最小值public class Min extends UDF { public Double evaluate(Double a, Double b) { if (a == null) a = 0.0; if (b == null)

2020-08-10 22:03:50 271

原创 网站流量日志分析系统

网站流量日志分析系统网站流量日志分析-01网站流量日志分析的意义通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱。如何进行网站分析流量分析质量分析 在看重数量的同时 需要关注流量的质量 所谓的质量指的是流量所能带来产生的价值。多维度细分 维度指的是分析的问题的角度 在不同的维度下 问题所展示的特性是不一样的内容导航分析从页面的角度分析 用户的访问行为轨迹转化分析(漏斗模型分析)从转化目标分析 分析所谓的流失率转化率 漏斗模型:层层递减

2020-08-10 22:03:10 2025

原创 数据仓库简介

数据仓库简介一 数据仓库的概念*1 什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2 数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。2)如何优化业务流程例如:一个电商网站订单的完成包括:浏览、下单、支付、物流,其中物流环节可能

2020-08-10 21:49:59 671 1

原创 scala

scala简介scala是运行在JVM上的多范式编程语言,同时支持面向对象和面向函数编程早期,scala刚出现的时候,并没有怎么引起重视,随着Spark和Kafka这样基于scala的大数据框架的兴起,scala逐步进入大数据开发者的眼帘。scala的主要优势是它的表达性。接下来,我们要来学习:为什么要使用scala?通过两个案例对比Java语言和scala语言为什么使用scala开发大数据应用程序(Spark程序、Flink程序)表达能力强,一行代码抵得上Java多行

2020-08-08 16:32:47 209 1

原创 数据仓库概要

1、数据仓库所处环节在一个成体系、结构化的数据应用场景下,数据和处理有四个层次: 操作层、数据仓库层、部门/数据集市层、个体层。操作层操作层是指为具体业务提供实时响应的各个业务系统,比如常见的订单系统、ERP、用户中心等等具体业务系统,这些系统中的数据一般都是存入关系型数据库。它们是数据的来源。数据仓库数据仓库收集操作层各个业务系统中的数据,进行统一格式、统一计量单位,规整有序地组织在一起,为数据分析、数据挖掘等需求提供数据支持。数据集市部门/数据集市层是各个部门根据自己的数据分析需求,从数

2020-08-08 16:30:47 314

原创 大数据面试题总结

Big Data 面试题总结JAVA相关1-1)List 与set 的区别?老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复。1-2)数据库的三大范式?原子性、一致性、唯一性1-3)java 的io类的图解1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使...

2019-11-03 19:04:49 923

原创 linux常用命令总结

常用命令总结1、常用操作查看当前目录下的所有文件及目录ls/ll进入目录cd查看当前目录pwd结束当前进程ctrl+c/ctrl+z新建目录mkdir dir1[ dir2 dir3 dir4] 新建四个dir删除目录rm -rf dir 删除目录下及目录下的所有文件递归创建目录mkdir -p /dir1/dir...

2019-10-27 09:48:54 159 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除