自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 对今天的面试做总结

今天面试总结:1、将问题听明白。有时候你以为的,不是他想要的。所以前期一定问明白他想问什么。别人家问一个数仓架构,你回答一个每层是做什么的。2、一门知识要吃透,不要留下死角。比如hive的文件存储和压缩。每种存储格式的逻辑和压缩比。hive哪种情况导致倾斜。等等。以前只是将基础弄明白了,大厂问的基础,也问得深一些。3、对某一业务熟知,虽然很多业务因为很长时间没做了,所以忘记了。比如贷款...

2020-03-15 21:22:06 165

原创 spark sql

RDD、DataFrame和DataSet三者转化case class的设计:case class Person(name: String, age: Long)

2020-03-13 16:28:36 149

原创 元数据管理

大数据仓库越来越重视元数据的管理,但是元数据怎么管理,还处于探索阶段。 一、最初的阶段是人工excel,写字段mapping 这样带来的弊端显而易见,就是1)及时性达不到,2)准确性达不到,3)同步性也达不到。它只是结项的必交的文档而已。 二、越来越多的角色的人使用数仓,迫切需要一个界面展示具体指的意思,业务统计口径等,用一个web界面展示,但是后端还是excel 三、自动采集数据字典系...

2020-03-09 13:24:41 240

原创 35岁以后IT工程师的优势和发展方向

35后的it工作者,普遍有焦虑,一是来源于外部的,比如有些企业明文或者不成名的规定,将35岁以上的人拒绝在门外。一是IT行业年轻化,说明他是一个重脑力更重体力的活,需要年轻人冲锋陷阵,996,997。35岁有家需要照顾,体力也赶不上哪些20多岁的人,还有就是35岁拿着高工资,感觉20多岁的人培养培养也能干,IT行业成了流水线,大批培训后就能上手,只是35岁一半的工资。不是所有人最后的归宿都是公司领...

2020-03-09 12:21:38 798

原创 数据中台和大数据数据仓库的区别

看了很多数据中台的介绍,感觉和传统数仓有一些区别,但是和大数据数据仓库的几乎无区别。(1)从用途上看:都是为了,数据分析,数据挖掘,AI,数据可视化等等(2)从存储上看:都是解决大数据量的问题(3)从技术上看:要解决质量问题,规范问题,标准问题,元数据管理,主数据管理,等数据治理,再到数据分层,数据建模和前端可视化展现。(4)从工具上看:hadoop生态那么与大数据平台的区别是什么?大...

2020-03-09 11:48:26 2429

原创 指标分析的步骤

1、思考产品类型,梳理业务流程许多数仓的项目,前期做的需求分析,包括demo设计,功能性需求和非功能性需求。指标来源有两个,一个是各部门提供的文档需求,一个是跟业务部门沟通后产生的。指标分析,需要思考产品类型:如果是一个电商类产品,是怎样的指标框架?有哪些业务流程呢?2、指标框架下有哪些指标体系呢?3、每个指标有哪些粒度,哪些维度呢?4、底层系统是否支持指标数据?支持的意思是底层是否有此指...

2020-03-09 11:20:30 629

原创 hive 优化

表的优化(1)小表join大表hive版本升级后,小表join大表和大表join小表的执行计划查不了多少了(2)mapjoin功能(默认是打开的)set hive.auto.convert.join = true;将小表加入内存(3)空值空值导致的数据倾斜,可以将空值处理为concat(‘hive’, rand()),就是加一个随机数(4)map端进行聚合a.是否在Map端进行聚合...

2020-03-06 13:47:31 127

原创 缓慢变化维处理及事实表的字段的抽取

缓慢变化维,为了体现历史数据的变更。采用历史拉链的方式处理(1)把新的维度union all上已有的维度,已有维度若关联得上当天的数据,并且end_date =‘9999-12-31’,则end_date更新为昨天select …from goods where create_time=‘2019-06-01’ —商品表的新增数据union allselect …if(b.id is ...

2020-03-06 11:13:10 365

原创 数据仓库项目的步骤

一、技术方案和概念验证。根据客户的需求,画demo看是否与需求吻合。初步设计阶段是多选方案阶段,技术设计阶段主要还是功能性的实现。二、需求阶段:需求访谈,需求报告输出;第一次评审,需求最后一次评审,产物是需求文档(主题,指标,维度,展现格式等功能性需求和非功能性需求)三、源系统数据分析和源系统分析,只有对源系统分析后,才会对整个项目有个把握,能否做出符合需求的数仓。很多项目缺少这一步,认为什么...

2020-03-05 22:45:26 1138

原创 hive知识一览

hive的基本数据类型:Hive数据类型 Java数据类型 长度TINYINT byte 1byte有符号整数SMALINT short 2byte有符号整数INT int 4byte有符号整数BIGINT long 8byte有符号整数BOOLEAN boolean 布尔类型,true或者falseFLOAT float 单精度浮点数DOUBLE double 双精度浮点数ST...

2020-03-05 18:16:32 158

原创 hive作为数仓,各个层次的存储格式

hive作为数仓,分为 1、业务数据的数仓,来源于mysql2、用户行为数仓(日志),来源于采集系hive :ods层:用sqoop将mysql的数据导入到hdfs创建Snappy压缩格式的Parquet结构的表drop table if exists ods_order_info;create table ods_order_info (id string COMMENT ‘订单编...

2020-03-04 19:28:27 1881

原创 数仓建模之事实表

1.确定主题 想解决那个需求2.确定量度3.确定事实数据粒度 同一个事实表中不能有不同的粒度4.确定维度5.创建事实表6.冗余维度 将维度退化到事实表一般设计是单事务事实表,耦合性小,便于扩展多事务事实表,是用于前端有这样的需求,不如算订单的转化率,从购物车,到下单,到支付等。多事务的事实表的粒度要一致,不一致是无法放在一起的,比如订单粒度到订单子订单,物流确实一个子订单可能多个物流...

2020-03-04 19:04:50 1052

原创 数仓建模之维度建模

1、维度按照稳定性分为稳定、缓慢变化和变化频繁(1)稳定的维度,全量抽取(2)缓慢变化维的处理,就是加代理键。先把新的维度加进来union all上已有的维度,已有维度若end_date =‘9999-12-31’,且有状态变更,则end_date更新为当天时间维度表的代理键是没有意义的键,事实表根据维度表将代理键进入事实表,如果用关系型的数据库,就是join的同时加上start_date&...

2020-03-04 18:02:49 912

原创 数仓各个层级都在干什么

数仓分层是为了将复杂问题简单化,和解耦。数仓是数据量和数据复杂度上升到一定程度的产物。最初的设计都是烟囱式的开发。就比如你有几本书,还需要像图书馆那样分门别类吗?数据分层,有分三层(ods层,dw层,dm层),有分四层(ods层,dwd层,dws层和ads层)。1、问为什么分三层,或者四层,每一层都做了什么,如果不这么分可不可以?我觉得首先达成一致的是数仓要分层。然后是分几层,ods层是数据贴...

2020-03-04 14:59:10 3112

原创 面试遇到的问题汇总

昨天看了一个博客,有很大感悟,觉得需要将面试中遇到的问题进行综合规整,以便犯同样的错误。一、对简历中的内容清楚掌握。二、对于一个项目,详细清楚地表达整个过程,描述项目的优点和踩过的坑三、面试前做功课,将数仓的理论和实践吃透四、对面试提问的问题做总结五、涉猎广,多看博客,看看别人的做法六、要自信,不要三言两语就将自己的经验说完了,感觉浮于表面七、基础知识要打牢,不要一门心思只想攻克难关...

2020-03-04 08:45:59 132

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除