自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 【hive】经典笔试面试题(四)如何计算分钟级DAU

1 需求还是那句老话,当需求描述清楚时,此需求就算完成了一半(大概是这个意思哈)啥是DAU?啥是分钟级DAU?咱们一个一个来DAU(Daily Active User)日活跃用户数量分钟级DAU,emmm 也不知道是不是这个叫法就是截止到当天分钟,累计到访过app的用户。比如 截至当天00:01分,到访用户20人截至当天00:05分,到访用户100人截至当天00:06分,到访用户105人……截至当天23:59分,到访用户10w人(也就是当天DAU)这个例子够鲜明了吧。应该可以理解了

2021-01-23 19:28:59 619

原创 【hive】经典笔试面试题(三)如何计算一个视频近30天的曝光量

1需求:工作中经常遇到需求不清晰,不仅仅我们做需求的开发同学搞不清楚想要什么,甚至连给我们提需求的产品经理也是一脸懵逼。对于做开发的同学来说,如果一个需求能描述清晰,逻辑严谨,那么这个需求相当于已经完成了一半了。老规矩,还是描述一下此次遇到的问题再谈如何解决。又一个直播间,...

2021-01-23 13:47:01 1350

原创 【hive】count distinct时遇到的坑

先说结论:使用count distinct计算两列联合去重时,若有任何一列为null 那么count计数时就会略过这一条。如:count(distinct a,b) 若a或者b中有一个是null,那么这一行就不会参与计数平台:hive、mysql都是如此1、给一张测试表如下:表名设为test,注意第三行的name是null,空值idtoolsname1hivea2hiveb3hiveNULL2、观察下方执行结果:select distinct

2020-08-06 12:08:30 2734

原创 【社招】快手_数据仓库_面试题整理

一、面试的是大数据开发岗(偏数据仓库),以下是面试题。技术面一共三面,我将问题hui1 讲一下你门公司的大数据项目架构2 你在工作中都负责哪一部分3 spark提交一个程序的整体执行流程。(包括向yarn申请资源,DAG切割,TaskScheduler,执行task等等过程,要说清楚)4 spark常用算子列几个,6到8个吧5 transformation跟action算子有啥区别6 map和flatmap的区别7 自定义usf,udtf,udaf讲一下这几个函数的区别,都要实现里面的什么方

2020-07-06 19:45:01 7318 17

原创 【hive】经典笔试面试题(二)连续登录天数最大

问题描述在数据仓库中存在这样一张表,记录了2019年用户在哪天登录了我司的网站或者app也行(总之就是登录啦)数据如下:表名:test2字段:id string,pday string需求:统计用户在本年中连续登录天数最大是几天?如:用户A在7月1、2、3、4日连续登录了4天;6、7、8日连续3天;11、12连续2天。用户A的当年最大连续登录天数是4天用户B在6月29日,6月30...

2019-12-13 19:48:57 1548 9

原创 【hive】经典笔试面试题(一)累加计算

问题描述在数据仓库中有这样一张表,记录了每个月的营业额,数据如下:test表:需要统计截止到每个月份的营业总额,如:截止到2019年1月份营业总额为10元截止到2019年2月份营业总额为10+10=20元截止到2019年3月份营业总额为10+10+10=30元以此类推…方案 一直接使用where条件过滤符合的数据,使用sum函数进行计算select sum(money) fr...

2019-12-11 20:34:04 1896

原创 【hive】如何过滤字符串null的同时保留NULL

在开发过程中,遇到一个实际的问题,如何过滤字符串null?为了说明问题,我先将问题简化。有一个表格,数据中的id这一列有这样几个值:a,b,c,null,NULL数据库中显示如下图:现在,我想过滤掉值为null的行,但是保留值为空的行。也就是结果中应该有四行,a,b,c,NULLsql语句如下:select id from table0 where id!=‘null’结果是这样...

2019-10-16 15:28:12 1618

转载 【Spark 】合并小文件的一种方法

小文件问题原因:spark.sql.shuffle.partitions=200  spark sql默认shuffle分区是200个,如果数据量比较小时,写hdfs时会产生200个小文件。可通过如下调整,使其自适应的合并小文件(本人测试环境从原来的200个小文件合并成一个文件)解决方法:spark-sql> set spark.sql.adaptive.enab...

2019-08-29 15:26:31 1608 7

原创 使用Sqoop将Hive导入Mysql中特殊字符问题

问题一 用户昵称包含特殊符号,引起sqoop程序失常:最近在使用sqoop将Hive中的数据导入Mysql的过程中报错了。报错信息如下:19/05/07 17:28:48 WARN mapreduce.Counters: Group FileSystemCounters is deprecated. Use org.apache.hadoop.mapreduce.FileSystemCount...

2019-05-08 18:05:15 3601 4

原创 hive中进行增量统计-full join的用法-如何合并表中两列

我将其他相关不必要的细节隐去,只保留最终的技术点,希望能对以后有需要的朋友提供些许帮助。最近在进行hive表的统计的时候有这样的一个需求,hivie中增量统计任务需求:有这样的两个表 table0,table01,table0为原始数据表:agenumtotalpday502010020190420602010020190420702...

2019-05-07 10:45:32 20477 7

原创 JAVA入门之变量与类型

本篇博客主要是包括如下几个部分。关键字标识符变量数据类型类型转换1、关键字1.1关键字的理解我理解的关键字,被JAVA语言赋予了特殊含义,用作专门用途的单词。换句话说, 我们在定义一个变量的时候是不允许使用这些关键字的,否则程序运行起来会出错。举个直观的例子,查看以下对话:坏人:“你叫啊,你叫破喉咙也没有人来救你的。”受害者:“破喉咙!破喉咙!”没有人:“何人在求救,我...

2019-04-04 19:40:08 243

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除