自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (4)
  • 收藏
  • 关注

原创 sql面试题之”找出使用相同ip的用户“

现有一张表,里面有三个字段为user_id、ip、log_time,现有需求要找出用户共同使用ip数量大于等于3个的用户对找出来。

2023-12-04 23:00:19 839

原创 我的创作纪念日

提示:你过去写得最好的一段代码是什么?提示:当前创作和你的工作、学习是什么样的关系。提示:在创作的过程中都有哪些收获。提示:职业规划、创作规划等​​。

2023-12-03 21:57:29 411

原创 sql面试题之“互相关注的人”(方法三)

题目:某社交平台有关注这个功能,关注的同时也会被关注。现有需求需要找出平台上哪些用户之间互相关注。

2023-12-03 21:36:20 1112

原创 sql面试题之“互相关注的人”(方法二)

题目:某社交平台有关注这个功能,关注的同时也会被关注。现有需求需要找出平台上哪些用户之间互相关注。

2023-12-03 21:02:21 616

原创 sql面试题之“互相关注的人”(方法一)

题目:某社交平台有关注这个功能,关注的同时也会被关注。现有需求需要找出平台上哪些用户之间互相关注。

2023-12-03 20:28:37 643

原创 HIVE 中INSERT INTO 和 INSERT OVERWRITE 的区别,以及OVERWRITE哪些隐藏的坑

HIVE 中INSERT INTO 和 INSERT OVERWRITE 的区别,以及 overwrite 在分区表和非分区表中使用时的注意事项。

2023-12-03 01:38:42 1436

原创 sql面试题之连续登陆问题以及连续登陆问题的扩展!!!

某游戏公司有两张用户登陆表分别为user_login01 和 user_login02,现有需求想要求出每个用户的最大连续登陆天数。用户表中有用户id

2023-11-29 00:07:44 1128

原创 sql面试题之累计消耗问题

题目的意思很简单,也就是说有个奖池里面有3000块钱,每个用户的都有对应的积分,积分最高的可以领导3000块钱的一半,积分第二高的会领到1500块的一半,积分第三高的可以领到750块,以此类推知道奖池里的金额不足500元,那么对不起剩下的用户将无法获得奖池的钱。瓜分奖金的规则如下:按照score从高到低依次瓜分,每个人都能分走当前奖金池里面剩余奖金的一半,我们可以发现 奖池里奖金的消耗是对半消耗的于是,如果n表示奖池奖金的话,就相当于 N/2,第二名去花时为 N/2/2 = N/2。

2023-11-27 22:59:28 356

原创 用hive求近30天的指标

首先累计消费会想到开窗函数 sum() over() ,这道题比较棘手的是 日期并不一定是连续日期而是近30天,也就是说可能会不连续,我们可以通过当前日期减去最小日期来看是否在30天内。现有张表分别有字段 用户名 user_id、price 金额、dt 日期。需求:用sql展现出用户首次在近30内累计消费达到10000的日期。满足条件的只有 用户c和用户 d.

2023-11-26 17:41:28 645

原创 用hive提取多列对应后的结果

id字段经过切割和炸裂后会分别和tim列中的 2:00,3:00,4:00,5:00 分别进行关联。也就是说第一条数据 经过 posexplode 处理后会变成 16条数据 4。这种某一列是单个情景(这种场景同样可以通过以下方法来实现)。当同时对两列进行拉取时数据会发生笛卡尔积,一共有32条数据。4 条数据 最终通过where来筛选想要的那部分即可。我们只需要通过where筛选出我们想要的数据即可。当出现多列时如:将以下数据实现转换后效果。张三 星河镇,苗头寨,古巴村。第二条数据同理 也会有 4。

2023-11-21 23:17:41 30

原创 编写sql查询以查找至少连续出现三次的所有数字

sql逻辑题

2023-08-21 23:55:55 605

原创 sql题 用sql实现从A到B,从A到C

【代码】sql题 用sql实现从A到B,从A到C。

2023-08-17 23:43:29 98

原创 mysql常用函数

例如:group_concat(name SEPARATOR ‘|’) 机也可以实现各个名字之间通过“|”来对名字进行拼接。GROUP_CONCAT默认的拼接符号为逗号,如果想指定分割符可以通过后面加 SEPARATOR “指定符号即可”1.GROUP_CONCAT() 拼接函数,相当于hive中的concat_ws().

2023-08-17 21:09:55 39

原创 sql题:求2017每个月的订单数、用户数、总成交金额

给出 2017年每个月的订单数、用户数、总成交金额,给出2017年11月的新客数(指在11月才有第一笔订单)

2023-08-17 00:07:36 257 1

原创 列转行explode和split

现在要把 1234 办成 “原因1 原因2 原因3 原因4”–这个1234分别代表原因1 原因2 原因3 原因4。根据聚合在一起的编码转换成聚合在一起的码值。–一个字段是 “1,2,3,4”

2023-03-21 10:00:55 76

原创 累计去重问题

假设表A为事件流水表,客户当天有一条记录则视为当天活跃。

2023-03-20 17:35:12 119

原创 用sql实现行专列

【代码】用sql实现行专列。

2023-03-20 17:10:21 71

原创 Guass常用命令

1.查看表结构语法Select * from pg_get_tabledef(“表名字”);2.模糊查询某张表(根据关键字找表名字)Select * from pg_tables where tablename like ‘%表名字%’;3.备份表1.第一种方法 renameAlter table 表名字 rename to 新的表名字2.用create创建(这种方法创建的新表结构和旧表结构会存在差异)create table 表名字 as (select * from 旧表名字);3.复

2022-12-07 13:52:22 1726

原创 sql逻辑题08

实现每班前三名,分数一样并列, 同时求出前三名按名次排序的分差

2022-11-15 00:06:45 431

原创 sql逻辑题07

要取出按照时间轴顺序,发生了状态变化的数据行

2022-11-14 23:45:21 731

原创 sql逻辑题06

【代码】sql逻辑题06。

2022-11-13 14:22:03 85

原创 sql逻辑题05

从数据中我们可以看的出来user_id为’zhangsan‘的客户最大连续登陆天数为5,’lisi‘最大登陆天数为4,'wangwu'最大登陆天数为3.

2022-11-13 14:02:07 99

原创 sq面试题04

分别站在订单数、用户数、金额三个维度对数据经行聚合(通过时间),但是要注意对用户进行聚合时要对重复的用户进行去重。用开窗也要嵌套一层子查询,通过过滤子查询中的rn=1,来获取每个客户201711的第一个订单。02.第二个问题--给出2017年11月的新客数(指在11月才有第一笔订单)两点需要注意的,一是2017年11月出现的新客,第二点是第一笔订单。年每个月的订单数、用户数、总成交金额。年每个月的订单数、用户数、总成交金额。方法一通过子查询来实现。方法二:通过开窗函数来实现。

2022-11-13 12:38:13 256

原创 sql面试题03

个京东店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,访问日志存储的表名为。,被访问的店铺名称为。

2022-11-10 23:50:32 197

原创 sql 面试题02

累计求和

2022-11-10 23:15:33 48

原创 sql笔试题01

表,编写一个 SQL 查询,来查找与之前(昨天的)日期相比温度更高的所有日期的 Id。例如,根据上述给定的。

2022-11-08 22:45:44 108

转载 2021-09-13

系列文章目录hive有很多join,这些join之间是有差别的,总结这些join可以让我们在不同场景下更充分更灵活的去使用,从而使我们的工作更加效率。文章目录系列文章目录前言hive中有哪些join?一、使用步骤1.left join2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考hive中有哪些join?以

2021-09-15 16:21:14 165

原创 2021-07-07

Hive中insert into 和insert overwrite的区别:insert into的语法:insert into table ‘table_name’ select id,name,age from other_table// insert into 往表里面插入数据的时候,table可以省略insert into table 'table_name' select id,name,age from other_tableinsert overwrite的语法:// A co

2021-07-07 22:19:22 173

原创 2021-06-20

用Hive实现累计求和,求前三个月的累计销售额一般涉及累计销售的可以通过窗口函数来实现,当然也可以用最基本的自关联实现。相比较自关联的话,窗口函数理解起来会更直观简单,下面介绍一下用窗口函数来实现累计求值。代码片.语法:sum() over(rows between ... and ...) 其实窗口函数顾名思义就是你定义一个类似于窗口一样的边界,定义一个上边界和下边界即可。也就是说over函数中你要配合rows between … and… 来定义一个边界,between 后面接上边界,an

2021-06-20 22:08:35 215

原创 2021-01-05

hive中行转列,列转行说实话,这个问题困扰了我许久,因为目前目前来说用的不是很多,但是个人觉得还是非常有必要了解一下的,今天就将它一点点剖析明白。行专列,什么是行专列?行专列举个简单的例子,一个人身上有多个标签,假如说乔丹,曾经效力于’公牛,奇才’,然后身上的标签有’篮球之神,黑人’,这两种标签,本来是一对多关系,如果你想让他变成一对一关系,就可以用行专列假如本来是:name team tab科比 湖人,黄蜂 帅哥,光头,实力派乔丹 公牛,奇才 篮球之神,黑人詹姆

2021-01-05 23:20:25 142

转载 2020-11-29

hive中比较重要的三个函数1.unix_timestamp() 时间戳函数时间戳函数,时间戳的意思就是一个时间到另外一个时间之间的时间间隔。比如2020-01-01到2020-01-02有一个天的时间,那么时间戳就是一天,通常时间戳一般换算成秒。Unix_timestamp()这个函数会将传过来的时间减去1970-01-01 00:00:00这个时间然后换算成秒,如果是中国地区的话会减去1970-01-01 00:00:00。Unix_timestamp有两种,第一种是传一个参数此时日期只能按标准的

2020-11-29 22:36:26 1040

转载 2020-11-29

hive中row_number函数的使用1.hive中的row_number函数一般用来分组后排序。假如本来的数据是这样的id dept salary1 a 80002 a 150003 a 100004 b 70005 b 9000假如你想让a和别分别分组排序,也就是你想知道a和b两个部门每个月谁赚的最多那么你就可以使用row_number排名函数select *, row_number() over(partition by dept order by salary)as pm

2020-11-29 22:31:19 106

转载 MYSQL中的REPLACE函数,以及Hive中的regexp_replace的用法

MYSQL中的REPLACE函数,以及Hive中的regexp_replace的用法前言一、repacle是什么?二、使用步骤1.实践是检验真理的唯一标准2.Hive中的替换函数regexp_replace总结MYSQL中的REPLACE函数,以及Hive中的regexp_replace的用法文章目录前言一、repacle是什么?二、使用步骤1.实践是检验真理的唯一标准2.Hive中的替换函数regexp_replace总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的.

2020-11-29 20:59:24 2539

星环大数据初级考试认证(TCAE)+题库+认证流程

星环大数据作为新一代的国产化大数据,随着整个体系的逐步完善,已逐步获得了市场认可,在未来很有可能替代Hadoop。星环大数据考试认证分为三个等级分别是TCAE(入门级别)、TCPL(高级)、TCET(专家级别)。本人亲身经历过星环大数据的初级考试并成功获得证书。初级考试并不算难,本人总结了一些学习资料主要包含:星环大数据学习网站、以及对应视频、(重点)并下载了一些题库!!!,一周之内好好准备,完全可以应对初级认证。

2023-11-30

hive-jdbc-uber-2.6.3.0-235.zip

使用第三方工具Dbeaver工具连接hive时需要导入驱动包,dbeaver连接hive时有时可以直接在网上下载,有的时候下载不了,这里提供一个可用的驱动包。

2021-03-25

spark-2.4.7-bin-hadoop2.7.tgz

spark2.4.7版本兼容hadoop2.7版本,官网上下载的话会很慢。

2021-03-19

OBCA学习材料及考试手册.zip

阿里的最新研发产品OceanBase作为一款先进的分布式数据库,被广大企业所青睐。OBCA初级认证不算太难,但是要想在短时间内一次性过需要搜集一些题库和资料,本人总结的资料包括:OBCA官方资料文档(pdf版)、一些网站上的模拟题、以及朋友们考试过后的试卷、和自己总结的要点总结(重点)。耐下心来准备2到4天,应付OBCA不成问题。

2021-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除