自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (6)
  • 收藏
  • 关注

原创 **hive 开窗函数**

1、 lead,lagag 和lead 可以 获取结果集中,按一定排序所排列的当前行的上下相邻若干offset 的某个行的某个列(不用结果集的自关联);lag ,lead 分别是向前,向后;lag 和lead 有三个参数,第一个参数是列名,第二个参数是偏移的offset,第三个参数是 超出记录窗口时的默认值。over()表示 lag()与lead()操作的数据都在over()的范围内,他里...

2020-03-24 17:37:52 121

原创 git 新手集

1)本地代码提交git status //查看修改文件git diff //查看所有修改文件详情git add . //将所有修改过的工作文件提交本地仓库git commit -m “注释” //提交更改并添加注释 注意:注释格式 “FQ-XX: COMMENT”git fetch --all 更新所有提交代碼git rebase origin/master 合并最新代码if(冲突)...

2019-09-19 11:44:14 134

原创 Kylin cube 调优

一. 构建cube 调优:降低纬度数,在真正构建cube时参与的纬度组合个数减少,以达到减少Cuboid的数量。5.1.1 可以通过在kylin bin目录下 运行命令:./kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReaderOrderCommodityClone2以检查当前cube中的segment大小,cuboid状态信息...

2019-08-27 15:11:59 323

原创 hive sql 实现 时间循环

需求描述:传入一个开始时间,start_dt,一个结束时间,start_end,使其能够将开始时间到结束时间之间所有的时间 都遍历出来。实现效果:hive sql 实现:–根据开始时间和结束时间生成时间段内所有时间select regexp_replace(date_add(dt,row_number() over(order by dt) - 1),’-’,’’) as dtfro...

2019-07-30 10:54:39 16924 1

原创 vim 删除^M

在vim 中不识别Windows 的换号符vim下在文件中显示^M:e ++ff=unix %在文件中删除^M:%s/^M$//g在linux下查找^Mfind ./ | xargs grep ‘^M’ -l -s在linux下删除^Mfind ./ | xargs grep ‘^M’ -l -s | xargs dos2unix...

2019-07-11 10:56:57 491

原创 spark 实现百分位数计算

spark实现百分位数计算工作需要 要计算百分位数 但是 spark core 不支持计算 百分位数一.可以使用 spark sql 计算 但是 他操作起来 很不方便select percentile_approx(tb_sku.sku_stddv,cast(array(0.2, 0.40, 0.60, 0.80) as array)) from tb_sku其中 percentile_a...

2019-05-18 17:53:07 5578

原创 habse1.3.1与 hive 1.2.2 整合报错问题解决

hbase 1.3.1 与hive1.2.2整合报错:原因:版本兼容问题,解决方案:替换 hive lib 下的hive-hbase-handlerhive-hbase-handler 下在地址:https://download.csdn.net/download/gao634209276/9530079请测可用。。。。...

2019-03-11 11:26:33 228

原创 mysql 触发器

需求:在插入数据时,记录数据插入的时间;命令:DELIMITER |CREATE TRIGGER etl_time BEFORE INSERT ON c21.RPT_REALTY_NUM FOR EACH ROWBEGINSET NEW.etl_time=NOW();END;|CREATE TRIGGER pseudohash_crc_upd BEFORE UPDATE ON ...

2018-12-27 19:07:00 83

原创 sql server CLR 类型报错 解决

问题描述:在搭建数仓的过程中,使用sqoop将sql server 的数据导入hive 报错:分布式查询中不允许对象显示具有 CLR 类型的列。请使用传递查询访问远程对象 ‘“FangDb”.“dbo”.“Community”’。原因:为了说明如何遇到这个错误,假设有一个[dbo]。在TestServer服务器的SQLServerHelper数据库中包含一个地理学列的[Location...

2018-12-27 10:41:11 1853

转载 azkaban源码编译

解决的问题:azkaban代码是从gitHub上拉下来的,在本地上起是可以正常的收发邮件的,但是放在阿里云的环境上却无法收发邮件,报错:connect time out通过看源码 发现原因是azkaban发送邮件默认使用的是STMP 25端口,但是在阿里云上25端口是被禁用的. 所以需要将25端口换到465端口 采用SSL协议传输邮件(25端口是非SSl协议传输).需要在以下文件加入代码:...

2018-11-21 09:58:58 1020

UsbDriverTool-2.0.exe

Android 连接电脑后 无usb驱动,可以自动检测 下载,一键式安装

2020-05-28

jdk-8u211-windows-x64.exe

apache-maven-3.5.3-bin.zip 最新版maven 解决老版本的一些问题

2019-05-18

apache-hadoop-3.1.0-winutils-master.zip

windows版的Hadoop3.1.0 包括winutils.exe解压即可使用

2019-05-18

jieba-master

结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation.

2019-01-15

azkaban-master3.5.zip

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

2018-11-21

gradle-4.6-all

gradle-4.6-all.zip Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建开源工具。它使用一种基于Groovy的特定领域语言(DSL)来声明项目设置,抛弃了基于XML的各种繁琐配置。

2018-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除