自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 idea创建maven工程后,无法新建scala或java类

idea创建maven工程后,无法新建scala或java类;mac windows系统均可适用

2022-08-08 00:07:16 1269 1

原创 mac m1 解决fatal: unable to access ‘https://github.com/Homebrew/homebrew-core/‘ ;同时指定intel架构的brew 版本

笔者在mac m1系统下通过brew下载hadoop和hive时,发现默认安装的brew是arm架构的;这会导致在用brew install hive安装hive时有异常;解决办法就是安装brew时,指定brew为x86的intel架构版本,并通过国内镜像源进行brew的下载;最后再利用该版本的brew进行hadoop和hive的安装,就可以解决问题......

2022-08-07 16:26:52 649

原创 推荐1个比较好用的在线数据建模网站

ERD-ONLINE

2022-03-01 15:51:07 1051 4

原创 Hive行转列、列转行的实现方式

1.行转列的实现方式原始数据:data title uv2019-01-01 docter 1002019-01-01 nurse 992019-01-02 nurse 1992019-01-02 docter 200期待结果:data docter nurse2019-01-01 100 992019-01-02 200 199实现方式(注意collect_set可以对数据去重、collect_list不去重):selectda...

2021-07-20 15:19:49 197

原创 Hive的存储和压缩问题

#hive中开启压缩模式set hive.exec.compress.output=true; set mapred.output.compress=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;优秀回答链接:关于存储格式:https://blog.csdn.net/wyz0516071128/article/details/80892487关于压缩格式:h..

2021-07-20 15:15:46 64

原创 Hive分桶抽样查询(tablesample)详解

名词解释:n:总桶数x:从第几个桶开始抽取y:必须是总桶数的因数或倍数(自定义)z:共需抽取出的桶数(z=n/y)抽样查询代码示例:hive (default)> select * from student tablesample(bucket x out of y on id);案例分析:总桶数为n=10个,人为设定抽样因子y=2,人为设定从第一个桶开始取则x=1;计算出z=n/y=10/2=5个,则可以确定本次抽样查询需要取出5个桶的数据;代码实现如下:hi

2021-07-20 15:14:03 2825

原创 2021-07-20

快速解决方法目前的hive客户端在执行desc tablexxx和show create table xxx命令的时候,字段的中文注释会出现乱码情况,如(????)。在使用 ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' 建表的时候,注释则会出现from deserializer。以下几个步骤可以帮你快速解决这些问题:问题表现:解决办法:1.首先在hive客户端的conf目录下找到hive-site.xml配置文件,查询本机hi

2021-07-20 15:11:38 128

原创 关于hive组合分隔符建表导致的问题

关于hive组合分隔符建表导致的问题反馈:1.hive配置调整后,重启,指定组合分隔符时,hive可正常建表,可正常操作数据(包括分组查询,数据复制)2.spark-shell或spark-submit涉及到用spark.sql获取hive数据时,仍会出现异常,经过验证,启动spark环境时,同时添加以下2个参数可解决:(1)--conf spark.sql.hive.metastore.barrierPrefixes=org.apache.hadoop.hive.contrib.serde2.

2021-07-20 15:08:21 218

原创 import spark.implicit._引入后立刻消失

目录项目场景:问题描述:原因分析:解决方案:问题描述,我的代码中项目场景:提示:这里简述项目相关背景:例如:项目场景:示例:通过蓝牙芯片(HC-05)与手机 APP 通信,每隔 5s 传输一批传感器数据(不是很大)问题描述:声明了spark的上下文环境,不同于网上描述的spark的对象未定义的错误// 创建spark的上下文环境val spark = SparkSession.builder() .appName("Implicit_Rela...

2021-07-20 14:30:33 498 1

原创 dataframe使用分组聚合重命名遇到的问题

问题描述:dataframe使用分组聚合的时候,无法对聚合列进行重命名解决方式:引入一个包:import org.apache.spark.sql.functions._正确示例:import org.apache.spark.sql.functions._ val result = multi_family_relation_1.toDF().groupBy("grantparent_uuid") .agg(count("grantson_uuid").as("kk")..

2020-11-22 13:43:44 722

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除