Felix不会飞-CSDN博客

原创 idea创建maven工程后，无法新建scala或java类

idea创建maven工程后，无法新建scala或java类;mac windows系统均可适用

2022-08-08 00:07:16 1269 1

原创 mac m1 解决fatal: unable to access ‘https://github.com/Homebrew/homebrew-core/‘ ；同时指定intel架构的brew 版本

笔者在mac m1系统下通过brew下载hadoop和hive时，发现默认安装的brew是arm架构的；这会导致在用brew install hive安装hive时有异常；解决办法就是安装brew时，指定brew为x86的intel架构版本,并通过国内镜像源进行brew的下载；最后再利用该版本的brew进行hadoop和hive的安装，就可以解决问题......

2022-08-07 16:26:52 649

1.行转列的实现方式原始数据：data title uv2019-01-01 docter 1002019-01-01 nurse 992019-01-02 nurse 1992019-01-02 docter 200期待结果：data docter nurse2019-01-01 100 992019-01-02 200 199实现方式（注意collect_set可以对数据去重、collect_list不去重）：selectda...

2021-07-20 15:19:49 197

原创 Hive的存储和压缩问题

#hive中开启压缩模式set hive.exec.compress.output=true; set mapred.output.compress=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;优秀回答链接：关于存储格式：https://blog.csdn.net/wyz0516071128/article/details/80892487关于压缩格式：h..

2021-07-20 15:15:46 64

原创 Hive分桶抽样查询(tablesample)详解

名词解释：n：总桶数x：从第几个桶开始抽取y：必须是总桶数的因数或倍数（自定义）z：共需抽取出的桶数（z=n/y）抽样查询代码示例：hive (default)> select * from student tablesample(bucket x out of y on id);案例分析：总桶数为n=10个，人为设定抽样因子y=2，人为设定从第一个桶开始取则x=1；计算出z=n/y=10/2=5个，则可以确定本次抽样查询需要取出5个桶的数据；代码实现如下：hi

2021-07-20 15:14:03 2825

原创 2021-07-20

快速解决方法目前的hive客户端在执行desc tablexxx和show create table xxx命令的时候，字段的中文注释会出现乱码情况，如(????)。在使用　ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'　建表的时候，注释则会出现from deserializer。以下几个步骤可以帮你快速解决这些问题：问题表现：解决办法：１．首先在hive客户端的conf目录下找到hive-site.xml配置文件，查询本机hi

2021-07-20 15:11:38 128

原创关于hive组合分隔符建表导致的问题

关于hive组合分隔符建表导致的问题反馈：1.hive配置调整后，重启，指定组合分隔符时，hive可正常建表，可正常操作数据（包括分组查询，数据复制）2.spark-shell或spark-submit涉及到用spark.sql获取hive数据时，仍会出现异常,经过验证，启动spark环境时，同时添加以下2个参数可解决：（1）--conf spark.sql.hive.metastore.barrierPrefixes=org.apache.hadoop.hive.contrib.serde2.

2021-07-20 15:08:21 218

原创 import spark.implicit._引入后立刻消失

目录项目场景：问题描述：原因分析：解决方案：问题描述，我的代码中项目场景：提示：这里简述项目相关背景：例如：项目场景：示例:通过蓝牙芯片(HC-05)与手机 APP 通信，每隔 5s 传输一批传感器数据(不是很大)问题描述：声明了spark的上下文环境，不同于网上描述的spark的对象未定义的错误// 创建spark的上下文环境val spark = SparkSession.builder() .appName("Implicit_Rela...

2021-07-20 14:30:33 498 1

原创 dataframe使用分组聚合重命名遇到的问题

问题描述：dataframe使用分组聚合的时候，无法对聚合列进行重命名解决方式：引入一个包：import org.apache.spark.sql.functions._正确示例：import org.apache.spark.sql.functions._ val result = multi_family_relation_1.toDF().groupBy("grantparent_uuid") .agg(count("grantson_uuid").as("kk")..

2020-11-22 13:43:44 722

weixin_44843098的博客