七月流火_2567-CSDN博客

原创 MAVEN手动导包，解决依赖报错

1.定位问题定位缺失的jar包2.找到对应的jar包到网上找到对应的jar包，down下来可以参考一下几个网址https://mvnrepository.com/https://public.nexus.pentaho.org/3.导入jar包下载之后，cmd(win+R 输入cmd)格式进入该jar包目录下运行mvn install:install-file -Dfile=jar包的路径 -DgroupId=gruopId中的内容 -DartifactId=actifactId的内容

2021-08-30 09:54:12 667

原创 hive小文件过多问题解决

起因数据中台当前有一张流水类表，存在3200个分区，230w个数据文件，150亿条数据，导致该表查询起来及其麻烦，更令人糟心的是，业务人员不懂查询方式，经常有人使用select *的方式查询该表，导致hiveserver2经常炸掉，极大影响集群的使用，因此，我们决定处理掉这个问题。我们来看下是什么原因导致这个问题首先，文件数量和大小会影响Mapper任务的数量，所以小文件越多，mapper任务越多，每个mapper任务会启动一个JVM，所以这些任务初始化和运行会消耗大量资源。而且在NameNode中每

2021-01-18 21:06:40 1542 4

zhy_2117的博客

原创 MAVEN手动导包，解决依赖报错

原创 hive小文件过多问题解决

原创 hive整库迁移shell代码

原创 Hive 查询结果和insert结果不一致问题排查

原创 DataWorks之专有网络中的MongoDB数据源打通

原创对谓词下推的一点看法

原创安装redis出错 /bin/sh: cc: command not found

原创 mysql一些优化方案

原创使用非等值自连接实现类窗口排序函数

原创 reduce 如何知道要从哪台机器取得map输出？

原创详解MapReduce：shuffle过程

原创 yum安装mongodb报错

原创 KILL掉当前Hive任务

原创解决错误：Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

原创 HiveQL优化

原创简单总结了一下py基础函数部分

原创解决问题：java.lang.NumberFormatException:For input string: "null"

原创 ES学习：ElasticSearch 6.2安装教程

原创从浅入深带你了解MapReduce编程模型（MapReduce基础解析）

原创简单教你写xsync和xcall的脚本

原创 Linux配置免密登录的一些事

原创关于Dstream的转化操作的详细解释

原创向HBASE传输数据时出现：java.io.IOException: 远程主机强迫关闭了一个现有的连接错误

原创区分Scala中的class，Object，Trait

原创 Scala的主构造器与从构造器

原创 Scala的Reduce方法

原创 Scala小记(一)

转载 Zmodem协议

原创 Linux小记之ssh和scp

原创 Spark SQL and DataFrame小记

原创 Kafka小记(二)

Spark01 基础解析

GeoHash核心原理解析

空空如也