青山流水在深谷-CSDN博客

报错信息报错信息2022-04-24 17:17:29.695 INFO 14125 --- [nio-8080-exec-2] o.s.web.servlet.DispatcherServlet : FrameworkServlet 'dispatcherServlet': initialization completed in 120 ms2022-04-24 17:17:30.395 ERROR 14125 --- [nio-8080-exec-2] o.a.c.c.C.[.

2022-04-24 17:20:48 382

原创断电后CDH集群艰难重启之路

1.问题描述运维在凌晨断电重启服务器后，因未忘记将测试环境集群CDH关闭，导致CDH的 server/agent集群，Zookeeper集群，hdfs集群，yarn无法重启，监控指标全部消失，症状如下cdh各个节点无状态agent启动失败zookeeper启动顺序CDH server agentzookeeper集群hdfs集群yarn集群启动CDH集群启动server后发现没问题，但是启动server所在的agent时，老是出错，启动后很快退出，查看日志

2022-04-12 16:06:06 3849

原创 spark-2.4.2-bin-2.6.0-cdh5.13.0 源码编译

这里写自定义目录标题下载设置CDH附加仓库地址和镜像加速编译环境准备[非必要] 根据需求修改scala版本源码编译问题解决scala版本错配参考文档下载spark https://archive.apache.org/dist/spark/spark-2.4.2/maven http://maven.apache.org/download.cgihadoop hadoop-2.6.0-cdh5.13.0设置CDH附加仓库地址和镜像加速.m2/setting.xml新增仓库地址

2022-04-01 15:12:49 161

原创 Spark/Spark-JobServer 执行SQL时任务超时

1 问题，SQL执行时超时2022/03/18 17:36:47 HttpRequest GET http://10.1.170.115:8080/v1/statement/20220318_093646_03065_awf2q/2map[errorClass:java.util.concurrent.TimeoutException message:Futures timed out after [600 seconds] stack:java.util.concurrent.TimeoutExcep

2022-03-18 17:54:30 2440

原创 MySQL文本类型Text过小引起的错误

问题描述业务流程前端执行Spark-SQL后，会根据后台Spark- SQL的执行状况，计算出SQL的执行进度，并且将执行进度【百分比】存储到redis,对应的是前端SQL唯一标识，当Spark-SQL执行完毕时，会讲执行进度置为100%，并存储到mysql中，执行完毕分为正常执行完毕，会将返回存储对应的文本字段；执行失败后，会讲失败信息存入同样文本字段。然后删除redis对应的前端SQL唯一标识。问题但是某次Spark-SQL执行完毕后，一直进度为0，并无法继续执行定位查看后台日

2022-02-17 16:10:53 1068

原创 python调用spark服务无法执行SQL文件

这里写自定义目录标题问题描述问题定位1 java服务调用2.python脚本调用问题总结python脚本执行使用模块问题描述问题来源在ETL任务中，需要使用java服务调用python脚本完成mysql数据同步，然后使用spark-sql 执行SQL脚本进行数据加载；另外还有跨天同步时，需要进行数据跨天合并，因此会在python脚本中，再次调用跨天python脚本，使用Spark-SQL完成多天数据加载。但在Spark-SQL执行SQL文件时，发现无法执行相应的SQL文件，并无报错，Spark-

2022-02-17 11:41:11 1507

原创 linux 查看某个目录的磁盘空间占用

这里写自定义目录标题查看空间使用查看各个目录使用情况查看当前目录磁盘空间使用情况往下二级级目录使用情况对当前目录的子目录使用空间进行排序按照byte进行排序，其他单位排序不正确截取排序后的前10截取排序后的后10查看空间使用查看各个目录使用情况df -h查看当前目录磁盘空间使用情况包含各个目录，及总使用量 du -h .往下二级级目录使用情况即当前目录的二级子目录使用情况对当前目录的子目录使用空间进行排序按照byte进行排序，其他单位排序不正确du -s * | so

2022-01-25 11:45:20 33392

原创 Spark-SQL 多维度聚合优化

1.问题描述问题描述上线一个SQL任务，发现其本身输入表都不打，基本都在百万级别以内，但是能够耗时几个小时，故进行优化2.优化思路2.1 并行度根据运行指标发现，各个stage运行时间，应该是某个stage下的task发生倾斜进一步跟踪stage,发现 task读写数据不是很大，只有几百KB，只要shuffle时才比较大，因此判断并行度无益于作业优化stage 3622.2 shuffle ，聚合shuflle分析各个job的数据，发现也不是很大，无需改变shuffle时

2022-01-18 15:06:02 1922 1

原创 linux查看进程在网卡使用率

前言为了定位服务所在服务网络数据传输量，需要查看服务【进程】在网卡的传输数据情况流程查看服务进程PIDps -ef / ps aux 的到PID 8630 ps aux | grep Test | grep -v grep root 8630 0.3 0.3 53399460 910268 ? Sl 06:01 0:55 java -cp .:/data/program/JobDispatchMaven/resources/bin/../:/data/progra

2022-01-18 11:11:40 3501

原创 JAVA API操作hive

package com.wacai.stanlee.util;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;/** * @author yishou * @date 2021/5/17 * @description 测试类 */public class H

2022-01-14 15:19:20 428

原创 shell执行 Hive SQL时报语法错误

一、在进行数据修复的时候，使用脚本查询缺少数据的数据表，使用shell进行批量查询，发现报语法错误，但是hive -e "select * from test"时，正常执行Logging initialized using configuration in jar:file:/opt/apache-hive-2.1.1-bin/lib/hive-common-2.1.1.jar!/hive-log4j.propertiesNoViableAltException(-1@[]) ...

2021-12-31 17:01:34 664

原创 php线上代码调试

一前言对于现实PHP代码，无法进行debug,只能在线上进行代码调试；但是没有java相关的arthas灯工具，只能使用PHP自带工具二方法 1.单行注释对于有些无法发现的错误【如http请求错误/超时】，可进行注释，一行行验证代码正确性 2.var_dump() 使用该方法打印所有的变量类型例子 $array = array("a"->3,"b"->...

2021-12-02 19:56:12 1048

原创 hive/mr 任务提交失败

这里写自定义目录标题问题描述问题原因、解决方案权限问题依赖问题资源问题问题描述提交hive或MR任务到yarn集群是，提示AM attempt fail,container exit -1Stack trace: ExitCodeException exitCode=1: at org.apache.hadoop.util.Shell.runCommand(Shell.java:538) at org.apache.hadoop.util.Shell.run(She

2021-11-05 11:40:32 785

原创 Hive 配置 UDF方式

这里写自定义目录标题hive udf编写hive部署注册函数删除注册测试错误总结hive udf编写通过继承hive UDF,UDAF,UDTF类进行覆盖方法，然后实现业务逻辑，进行打包【jar包】，部署hive部署临时部署登陆hive cli，然后添加jarhive (default)> add jar testUDF-0.0.1-SNAPSHOT.jar;永久部署复制到hive默认附加目录 cd $HIVE_HOME mkdir auxlib cp test

2021-10-26 15:28:06 1110

原创 Hive部署UDF方式

一、临时部署方式适用于临时验证udf功能，或自己临时使用ud【只当前session生效】部署方式：方式一1.编写好udf并打包代码为jar包，将其放入hive的classpath【lib】目录下 2.add jar udf对应jar包的目录 3.create temporaryfunction "udf函数名称" as "udf类名"; 方式二...

2021-10-12 14:43:50 643

原创 graphite_export+prometheus+grafana配置spark监控模版

{ "annotations": { "list": [ { "builtIn": 1, "datasource": "-- Grafana --", "enable": true, "hide": true, "iconColor": "rgba(0, 211, 255, 1)", "name": "Annotations & Alerts", "typ.

2021-08-27 18:07:11 858

原创 java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.metadata.HiveException

这里写自定义目录标题错误检查本次原因解决错误spark 读取hive时，出现如下错误java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.metadata.HiveException检查依赖检查<properties> <scala.version>2.11.8</scala.version> <spotless.version>1.31.3</spot

2021-06-15 15:43:40 3768

原创 spark 提交job运行流程

前言spark在提交任务到集群后，会有一系列的处理，从根据任务代码构建DAG，再到根据shuffle算子切分stage,然后生成taskset提交到集群管理进行调度等等，都需要一个比较清晰的流程梳理，便于问题定位，也利于性能优化流程通过测试和观察spark ui，spark会将依赖jar提前上传至hdfs目录，用于后续executor的分发和使用流程机构图【基于 yarn-cluster模式)流程解析准备1.spark client通过spark-submit或API，进行任务

2021-05-31 18:48:24 305

原创 hdfs 审计日志解析

前言近期，数据仓库因为积压数据较大，故对数据访问进行统计，进而计算数据生命周期，决定是否删除，但是对于不同用户的访问，无法做到统计所有访问入口，故从最底层的hdfs审计日志进行解析，对hdfs namenode的审计日志解析，获取当前数据的访问时间，访问目录，访问用户等信息，进行整理数据访问生命周期审计日志类型审计日志大致分两类，read/write，通过分析源码找到其包含类型OperationCategory.READoperationName = "listOpenFiles";ope

2021-05-30 21:59:16 1445

原创 hive元数据分析

前言在对hive SQL进行解析，以及跟踪hive 于yarn application的关系时，还有对hive数据仓库进行数据治理时，需要对hive元数据有个较为清楚的认识，进而更好的在解析SQL时，对数据访问进行权限控制；在资源管理时，进行资源归属；在数据生命周期管理时对其进行有效管理hive元数据库、表hive元数据是有mysql存储的，如果默认安装则是hive数据库，里面有一系列跟数据表、分区，数据倾斜，数据存储、压缩等相关的数据表version存储hive版本信息datab

2021-05-30 21:42:59 399 2

原创 Hive统计函数总结

行列转换行转列顾名思义，将每行的某个列值，转换为一行的列值可以对其进行去重统计，不去重统计原始数据去重统计concat_ws(’,’,collect_set(col_name))SQLselect id ,concat_ws(',',collect_set(value)) as rows2col from rows2cols group by id;结果不去重行转列concat_ws(’,’,collect_list(col_name))SQLselect id

2021-05-28 15:44:00 1784

原创 HDFS垃圾回收-数据恢复

垃圾回收策略同linux系统，hdfs会为每个用户创建一个回收站目录， /user/用户名/.Trash,每个被用户用hdfs dfs -rm [-r] 删除的文件、目录，都会放到 /user/用户名/.Trash 目录中用户若删除了某个文件、目录，可以在用户垃圾回收站恢复该文件、目录/user/用户/.Trash/Current目录仅仅保存被删除文件的最近一次拷贝测试1.上传hdfs dfs -put yunsong_applist.sh /tmp/demo2.删除文件，文件移动到当前

2021-05-28 10:35:57 1005

原创 svn操作

检出操作checkoutsvn checkout svn:// svn远程地址 —username=username提交文件svn add 要提交的文件或目录 svn status ：查看状态，若add文件/目录前面有？，则add成功svn commit -m “添加提交的注释”解决冲突提交冲突svn diff 查看冲突差异，进行修改解决冲突后提交 svn commit -m “注释”合并冲突撤销合并(撤销当前目录“.”的合并操作) svn revert

2021-05-27 19:31:40 87

原创 DataX 同步mysql数据到hive

安装配置datax略配置mysql数据源和目标端 hivevim conf/table2hdfs.json{ "job": { "setting": { "speed": { "channel":1 } }, "content": [ { "reader": { "name": "mysqlreader", "parameter": {

2021-05-27 18:38:28 1270

原创 Maven打包避免测试

避免mvn打包时，编译测试用例类和执行测试用例-DskipTest，不执行测试用例，但变异测试用例类，生成相应的class文件至target/test-classes下-Dmaven.test.skip=true,既不执行测试用例，又不编译测试用例类执行例子mvn package -Dmaven.test.skip=true 也可以在pom.xml中修改既不执行测试用例，也不编译测试用例类，推荐mvn package -Dmaven.test.skip=true<plugin

2021-05-27 18:14:04 1210

原创 spark on yarn资源配置

集群spark on yarn , spark允许yarn集群之上，资源【cpu,内存】划分从yarn集群进行分配spark相关资源设置 # 开启动态资源分配 spark.dynamicAllocation.enabled = true spark.shuffle.service.enabled = true # 动态资源分配时，每个driver分配最小executor spark.dynamicAllocation.minExecuto

2021-05-27 17:59:07 280

原创自定义 Hive Hook

前言在关联hive SQL时，yarn application有多个与其对应，所以需要划分二者对应关系。通过开启hive seesion,解析hive session日志，来解析 hive sql 于hive job[即yarn application]的对应关系hive hookhook类型PreExecute and PostExecute: 扩展Hook接口，用于 hive SQL执行之前，执行之后的操作处理ExecuteWithHookContext ：扩展Hook接口，通过HookC

2021-05-27 17:43:45 1035

原创不同Hive版本配置认证授权

前言对于不同hive版本，相关的配置不同，如hive jdbc，0.11之前的Driver是 “"org.apache.hadoop.hive.jdbc.HiveDriver”，0.11之后是 “org.apache.hive.jdbc.HiveDriver”，诸如此类，同样，认证授权也不同配置hive 0.11.0空，已隐式地包含这个列表hive 0.13.0hive.security.authorization.managerhive.security.authenticator.m

2021-05-27 17:13:46 582

elasticsearch-5.6.11.tar.gz

Elasticsearch：,用于全文检索，站内搜索，价格监控，数据监控等，支持近实时响应

2019-08-02

Flume 根据字段进行路由插入 ES

基于Flume-1.8.0，ES-5.6.11 ，根据某个字段创建 type ,进行路由批量插入 ES，使用redis 缓存已从MySQL 查出的转换数据

2019-04-26

MongoDB实战

MongoDB实战,实际案例介绍mongodb 应用场景,API使用,副本集,分片分布式环境搭建

2017-10-17

MongoDB权威指南

MongoDB权威指南介绍其体系结构,常见用法,如何创建副本集,分片,进行API开发

2017-10-17

高可用mysql

介绍mysql高可用架构原理,搭建,优化,问题诊断,真正理解mysql高可用架构

2017-10-17

mysql innodb存储引擎

介绍innodb 存储引擎工作原理,存储结构,内部优化器规则

2017-10-17

JXL-API文档

JXL操作EXCEL文件，对其进行读入，写出操作

2016-12-27

spring-mybatisjar包

2016-12-07

Maven私服Nexus

Maven私服-nexus

2016-12-07

验证码工程源码

在一个系统或项目中，登录时，验证码是不必可少，一来可以为安全登录多了一层保障，二则防止网络的攻击。验证码的生成有多种，有JS实现，也有框架自带，也有用开发语言实现，例如Java。以下介绍下java实现验证码的原理及过程。

2016-11-02

EditPlus绿色汉化版（无须破解）

EditPlus绿色汉化版（无须破解，无付费提示）

2014-03-07

JDBC连接Oralce数据库驱动

JDBC方式连接Oracle数据库的驱动，其中OJDBC5，OJDBC6时两个版本，classes12为单独版本，JDBC连接时需要把任意一个OJDBC版本和classes12一起加到Eclipse或MyEclipse中，否则无法运行。加入后选中工程，右键——〉Add build path正式加载到工程中。

2014-03-07

sql server 2005 驱动

sql server 2005 驱动，用于java代码与数据库的连接

2013-09-12

java思想篇

关于java的核心基础知识，给以细致独到的讲解，笔者为资深行业专家。

2013-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

elasticsearch-5.6.11.tar.gz

Flume 根据字段进行路由插入 ES

MongoDB实战

MongoDB权威指南

高可用mysql

mysql innodb存储引擎

推荐系统手册(英文版)

JXL-API文档

spring-mybatisjar包

Maven私服Nexus

验证码工程源码

EditPlus绿色汉化版（无须破解）

JDBC连接Oralce数据库驱动

sql server 2005 驱动

java思想篇

空空如也