自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shengpli′s blog

专注JAVA和大数据

  • 博客(139)
  • 资源 (1)
  • 收藏
  • 关注

原创 HIVE SQL时间函数使用

SELECT CURRENT_DATE;— 2019-06-25 SELECT CURRENT_TIMESTAMP;– 2019-06-25 15:33:25SELECT unix_timestamp()–1561447860SELECT from_unixtime(unix_timestamp(),'yyyy-MM-dd')– 2019-06-25SELECT from_...

2021-03-18 16:53:37 2950

原创 CDH问题:该主机已与 Cloudera Manager Server 建立联系。 该主机未与 Host Monitor 建立联系。

CDH该主机已与 Cloudera Manager Server 建立联系。 该主机未与 Host Monitor 建立联系。

2022-10-13 14:15:33 1405 1

原创 java语言使用Runtime调用py文件出现 Cannot run program “python“系统找不到指定文件

使用Runtime.getRuntime()执行python脚本文件,出现Cannot run program错误,如下使用Runtime.getRuntime().exec有两种情况:方法一:如果系统找不到python命令或者找不到文件会报此错误;方法二(方便传含空格参数):需要在demo2.py中定义文件执行程序,如果不定义则程序找不到执行命令,也报错Cannot run program "python“系统找不到指定文件demo1.pyarg = sys.argv[1:]a = arg[0]

2021-12-19 16:02:43 2431

原创 oracle校验统一社会信用代码函数

create or replace FUNCTION CREDIT_CODES_CHECK(organizationCode VARCHAR2) /* organizationCode:要验证的统一社会信用代码 */ RETURN VARCHAR2 IS codeSum NUMBER(10) := 0; code VARCHAR(100); n_Length NUMBER(2); code_jy varchar(1); code_end varcha

2021-12-13 15:19:47 597 1

原创 oracle校验身份证号码函数

create or replace function ID_CARD_CHECK(prm_aac002 varchar2) return varchar2 is ll_i number(4) := 18; ll_row number(5) := 0; var_aac002 varchar2(18); ll_sfz18 number(3); ll_sfz varchar2(3); var_sfz18 varchar(18); var_date

2021-12-13 15:19:06 1044

原创 hue oozie执行impala sql

在hue使用oozie即workflow执行impala sql,需要使用shell调用impala-shell一、如果开启了LDAP,impala-shell需要输入密码,则shell需要调用expect传输密码shell脚本execute_impala_sql_file.sh如下:#!/bin/bashexport PYTHON_EGG_CACHE=/home/hive/.python-eggsexpect execute_impala_sql_file.exp $1execute_im

2021-12-09 19:52:25 1684

原创 撤销commit操作

当git不允许提交大文件报错时,remote: error: File Examples/iOSDemo/Pods/dependency/libg2o.a is 440.12 MB; this exceeds GitHub's file size limit of 100.00 MB或者remote: fatal: pack exceeds maximum allowed size我们需要回退commit,如下操作1.查看git提交历史,并选取自己要返回的commitIdgit log使用

2021-09-22 10:10:10 11766

原创 PLSQL记住密码

汉化PLSQL Developer 14 (64 bit)以上版本:较低的英文版本:tool-preferences注意:千万不要勾选连接里面的“使用密码存储”,这样会导致必须输入密码,有些教程乱写的害人。

2021-09-10 15:30:50 442

转载 CDH Disk Balancer 磁盘数据均衡

前提:CDH5.10由于数据量过多,磁盘大小太小,导致磁盘使用率高达90%以上,于是新增磁盘,可问题来了,如何将这两块磁盘上的数据进行均衡呢?hadoop在2.X中已经有相应的方法了(具体哪个版本忘了),本次基于CDH来做1.设置dfs.disk.balancer.enabled 为true2.hdfs diskbalancer -plan cdh03(需要均衡的机器) 会生成一个*.plan.json的文件3.hdfs diskbalancer -execute /system/diskba

2021-08-26 16:41:43 440

转载 HDFS卷(磁盘)选择策略

在我们目前使用的Hadoop 2.x版本当中,HDFS在写入时有两种选择卷(磁盘)的策略,一是基于轮询的策略(RoundRobinVolumeChoosingPolicy),二是基于可用空间的策略(AvailableSpaceVolumeChoosingPolicy)。基于轮询的策略“轮询”是一个在操作系统理论中常见的概念,比如进程调度算法中的轮询算法。其思想就是从对象1遍历到对象n,然后再从1开始。HDFS中轮询策略的源码如下,非常好理解。public class RoundRobinVolume

2021-08-26 15:38:24 220

转载 使用notepad++复制不同内容多行到对应位置

首先,不可否认notepad++软件在用户体验上是十分便捷的,支持的操作方式多样,连Idea等编辑器都在学习notepad的功能,但多数人并没有正确的使用;废话少说,今天我介绍一下常用的技巧一,多行数据的批量复制(如下图)基础原理介绍:如下图,在编辑器中,回车占用一个字符,空格占用一个字符操作方法介绍:多行编辑:按住Alt + 鼠标拖拽 + 编辑文字(如下图)多行复制:Ctrl + v操作流程:以上图为例,复制对应行手机号数据,然后多行复制(按住Alt + 鼠标拖拽)结果 X

2021-03-29 11:10:13 4630 1

原创 Oozie shell动作内存限制

我们有一个oozie工作流,其 shell操作需要比Yarn默认提供的map任务更多的内存.我们怎样才能给它更多的记忆?我们尝试将以下配置添加到操作中:<configuration> <property> <name>mapreduce.map.memory.mb</name> <value>6144</value> <!-- for example --> </property>

2020-12-15 20:21:58 248

转载 关于impala2.x版本不支持orc格式的官网说明

有时候在hive中想使用orc格式的表,但是impala查询却不支持,查看cloudera官网后发现确实说明了cloudera官网地址:https://www.cloudera.com/documentation/enterprise/5-14-x/topics/impala_file_formats.html直接搜索orc即可找到但是在cdh6.1.x后版本中也就是impala3.x已经支持orc格式了,网址:https://www.cloudera.com/documentation/ente

2020-12-09 19:14:03 557

原创 sqoop导出mysql报错

报错如下java.lang.RuntimeException: Can't parse input data: '\N\N\N' at ads_completed_claim_list.__loadFromFields(ads_completed_claim_list.java:1100) at ads_completed_claim_list.parse(ads_completed_claim_list.java:958) at org.apache.sqoop.mapreduce.Text

2020-08-21 14:10:54 678

转载 hive异常 return code X from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask 解决

转自:https://www.iteye.com/blog/vase-2090320不知道是不是hive-0.12版增强了local mode的原因,在之前版本运行好好的Hive-QL在这个版本上错误频频,折磨一天多以后终于定位到原因,把在内部的总结在这再记录下,希望对遇到同样问题的筒子们有所帮助。部分一 关于return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskHive升级到0.12版之后,若干原来在0.10上执行正常

2020-07-23 14:56:10 2000

转载 ive运行异常: ERROR | main | Hive Runtime Error: Map local work exhausted memory

问题描述hive执行sql包含join时候,提示异常: ERROR | main | Hive Runtime Error: Map local work exhausted memory分析過程1.异常日志下:2019-06-24 13:39:41,706 | ERROR | main | Hive Runtime Error: Map local work exhausted memory | org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask.e

2020-07-23 14:49:31 285

原创 Hive字段校验测试

一、HDFS文件中字段类型和表字段长度/类型不一致场景结论1.如果是varchar类型长度短与文件中字段长度,通过HQL查询时,会直接截断超过varchar类型长度的字符;2.如果表字段类型和HDFS文件中数据类型不匹配,则直接显示NULL二、通过HQL插入长度/类型不一致数据场景DROP TABLE tmp.test0713;CREATE TABLE `tmp.test0713`(`PK_ID` varchar(1) COMMENT '主键')ROW FORMAT DELIMITED F

2020-07-13 13:01:02 994

转载 Java如何进行Base64的编码(Encode)与解码(Decode)

一、使用Java7之前使用Apache Commons CodecJava8之后使用Java 8的java.util套件关于base64编码Encode和Decode编码的几种方式Base64是一种能将任意Binary资料用64种字元组合成字串的方法,而这个Binary资料和字串资料彼此之间是可以互相转换的,十分方便。在实际应用上,Base64除了能将Binary资料可视化之外,也常用来表示字串加密过后的内容。如果要使用Java 程式语言来实作Base64的编码与解码功能,可以参考本篇文章的作法。

2020-07-09 15:19:22 213

原创 java调用sqoop api用法

java调用sqoop有两种用法,一是使用sqoop java api,二是使用runtime调用sqoop命令,但runtime比较难用,不推荐,以下是两种使用sqoop Java api的方法。方法一、使用String[]传参(不推荐)代码如下,但经过本人测试,同时调用多个sqoop任务会出现传参不能识别报错 public static void main(String[] args) throws IOException { System.setProperty("HADO

2020-07-05 19:00:06 1895 4

原创 java api并发调用sqoop异常记录

通过java api并发调用sqoop,发现如下相关异常2020-07-03 15:10:44 [ pool-1-thread-6:350039 ] - [ ERROR ] Got exception running Sqoop: java.lang.NullPointerExceptionjava.lang.NullPointerException at java.util.Objects.requireNonNull(Objects.java:203) at java.util.Arrays

2020-07-03 17:18:29 608

原创 关于HIVE增量同步的思考

方案一、如果业务库没有删除操作,并且更新时间完整,使用更新时间做增量同步,sqoop只同步更新时间变化的数据,合并到ODS层表方案二、如果业务库有删除操作,可以先解析数据库操作日志,存到hdfs,T+1同步数据后,对增删改做一次merge操作即可,可能需要代码实现。...

2020-07-01 17:39:47 688

原创 Apache Atlas 1.2.0在CDH5安装使用记录(终极完整版)

一、环境CDH 5.15.2JDK 1.8编译环境:macOs,和linux差不大MAVEN:阿里云镜像基于CDH集群已有Hbase、Kafka和单节点Elasticsearch搭建二、编译安装环境:编译环境:macOs,和linux差不大1.下载地址:http://atlas.apache.org/#/Downloads2.解压源码包tar -xvfz apache-atlas-${project.version}-sources.tar.gzcd apache-atlas-sour

2020-06-28 20:46:15 1320 3

转载 Sqoop--源数据含有默认换行符导致的数据不正确

问题描述使用sqoop导数导到hdfs中,使用Hive查询发现数据多了,并且有数据错位的现象。原因源数据中有’\n’换行符,导致被hive识别为换行符。所以出现了记录多并且数据错位的现象。解决方法使用sqoop命令时加入:–hive-drop-import-delims例如:sqoop import \ --connect ${CONNECT} \ --username ${USER} \ --password "${PASSWD}" \ --query " select ${imp

2020-06-24 20:44:06 324

转载 关于hive中not in不支持子查询的解决方法

表信息:用户User表(userid,name)黑名单BanUser表(userid,name)问题:找出不在黑名单中的用户信息(userid,name)hive暂时不支持以下查询方式:select aa.* from user aa where aa.user not in (select a.userid from banuser a);方法一:使用not exists进行改写select aa.* from user aa where not exists (select

2020-06-17 16:13:00 1260

转载 Hive中使用 with as 优化SQL

背景:当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Common table expressions,即支持 with 语法!一、介绍with as 也叫做子查询部分,首先定义一个sql片段,该

2020-06-17 16:10:22 263

原创 hadoop jar执行报错java.io.FileNotFoundException: /tmp/hadoop-unjarxxx(No space left on device)终极解决方案

原因MapReduce提交过程中,会把jar解压到/tmp目录下生成临时文件夹hadoop-unjarxxx,任务执行完成后,会主动删除这个临时目录hadoop-unjarxxx, 但是我们偶尔会遇到一些情况,导致hadoop任务异常结束,没有清理掉这个任务的临时目录,临时文件就会越来越多了。可能导致/tmp磁盘空间不足或者inode索引不足导致报错,因此使用下面命令查找错误,查看使用率df -h 查看磁盘df -i 查看inode解决思路就是降低jar包大小并定时清除/tmp/hadoop

2020-06-01 15:00:42 2758

转载 Hive Runtime Error: Map local work exhausted memory

问题描述hive执行sql包含join时候,提示异常: ERROR | main | Hive Runtime Error: Map local work exhausted memory分析過程1.异常日志下:2019-06-24 13:39:41,706 | ERROR | main | Hive Runtime Error: Map local work exhausted memory | org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask.e

2020-05-25 10:14:21 861

原创 JCE cannot authenticate the provider BC

根据以下博文:https://blog.csdn.net/study4034/article/details/79632495知道bcprov-jdk15on必须分开打包,否则签名会失效本人用的shade打包方式将依赖配置如下 <dependency> <groupId>org.bouncycastle</groupId> <artifactId>bcprov-jdk15on</art

2020-05-15 18:09:24 305

原创 cdh hive增加Update、Delete支持

一、配置hive-site.xmlCDH版本先进入Hive配置页,选择高级,如果使用的Hive Cli使用hive-site.xml 的 Hive 客户端高级配置代码段(安全阀)如果使用的beeline ,使用hive-site.xml 的 Hive 服务高级配置代码段(安全阀)点击+号,增加如下配置项hive.support.concurrency = true hive.enfo...

2020-05-08 14:40:35 401

原创 cdh beeline配置hive-site.xml不生效解决记录

最近用beeline替代hive cli,发现之前在hive-site.xml 的 Hive 客户端高级配置代码段(安全阀)的配置项,beeline居然不生效,如下图所示,而hive cli是生效的查看了执行机器上/etc/hive/conf/hive-site.xml文件,发现配置确实是修改了,一直以为是环境变量的原因,找了几个小时,网上也没相关解释,最后在hive-site.xml 的 H...

2020-05-08 14:28:20 1194

转载 如何获取Hive正在执行或已结束的SQL语句

本文主要介绍两种方式来获取Hive正在执行或者已结束的的MapReduce作业的SQL语句,一种是通过MapReduce API获取执行作业的xml配置文件,另一种是通过Cloudera Manager界面直接查看。一、通过YARN执行作业的xml配置文件1.通过Hue执行SQL查询,Job Browser页面可以获取该SQL执行的ApplicationID,如下:2.通过Applicat...

2020-04-15 14:31:29 4169

原创 解决hive表字段和comment不支持中文

hive元数据库执行以下sqlalter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table COLUMNS_V2 modify column COLUMN_NAME varchar(128) character set utf8;alter table TABLE_PARAM...

2020-04-11 11:54:01 989

转载 CDH Oozie邮件配置

1.启动用SAL,任务失败自动发送邮件一、从Cloudera Manager进入Oozie配置二、搜索框输入email,配置邮件相关字段,总共5个地方1、Oozie 电子邮件操作 SMTP 主机:即邮件服务器主机名,比如smtp.163.com、smtp.qq.com等2、Oozie 电子邮件操作发件人地址:邮件发件人地址,如xxx.163.com3、启用身份验证4、Oozie 电...

2020-04-10 10:57:46 569

原创 FAILED: ParseException line 1:0 character not supported here

将hive sql文件上传到linux,使用hive -f xxx.sql执行时报错如下:FAILED: ParseException line 1:0 character '' not supported here经过网上查询,错误原因如下:UTF-8 BOM文件开头会有U+FEFF字符,HIVE不识别,需要转换文件为UTF-8 无BOM文件UTF-8与UTF-8 BOM的区别B...

2020-03-27 17:59:24 2872

原创 Sqoop并发控制及相关问题

一、控制参数Sqoop 可以通过以下参数控制并发读取的 Mapper 个数加快读取速度。sqoop import -m <mapper_num> --split-by pk或者sqoop import --num-mappers <mapper_num> --split-by pkSqoop 计算每个 Mapper 读取的数据范围的时候,会遵循很简单的公式计算...

2020-03-20 10:25:16 1095

转载 Hive 子查询

1.FROM中的子查询SELECT ... FROM (subquery) name ...SELECT ... FROM (subquery) AS name ... (Note: Only valid starting with Hive 0.13.0)Hive仅在FROM子句中支持子查询(从Hive 0.12版本开始)。必须为子查询指定名称,因为FROM子句中的每个表都必须具有名...

2020-03-04 11:32:09 4202

原创 Hue运行报错Permission denied: user=hadoop, access=EXECUTE

错误For more detailed output, check application tracking page:http://test-xbsjpt-000602:8088/proxy/application_1579250627232_0012/Then, click on links to logs of each attempt.Diagnostics: Permission d...

2020-01-19 14:21:00 1682

原创 Hue运行shell脚本,找不到文件

报错如下java.io.IOException: Cannot run program "ods_cgi_app_dev.sh" (in directory "/data/coredump/yarn/nm/usercache/hadoop/appcache/application_1579250627232_0003/container_1579250627232_0003_01_000002"...

2020-01-19 10:59:28 869

原创 查看yarn日志报错Error getting logs at ***:8041

集群版本:CDH 5.15.2原因:Yarn日志聚合目录没权限解决:1.通过CM查看YARN配置:yarn.nodemanager.remote-app-log-dir默认为/tmp/logs,本来不会有问题,但是我安装之后改成/data/tmp/logs了,导致权限不够apache版本配置在yarn-site.xml中2.修改权限, /tmp/logs改为自己配置目录即可su h...

2020-01-17 16:56:53 979

原创 分布式一致性协议——2PC和3PC

一、2PC定义2PC即二阶段提交,是计算机网络尤其是分布式领域内,为了保持分布式系统架构下所有节点在进行事务处理过程中能够保持原子性和一致性而设计的一种算法。目前绝大多数关系型数据库都是采用二阶段提交协议来完成分布式事务处理。协议说明阶段一:提交事务请求1.事务询问2.执行事务(阶段一完成)3.向协调者反馈阶段二:执行事务提交或中断事务正常流程1.发送提交请求2.事务提交3...

2019-11-02 17:30:20 181

zabbix-2.0.3.tar.gz

系统监控软件zabbix-2.0.3

2016-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除