自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

简单的心的博客

坚持就是胜利

  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 CDH6.2 集成Sentry,Hive,Hue,Impala权限控制

公司最近Hadoop集群和其他服务机器复用严重,提供了新机器,想将Hadoop集群迁出。Hadoop使用的CDH集成环境,从CDH5.3跨越到CDH6.2之前在CDH5.3上将hive从0.13升级到1.2.1。然后做了hive权限控制详情见https://blog.csdn.net/u012422198/article/details/94434445想在CDH6.2中同样来一套...

2019-07-02 15:03:48 6146

原创 Python 2.6.6 手动安装elasticsearch模块

开发一个Python导数脚本从elasticsearch集群中导出数据发现生产环境是Centos 6.5 python 2.6.6因为没有办法联网,而且pip现在也不支持python 2.6.6最后没有办法使用手动安装从https://pypi.org/project网上下载各种包setuptools-36.8.0.zipurllib3-1.23.tar.gzpbr-4.2...

2018-08-14 10:54:07 5550

原创 [Cloudera][ImpalaJDBCDriver](500605)错误

[Cloudera][ImpalaJDBC](500605) 错误当CDH机器配置了LDAP验证的时候,Dbeaver或者其他链接工具或者java代码链接impala时,需要在impala 链接Url 后添加AuthMech=3属性Cloudera官网文档里也说明了这件事https://docs.cloudera.com/documentation/other/connectors/impala-jdbc/latest/Cloudera-JDBC-Driver-for-Impala-Instal

2020-11-28 16:42:24 4675 2

原创 Mongodb Centos6.9 mongo-tools pymongo离线安装

需要将远程MongoDB的数据同步到HIVE数据仓库中,通过落地文件的方式所以需要在另一台生产服务器上离线部署mongo-tools/pymongo闲话不多说,上干货一、Pymongo与python3 离线安装1.去python 官网下载Python-3.7.3.tar.xz2.安装python3安装依赖包yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-dev.

2020-07-21 11:08:47 687

原创 Centos 统计硬盘使用情况

总硬盘容量 Tdf | awk '{print $4}' |sed 's/Available//g' |sed '/^\s*$/d' | awk '{sum+=$1}' END {print sum/1024/1024/1024}'使用硬盘容量 Tdf |awk '{print $3}' |sed 's/Used//g' |sed '/^\s*$/d' | awk '{sum+=$1...

2020-04-17 10:16:37 537

原创 CDH5.3 集成Hive,Hue权限控制

之前公司业务提出需求要对Hive进行权限控制hive版本1.2.1,升级过一次。1.HUE 中添加用户 bigdata 给与hive访问权限新建一个用户组bigdata,将bigdata从default组移动到bigdata组。2.所有节点root用户登录useradd bigdatapasswd bigdatagpasswd -a bigdata hadoop添...

2019-07-02 11:00:34 1984 2

原创 cloudera supervisord

servervice cloudera-scm-agent stopps -ef | grep supervisordkill -9 pidservervice cloudera-scm-agent start

2019-06-13 17:16:08 1309

原创 CDH中的YARN 与HDFS 一点隐藏关系

CDH中的YARN 与HDFS 一点隐藏关系今天清明节假期第二天,上午日常远程连一下公司服务器,看看跑批作业是否OK然后发现 CDH Hadoop集群中提交到Yarn上的MapReduce作业跑的非常慢,而且经常是 Map 0%,Reduce 0%的状态卡主一开始以为是Yarn出了问题,检查Yarn组件都OK,然后我Kill一个MapReduce作业,发现其他的作业进度开始跑动但是...

2019-04-06 21:08:23 315

转载 mysql中varchar类型最大长度测试

1.先看字符集为latin1时,每个字符应该是占据一个bytemysql> create table test(a varchar(65535)) engine=innodb charset=latin1;ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not co...

2019-03-29 10:52:33 648

原创 Hive 生产中数据问题踩的坑

生产环境使用的时Sqoop从Oracle抽数经历过错行----去掉一些特殊字符解决大字段错行----https://blog.csdn.net/u012422198/article/details/84662691长数字数据重复,特别是金融数据的各种号,长长的一串当Hive上数据处理时,去重发现Hive比Oracle数据少很多。因为Hive默认的长数字显示为科学技术法,把字...

2019-03-26 10:53:53 830

原创 从Elasticsearch导出数据到文件工具Python 和 elasticdump 对比【自己的体验】

工作中从Elasticsearch导出大批量数据到文件,因为Elasticsearch导出有限制,一次性最多导出10000条,虽然可以调大这个数值,但是对于Elasticsearch集群上千万甚至上亿条数据导出,这个参数调整就没什么意义了。所以我使用了两种方式,一个是用Python模块elasticsearch的helpers.scan来导出数据,另一种使用elasticdump工具来导出数据...

2019-02-17 10:59:59 2827 1

原创 Centos 生产环境 无网 安装Node、Npm、Elasticdump方法【验证通过】

第一步.安装Node和Npm1.下载官方安装包并拷贝到离线机器上 官方下载地址:https://nodejs.org/en/download/ 下载xz文件,解压后是tar文件2.解压文件:tar -xf node-v8.1.0-linux-x64.tar  相应目录例如/opt/3.建立文件链接使npm和node命令到系统命令sudo ln -s /opt/node-v8.1.0...

2019-02-16 11:57:22 4095 3

原创 解决Sqoop CLOB 字段从Oracle导入Hive错行

CLOB字段从Oracle导入到Hive时,如果CLOB中有换行符Sqoop import参数选项 --hive-drop-import-delims对CLOB中换行符是没有效果的需要显示添加--map-column-java CLOB列名=String这样--hive-drop-import-delims 才能去除CLOB中的换行符。参考文章https://stackover...

2018-11-30 17:22:01 2900

原创 Hadoop 2.5.0上编译Tez,并配置到Hive中。

1.背景公司的生产环境是hadoop2.5.0-cdh5.3.9,因为业务数据增长的原因,Hive MapReduce的查询速度不令人满意了,想要更换为计算引擎Tez。2.编译在当前日期的Tez官网上没有对应Hadoop版本编译好的bin压缩包。需要下载src包进行编译,Hadoop2.5.0在查找多个Tez版本后发现0.5.4版本的Tez对应Hadoop版本为2.4.0,因为向下兼容...

2018-11-23 15:28:10 334

转载 hive增加Update、Delete支持 (补充)

https://blog.csdn.net/qq_36864672/article/details/81868824步骤见上面这位博主的博客我稍微补充一下,在使用时走过的弯路在CDH的Hive的配置界面有这些类别,每个都有给一个高级选项,一开始没有注意找错了。是这个,加上配置属性后,先部署客户端再重启再重新进入hive shell界面。...

2018-11-19 16:34:26 1859

原创 CDH 5.3.9(parcels)集群中hive0.13.0升级到hive-1.2.1步骤全,升级hive元数据库,数据不丢失

1.下载hive-1.2.1安装包 http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz2.将安装包传到集群所有节点上3.所有节点root用户下 cd /opt/cloudera/parcels/CDH/lib/hivemkdir lib1214.所有节点解压 apache-hi...

2018-11-19 10:39:08 1466 10

原创 Hive Json 建表语句太长出错【修改Hive 元数据表结构】

最近在Hadoop集群中要添加一些Hive表来解析Json。因为Json的内容太长,选择外部表创建语句格式如下:create external table if not exists TABLENAME( 字段A string, 字段B string, 字段C struct< 字段D:string,字段E:struct&lt...

2018-11-01 16:36:49 1040

原创 Python2.7 通过Thrift 连接 HBASE 环境配置

Hadoop环境使用的是cloudera提供的quickstart VM版cloudera-quickstart-vm-5.13.0-0-vmware系统版本Centos 6.7,JDK 1.7,python自带2.6.6 要求可以联网下载的包都解压到/usr/local/下,安装一般都是安装到/usr下,全程都是root用户下操作 一、安装Thrift,实测成功,感觉非常麻烦先看看完成的目录有哪...

2018-07-06 14:10:10 873

tez-0.9.1.tar.gz

Tez 0.91 minimal jar包和tar包,基于CDH6.2编译的具体为3.0.0-cdh6.2.0,没有tez-ui ,没有具体验证,才编译好就上传了,明天给测试结果

2019-09-18

tez-0.9.1-minimal.tar.gz

Tez 0.91 minimal jar包和tar包,基于CDH6.2编译的具体为3.0.0-cdh6.2.0,没有tez-ui ,没有具体验证,才编译好就上传了,明天给测试结果

2019-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除