CarbonDioxide12138-CSDN博客

从头开发一个大数据管理平台-Mybari（一）背景功能分析技术选型功能特色时间安排未来演进下一篇背景因为众所周知的原因，cloudera和hortonworks两家巨头决定不再继续卷下去了，要开始联手割用户的韭菜了。于是就带来了一个问题，还要不要继续使用hdp或者cdh呢？cdh依然有着100个节点的限制，hdp也不再更新。开源大数据组件的新特性使用不上，还得提心吊胆的怕接收到对方的律师函，真是够了，虽然各个大厂都有自己的大数据平台，但是目前都没有开源出来，现状暂时还能用，但未雨绸缪嘛，管理平台毕竟是

2021-10-27 15:49:15 315

原创 Ambari集群启用Hive on spark

目录环境信息参考资料配置步骤测试环境信息Ambari 2.6.1+HDP 2.6.5(hive 单独升级到了2.3.2)参考资料https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark:+Getting+Started#HiveonSpark:GettingStarted-ConfiguringHive.https://stackoverflow.com/questions/55422935/hive-on-spark-error

2021-10-18 14:49:00 1555 4

原创 Ambari Rest API 管理集群

有时候因为网络端口活着其他限制原因，我们没办法直接访问ambari web ui的页面进行操作，这时候我们可以在能访问ambari server的linux服务器上执行curl命令来管理ambari集群参考链接: https://github.com/apache/ambari/blob/trunk/ambari-server/docs/api/v1/index.md#resources.获取集群名称curl -u username:password -H "X-Requested-By: amb

2021-10-13 16:00:45 493

原创在启用了Kerberos的ambari集群上添加组件

在启用了Kerberos的ambari集群上添加组件背景步骤1 .修复安装服务时卡在install pending的异常2.添加服务3.分发keytab4.重启已添加的服务5.修改yarn队列配置文件 fair-scheduler.xml背景有一个项目的ambari集群启用了Kerberos认证，总共有24台机器，只有5台机器部署了NodeManger，可用资源只有220G，60核，高峰期业务排队时间较长，同时其他机器资源利用率低，业主希望在所有机器上都部署上yarn，提供作业并行度。步骤1 .修复

2021-10-12 17:15:39 351

原创 Ambari添加Ranger相关的坑

添加服务后ranger无法启动，有SSL警告WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn't set. .

2021-07-26 21:20:00 606 1

原创 kafka 启动时提示 /brokers/ids/1001 is: NODEEXISTS

背景: 通过ambari安装kafka之后，两台broker能正常启动，一台无法正常启动知识介绍：broker id是broker的唯一标识，不能和其他broker冲突在kafka有两种配置方式broker.id的方式 1.手动指定broker.id=1001 2.通过配置 broker.id.generation.enable=true，让服务器自动生成生成逻辑如下： a.获取reserved.broker.max.id的值（默认为1

2021-07-21 15:46:33 1757

原创 HDP3.1升级hbase2.2.7之后，Ambari timeline services v2无法启动

在升级Hbase2.2.7之后，ATSv2内置的单点hbase因为版本问题，无法启动，需要修改配置使用我们部署的hbase取代内置的hbase参考https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/data-operating-system/content/configure_hbase_for_timeline_service_2.0.html解决步骤：在yarn高级配置中的yarn-hbase-env中，修改use_external_hb

2021-07-21 15:45:12 933

原创 hive UDF reflect is not allowed 的解决方案

参考自https://community.cloudera.com/t5/Support-Questions/UDF-reflect-is-not-allowed-beeline/m-p/155072打开AmbariUI打开Hive 配置页，进入custom hive-site.xml添加配置：hive.server2.builtin.udf.blacklist=empyt_blacklist(随意给任何不需要用的udf值)重启hiveserver2...

2021-07-08 10:07:53 968

原创 HDP3.1中HBase从2.0.6升级到2.2.7

HDP3.1中HBase从2.0.6升级到2.2.7下载解压HBase 二进制包，上传至http服务器上，下载地址https://www.apache.org/dyn/closer.lua/hbase/2.2.7/hbase-2.2.7-bin.tar.gz停止所有master节点，包括standby master在ambari-web中修改hbase 高级设置中的custom hbase-site.xml，添加配置hbase.procedure.upgrade-to-2-2=true（重要，

2021-07-08 10:04:06 3503 8

原创 Ambari接管HBase thriftServer及HUE集成HBase

Ambari接管HBase thriftServer及HUE集成HBase新建hbase_thriftserver.py上传hbase_thriftserver.py添加执行权限修改metainfo.xml复制HBase service目录到HBASE目录重启ambari-server在Amabri-web安装HBase thriftserver修改hue.ini重启HUE新建hbase_thriftserver.py#!/usr/bin/env python"""Licensed to the A

2021-07-08 09:57:14 366

原创编译HUE并接入Ambari管理

编译HUE并接入Ambari管理版本信息下载安装包安装依赖编译HUE纳入Ambar管理通过ambari web 安装hueQA版本信息Amabri :2.7.4HDP: 3.1.4HUE:4.10.0下载安装包https://cdn.gethue.com/downloads/hue-4.7.0.tgz安装依赖yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5

2021-07-08 09:39:02 494

原创 flink metric对接openTSDB

目录背景方案代码openTSDBReporteropenTSDBentityhttpClient背景 Flink 任务有着丰富监控指标，但是Flink原生(1.10)支持的Reporter只有JMXReporter、GraphiteReporter、InfluxdbReporter、PrometheusReporter、StatsDReporter、DatadogHttpReporter、Slf4jReporter这些Reporter，但是我们公司的监控系统

2020-08-03 20:50:01 1054 1

原创 kafka 2.4 新版 Java Authorizer API解析

目录背景接口方法解析实现类AclAuthorizer解析start方法configure方法authorize方法createAcls背景 kafka 2.4 的release note 除了引入MirrorMaker 2.0 之外，还有一项改动是引入了新的java版的认证API接口。原因是这样的： kafka使用scla版的kafka.security.auth.Authorizer的trait来支持可插拔的

2020-07-27 21:32:54 569

原创 Flink kafka connector之反序列化方法解析和应用场景

目录KeyedDeserializationSchema 解析从kafka直接读出JSON获取kafka message的元信息消费到指定位置自动停止KeyedDeserializationSchema 解析 KeyedDeserializationSchema是flink-kafka-connector（1.7）的一个重要的类，它的作用是将kafka的消息进行反序列化，我们最常用的新建FlinkKafkaConsumer中的SimpleStringSche

2020-07-21 22:47:18 1395

原创 Flink 修改BucketingSink解决小文件的问题

Flink 修改BucketingSink解决小文件的问题0、背景1、BucketingSink 解析2、修改0、背景用flink往hdfs写文件的时候，我们一般会用到HDFS Connector 。其实flink里提供了两种HDFS Connector，一个是Bucketing File Sink，另一个是Streaming File Sink。因为我们使用的Hadoop是2.6.5的，对StreamFileSink的支持不太好，所以在我们构建我们的基

2020-07-20 21:36:00 2471

原创 flink-kafka-connector之FlinkKafkaConsumer011解析

目录flink kafka connector 调用关系在使用flink kafka connector的时候，一般都直接像下面这样直接拷贝模板就拿来用了：Properties properties = new Properties();properties.setProperty("bootstrap.servers", "localhost:9092");properties.setProperty("group.id", "test");env

2020-07-12 12:23:03 7160

原创 kafka使用mysql进行认证管理

目录背景SASL/SCRAMSASL/PLAIN改造新建mysql 元信息库新增mysql 连接池工具类修改PlainSaslServer类打包测试背景因为公司其他业务方使用的语言多种多样，以C和C++为主，还有python、php、go、等语言，java只占很少一部分，所以在公司想推行kerberos认证很困难，总是遇到各种各样的阻碍和业务方的不配合，或者干脆以业务紧急为理由，走非认证端口，所以我们想用一种相对简单的认证方式来在公司进行推广。想要的效果就

2020-07-04 15:53:37 391

原创 kafka只让Producer自动创建Topic同时禁止consumer自动创建Topic

kafka只让Producer自动创建Topic背景操作后记背景最近我们要做从mysql 到大数据平台的数据流转，定下的方案是maxwell同步binlog到kafka中，再由flink消费kafka的数据写往kudu里，最后利用kudu和hive利用impala提供的视图作统一查询，其中kudu保留近七天的数据，七天前数据滚动下沉到hive表。 maxwell实例和kafka topic的对应关系是一个ma

2020-07-02 22:12:21 8404

原创修改源码使kafka-console-consumer.sh支持从指定时间开始消费

目录背景解决方案方案1-用Java新开发一个的消费工具方案2-修改kafka源码，利用kafka-console-consumer.sh方案2-flinkSQL 或 kafka SQL环境准备修改代码打包测试背景有业务方向我们提出，自从我们给kafka集群启用权限和认证之后，他们在排错过程就十分不方便了，以前他们换一个消费组就可以重新消费数据了，现在每换一个消费组都需要重新由我们给他们授权，碰到有时不在工位的时候，就只能干着急了；第二，我们kafka

2020-06-29 22:49:28 2670

原创 Maven编译系列（一）——Plugin

做java开发的肯定对maven再熟悉不过了，可是我之前对maven的了解却也仅限于拷贝pom模版，然后添加自己的dependecy而已，顶多加上build和repository这两个参数来指定java版本和maven源，最后编译这块儿还是靠IDEA的编译功能来打jar包，对于怎么用maven编译这块儿实在不了解，碰到有些需要maven编译的项目就无从下手，这才痛下决心找个时间彻底研究一下maven。先从开源项目中占比最大的plugin这部分学起吧。...

2020-06-27 18:25:45 1188

原创 kafka connector 中的轻量级ETL-transfomation功能介绍

在kafka connector的使用中，可能因为各种原因（业务原因、connector需要key或者schema等）需要用到transfomation，处理消息的内容。下面列举了kafka connector 自带的transfomation的功能，帮助大家了解一下，当然有能力也可以自己开发transfomation组件。功能转换器名称转换器类型独有配置对应功...

2018-11-12 20:36:19 835

原创 sqoop源码解析-----从mysql到hive为例

上班这么久了，大部分时间都是在大数据平台组件的基础上做一些小的开发，既然是在别人的东西上修改，除了百度或者谷歌搜索前人的讲解，自己阅读源码一定是必不可少的。但是源码里代码量那么大，往往一时间多很难找到整个程序的入口，这时候往往容易让人感觉到烦躁而不想动，下次碰到这样的情况，应该怎么入手呢？刚好今天在研究根据具体业务需求修改sqoop源码，实现从mysql到hive的单分区key，多分区v...

2018-03-31 00:18:35 2326

原创 kafka自动化脚本部署

一、背景如果不采用CDH或者ambari等平台来部署kafka的话，一台一台的安装，一台一台的改配置，真的是一个非常让人头疼的事情呢，经领导提示，为什么不写个shell脚本来进行一件部署呢二、java自动部署if [ ! -d /usr/java/jdk1.8.0_121 ];then mkdir -p /root/software/ wget -q http://192.168.1...

2018-03-25 21:15:46 1460

原创 kafka集群安全化之启用kerberos与acl

一、背景在我们部署完kafka之后，虽然我们已经可以“肆意”的用kafka了，但是在一个大公司的实际生产环境中，kafka集群往往十分庞大，每个使用者都应该只关心自己所负责的Topic，并且对其他人所使用的Topic没有权限。这样一来可以将资源隔离开来，二来可以防止误操作。在权限控制之前，我们必须要启用的就是用户认证，没有用户，自然没有权限一说了。二、kafka启用kerberos认证2.1 在K...

2018-03-25 20:41:11 4869

原创大数据平台运维-----Kerberos环境下Hive及Impala监控脚本的开发

一、工程目录二、原理解析 Hive和Impala是两个最常用的大数据查询工具，他们的主要区别是Hive适合对实时性要求不太高的业务，对资源的要求较低；而Impala的由于采用了全新的架构，处理速度非常的快，但同样的也对资源消耗比较大，适合实时性要求高的业务。在我测试过程中发现，有些时候，即使通过shell命令来检测，发现Hive或者Impala的进程正在运行，但是无法访问他们的web...

2018-03-25 20:27:05 1242 1

原创大数据平台部署-----ambari在线和离线安装

一、在线编译安装1.1. 安装独立maven1.1.1. 下载Mavenwget http://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.5.2/binaries/apache-maven-3.5.2-bin.tar.gz 1.1.2. 解压安装Maventar -xzvf apache-maven-3....

2018-03-22 20:50:40 2052

原创 HDFS、Hive、HBase常用命令整理

对于一个初学者来说，HDFS、Hive、Hbase常用命令比较多，一时间又难以记住，这里做一个小小的整理总结1. Hadoop命令文件浏览，不能递归显示 hadoop fs –ls /[path] 递归显示文件 hadoop fs –lsr /[path] 统计文件大小（-h 人性化显示，GB,MB,KB） hadoop fs –du -h /[path] 只统计文件夹大小 hadoop...

2018-03-18 23:09:20 973

原创 Iptables常用操作及CDH 启用防火墙

一、Iptables常用操作1.查看当前所有的iptables配置iptables -L -n 2.添加允许INPUT访问规则,以下时常见服务的端口设置，如果需要拒绝访问，则将ACCEPT改为DROP即可iptables -A INPUT -p tcp --dport 22 -j ACCEPT iptables -A INPUT -p tcp --dport 8080 -j ACCEPT ...

2018-03-18 23:06:29 1463

原创在CM中修改HDFS的nameservice

在大数据平台中，hdfs的nameservice关系到很多方面，如果有配置错误的话，往往排查起来会非常非常的蛋疼，这时候就需要修改nameservice了，在CM中修改nameservice又不同于直接在配置文件里修改，需要进行的步骤有些许繁琐，这里稍微总结一下。1 停止除了zookeeper之外的所有服务2 在其中一台zookeeper server的服务...

2018-03-18 22:59:34 3626

表情识别代码

图像信息熵

空空如也