栗子_yangxw-CSDN博客

原创 scala语言下使用protobuf协议解析数据

文章目录scala语言下使用protobuf协议解析数据背景存在的问题解决pom文件proto文件生成源码scala语言下使用protobuf协议解析数据背景kafka数据源是protobuf格式，需要反序列化，并取出相关字段。已有xxx.proto文件，需要生成解析类。存在的问题protoc命令行，不支持直接生成scala文件网上寻找工具，转了一圈各大论坛，基本都是先生成 java文件，然后再scala里面引用，这样不符合需求，不愿仅仅因为解析protobuf而引入java语言

2022-04-13 13:20:49 2627

原创 01-spark源码走读本地环境搭建

本地环境准备必备环境spark源码导入IDE安装必备ide插件IDE配置默认maven环境项目配置jdk项目增加scala支持项目切换3.2分支编译源码运行测试类必备环境IDE ideaIU-2021.3.2安装jdk并配置环境变量maven安装，并配置环境变量spark源码导入IDEhttps://github.com/apache/sparkgit clone https://github.com/apache/sparkcd spark## 这里主要以3.2分支为主，比较稳

2022-03-19 15:24:53 2230

原创 StreamX1.2.1+flink1.12.7 平台部署

StreamX1.2.1+flink1.12.7 平台部署1. 必须环境准备StreamX最新版本1.2.1支持用户上传jar包的方式运行代码，目前支持flink版本为1.12以上前后端混合编译得到StreamX最新安装包 streamx-console-service-1.2.1-bin.tar.gzhadoop环境准备flink安装包准备，本例使用flink1.12.7 https://dlcdn.apache.org/flink/flink-1.12.7/flink-1.12.7-bin-

2022-01-19 14:30:35 2003

原创【flink】一个TaskManager 实例下，多个slot线程分别执行不同job任务，如何隔离jar包资源以及计算资源

文章目录问题思考？官网解析源码走读动手写个任务提交demo回归问题结论问题思考？官网解析源码走读动手写个任务提交demo回归问题结论

2021-08-11 20:49:10 1488

原创 kudu+impala表名、字段名大小敏感问题

文章目录背景1. 表名大小写实践通过impala 建表 `AbTest_log`查询测试写入测试2. 字段名大小写实践3. 结论背景表DDL语句通过impala进行，比如建表，新增列等等表数据插入通过kudu client客户端进行数据插入问题：当表名有大小写，或者属性名有大小写的时候，有的数据不能插入的情况1. 表名大小写实践通过impala 建表 AbTest_log通过impala查询，表名是小写 abtest_log通过kudu客户端查询，表名是AbTest_log

2021-05-18 15:34:23 994

原创 Elasticsearch 集群未授权访问使用ReadOnly REST插件修复（elasticsearch增加http鉴权）

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-04-07 12:34:06 1163

原创 spark任务写入kudu表报错Failed to write at least 1000 rows to Kudu

报错内容如下：关键词：Failed to write at least 1000 rows to KuduNot found: ([0x0000000081346280, 0x00000001813461CC))Not found: ([0x0000000081346280, 0x00000001813461CC))Not found: ([0x0000000081346280, 0x00000001813461CC))Not found: ([0x0000000081346280, 0x00000

2021-03-08 11:13:29 1226 2

原创 cdh6.3.2配置Sentry+Hue权限管理

文章目录Sentry安装部署添加Sentry服务定义角色分配节点配置数据库完成服务添加Sentry与Hive/Impala集成取消HiveServer2用户模拟确保hive用户能够提交MR任务配置Hive使用Sentry配置Impala使用Sentry配置HDFS权限与Sentry同步Sentry授权HUE授权配置命令行权限配置Sentry安装部署添加Sentry服务定义角色分配节点配置数据库完成服务添加服务启动失败的话可以排查： cdh6.3.2添加sentry服务启动失败排查Sen

2021-03-04 11:03:59 2388 1

原创 cdh6.3.2添加sentry服务启动失败排查

报错信息关键词：Could not create org.apache.sentry.provider.db.service.persistent.SentryStorejava.sql.SQLException: Column name pattern can not be NULL or empty.Exception in thread "main" java.lang.IllegalStateException: Could not create org.apache.sentry.pro

2021-03-03 20:08:08 769 3

原创 spark亿级数据写入kudu报错complete before timeout

目录spark任务submit后运行一段时间输出日志sparkui上看到失败task输出日志问题定位spark任务submit后运行一段时间输出日志Delayed: (UNKNOWN, [ Write, 21 ]))}Timed out: cannot complete before timeout: Batch{operations=256, tablet="4a02e65bac264694b14faeee40998735" [0x00000002, 0x00000003), ignoredError

2021-02-04 11:35:11 2076 2

原创 scala与java混合开发，导致jdk8接口静态方法不能编译打包的问题

异常背景jdk1.8中支持接口定义default方法与static静态方法，我的项目中两者都有使用场景，项目在ide本地运行没有问题，但是执行 maven 打包 maven assembly:assembly报错如下：原因分析与解决因为scala的编译插件，检测到java接口内的静态方法不是以“ ；”结束，所以报错，但是显然这是不正确的，所以需要加上以下配置，排除scala插件干扰 .java文件的编译。顺便一提：如果你遇到的是编译打包没有把scala代码打包进去，也是这两个插件没有配置好。

2020-12-10 10:44:06 373

原创 CDH6.3.2集成安装flink on yarn服务（编译源码，制作parcel）（更新：flink1.12.2版本测试也可用）

目录一：环境准备二：下载安装包1. Flink-shaded包2. flink1.10.2 源码包3. maven配置文件三：编译flink-shaded版本1. 解压tar包2. 解压文件后目录结构3. 修改pom文件4. 开始编译四：编译Flink1.10.2源码1. 解压tar包2. 执行编译3. 等待编译成功4. 打包编译好的文件五：制作parcel包1. 下载git开源制作parcel包的项目2. 修改配置文件 flink-parcel.properties3. 赋予build.sh文件执行权限4

2020-12-01 17:27:55 7073 26

原创 spark on yarn执行完hsql命令 yarn队列一直没有释放资源

现象描述这个任务已经执行完毕，但是任务状态一致是running导致队列资源没有释放由于是测试服务器，队列资源较少，导致后面任务阻塞。原因：spark on hive本质是spark-shell.sh，spark-shell.sh会一直占用进程，这样后面提交的hive on spark任务就不需要重复上传spark依赖，加速任务执行速度解决方法：如果是hive命令行客户端提交的job，退出hive命令行，资源自动释放如果是脚本提交的job，最好在脚本末尾加入 !quit 主动释放资源..

2020-07-27 21:31:50 2619 1

原创 spark中使用不同算子实现wordcount的案例

数据准备/** * @author xianwei * @Created 2020/06/05 22:06 */object WordCountExer { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("file - RDD") val sc = new SparkContext(spar

2020-06-07 20:59:23 322

原创「4-Hadoop」：MapReduce架构以及案例编写

一：MapReduce概述MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。MapReduce优点易于编程它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个

2020-05-25 21:48:57 183

原创「3-Hadoop」：Hadoop3.x完全分布式集群完整搭建过程

一：资源准备Centos7 机器3台：单机至少2g内存修改机器hostname vim /etc/hostname我这里三台机器分别是 hadoop102、hadoop103、hadoop1043. 配置hosts文件使三台机器可以内网通信vim /etc/hosts4. pin

2020-05-21 18:00:04 519

原创本地远程连接云主机Hadoop集群调试失败，datanode连接超时，端口9866

问题：在本地有一套hadoop集群，阿里云主机有一套集群；本地IDEA开发工具写的MapReduce调试案例，可以在直接连接本地虚拟机集群运行跑，但是连接云主机集群报错，连接datanode超时！本地调试案例驱动主方法代码如下：报错信息如下：仔细看报错信息，发现是连接datanode的时候，请求打在了集群的内网ip上，而阿里云集群的内网地址在外面当然是访问不了，因此访问超时！显然，本地虚拟机的地址与本机共用一个内网，因此没有这个问题！解决办法：找了很久资料，发现有hdfs-site.xm

2020-05-15 23:27:15 3407 7

原创「Linux」服务器 ssh 免密登录配置

免密登录语法使用ssh 另一台电脑的ip地址我这里hadoop102、hadoop103是服务器名称，已经配置了hosts映射ip免密登录原理配置步骤假设现在有两个机器（node1/node2 已经配置的hosts文件映射）：node01node02分别在 node01、node02 生成公钥和私钥ssh-keygen -t rsa然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）分别在 node01、node02 将公钥拷贝到要免

2020-05-15 18:10:00 173

原创「2-Hadoop」：HDFS架构详述

HDFS概述HDFS定义HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。HDFS优点高容错行，数据自动保存多个副本，丢失副本自动恢复适合处理大数据，规模达到GB、TB、甚至PB级别可以构建在廉价的机器上，通过内部副本机

2020-05-14 22:12:14 258

原创「1-Hadoop」：Hadoop框架的几个核心组件

Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop组成在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑计算以及资源调度，耦合性比较大，在Hadoop2.x以上增加了Yarn组件，只负责资源调度，MapReduce只负责运算。HDFS架构概述NameNode（nn）存储文件元数据，如文件

2020-05-14 21:05:08 868

原创完美解决Homebrew国内地址安装解决下载慢，报错问题。

在Mac OSX环境下安装Homebrew，遇到各种报错：连接服务443git clone过程失败下载速度非常慢搭建了梯子依然不行最后在知乎找到这个安装方法：运行下面自动脚本（已经全部替换为国内地址）：全程中文提示，非常友好！！/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"...

2020-05-12 15:22:20 645

原创 Azkaban踩坑：Missing required property 'azkaban.native.lib' 、Cannot request memory (Xms 0 kb, Xmx 0kb)

Azkaban部署踩坑Cannot request memory (Xms 0 kb, Xmx 0 kb) from system for job jobA, sleep for 60 secs and retry向系统申请资源失败，一直重试，这个错误是一般是由于系统内存资源不够决定的，有两个解决方案，其一保证内存6G以上；其二，修改一下配置：/azkaban-web-server-3.84.4/conf/azkaban.properties#原配置 StaticRemainingFlowSi

2020-05-09 00:03:23 718

原创阿里开源的Java诊断工具：Arthas

Arthas（阿尔萨斯）能为你做什么？Arthas 是Alibaba开源的Java诊断工具，深受开发者喜爱。当你遇到以下类似问题而束手无策时，Arthas可以帮助你解决：1. 这个类从哪个 jar 包加载的？为什么会报各种类相关的 Exception？2. 我改的代码为什么没有执行到？难道是我没 commit？分支搞错了？3. 遇到问题无法在线上 debug，难道只能通过加日志再重新...

2020-05-04 21:31:14 175

原创 Flume搭建与入门案例（一）

1. Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。 Flume基于流式架构，灵活简单。2. 用户指南http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html3. 关键结构描述3.1 AgentAgent是一个JVM进程，它以...

2020-05-04 21:16:01 206

原创 Hive3.x执行HQL语句报错 exit code143/ memory limit

Hive版本：apache-hive-3.1.2-bin.tar.gz，执行引擎TEZ，Hadoop版本3.1.3hive成功进入命令行终端建表插入数据出现以下错误（虚拟机物理内存2G，交换分区2G）分析原因是虚拟内存大小限制导致；1.有条件的开发可以直接把机器的物理内存调大；2.调整Hadoop配置参数yarn-site.xml<property> &...

2020-04-25 00:47:36 818

原创 Hadoop3.x 机架感知机制与配置

什么机架感知感知hadoop集群中每个机器节点所属的机架如何感知机架某台 slave 机器是属于哪个 rack 并非是智能感知的，而是需要 hadoop的管理者人为的告知 hadoop 哪台机器属于哪个 rack，这样在 hadoop的 namenode 启动初始化时，会将这些机器与 rack 的对应信息保存在内存中，用来作为对接下来所有的 HDFS 的写块操作分配 datanode列...

2020-04-13 21:45:37 1145 5

原创 Hadoop2.x与Hadoop3.x的默认端口变化

最近配置Hadoop3.x集群的时候发现了一些端口变动，导致web访问UI界面失败，查阅资料写个帖子记录分析一下。Namenode 端口:2.x端口3.x端口namedesc504709871dfs.namenode.https-addressThe namenode secure http server address and port.50070987...

2020-04-10 19:30:00 4178

原创 shell工具之awk命令

awk一个强大的文本分析工具，把文件逐行读入，以空格为默认分隔符将每行切片，切开的部分再进行分析处理awk [选项参数] ‘pattern1{action1} pattern2{action2}…’ filenamepattern：表示AWK在数据中查找的内容，就是匹配模式action：在找到匹配内容时所执行的一系列命令选项参数功能-F指定输入文件折分隔符-...

2020-04-07 22:16:45 452

原创 mac下如何配置NAT模式虚拟机外网访问

mac下如何配置NAT模式虚拟机外网访问环境：1.VMware Fusion 专业版 11.0.12.Centos 7.5 64位VMware配置虚拟机网络适配器配置查看mac网段mac终端输入ifconfig命令~ ifconfighost-only与VMnet1虚拟网卡进行通信NAT模式与VMnet8虚拟网卡进行通信修改centos7配置文件[root@lizzy...

2020-03-29 19:27:19 2503