奋斗的IT小白菜-CSDN博客

原创展望Flink各版本及新特性

在流式 SQL 查询中，一个最经常使用的是定义时间窗口。Flink 1.13 中引入了一种新的定义窗口的方式：通过 Table-valued 函数。这一方式不仅有更强的表达能力（允许用户定义新的窗口类型），并且与 SQL 标准更加一致。Flink 1.13 在新的语法中支持 TUMBLE 和 HOP 窗口，在后续版本中也会支持 SESSION 窗口。

2023-05-02 15:08:09 4180 1

原创 Flink 消费kafka 自定义KafkaDeserializationSchema

kafka中的数据通常是键值对，所以我们自定义反序列化从kafka中消费键值对的消息实现需求：读取多个topic数据进行不同处理输出，这里就需要自定义反序列化从kafka消费数据，然后分别处理。效果数据格式转换后效果：代码自定义反序列化类class LogDeserializationSchema extends KafkaDeserializationSchema[TopicBean] { // 是否最后一条数据，流是无界的 override def isEndO.

2022-02-07 23:27:53 2218 3

原创模拟生成随机数据并写入kafka

这里模拟生成登录数据和付费数据效果：代码LoginBeanimport scala.beans.BeanPropertycase class LoginBean() extends Serializable { // BeanProperty 自动加载 get set 方法 @BeanProperty var event_name : String = _ //事件名 @BeanProperty var event_time : String = _ .

2022-02-07 23:27:24 1286

原创 linux 配置ssh免密登录（实现机器互相免密登录）

准备三台机子master slave_01 slave_02三台机器执行下面命令创建无免密公钥ssh-keygen -t rsa直接几次回车完成这样会在~/.ssh文件夹下生成两个文件，id_rsa（私钥）和id_rsa.pub（公钥）2、进入.ssh目录cd ~/.ssh/3、公钥追加authorized_keys将本机公钥写入[root@master .ssh]#cat id_rsa.pub >> authorized_keys通过scp 命令将另外两台公

2021-11-13 15:00:59 3530

原创 Centos安装mysql

一安装mysql查看是否有安装mysqlyum list installed | grep mysql下载安装mysqlyum -y install mysql-community-server二 mysql配置启动mysql systemctl start mysqld.service查看MySQL运行状态，运行状态如图：systemctl status mysqld.service此时MySQL已经开始正常运行，不过要想进入MySQL还得先找出此时root用户的密码，

2021-11-12 00:27:20 887

原创 window解决hadoop路径空格JAVA_HOME is incorrectly问题

将Hadoop按照网上教程配置好之后在命令行cmd执行hadoop version时报错JAVA_HOME is incorrectlyWindows平台中经常遇包含空格的路径。在配置 hadoop-env.cmd 就碰到了该问题。这个配置文件不能正确处理路径中包含空格的情况。是因为java默认安装C:\Program Files\Java\ 这里了，但是Program Files中间有空格，所以才会出错解决方法：在环境变量设置中JAVA_HOME= 从C:\Program Files\Java\

2021-07-30 10:28:27 783

转载如何查看Spark日志与排查报错问题

一、各界面说明1.1、查看YARN页面的driver日志可以在右侧搜索框中填对应application号找到任务，然后点击对应的application号链接，如下图所示：这样会进入该application的信息界面，“FinalStatus”显示了该application的最后状态，点击下方的“logs”按钮也会进入到driver日志界面，如下图所示：对于driver日志而言，代码中的**println()和show()等函数的输出，一般都在stdout里，大部分重要的报错信息都在stderr里

2021-06-29 16:28:16 3466

原创 shell脚本限制命令执行时间，设置超时时间

1 实现思路shell脚本限制命令执行时间1 实现思路2 Shell 脚本中的0,0,0,n,∗,*,∗,#,$,,,?,−,-,−,@值是什么？3 shell脚本实现在Shell开发中会存在脚本执行出现超时的现象，需要限制命令的执行时间。这边使用的需求是scp上传文件限制上传时间，请求网络接口等等timeout 命令timeout 时间命令通过 timeout 限制命令执行时间，同时通过 $? 来获取命令是否超时执行失败$? 执行上一个指令的返回值。0表示没有错误，执行失败时返

2021-06-28 18:31:28 12008 1

原创 CDH平台yarn下发送邮件中文乱码

在windows 和linux 环境下执行程序。发送邮件都是正常。但是将程序通过yarn管理运行。使用jmail 发送邮件，邮件的中文内容乱码。首先先打印yarn 的编码 println(System.getProperty("file.encoding"))打印结果，得出yarn的编码。ANSI_X3.4-1968通过网上查资料，只需要在代码中指定。System.setProperty("mail.mime.charset","UTF-8");之后发送的邮件就正常。...

2021-05-19 15:13:34 434

原创 spark使用Calendar类循环天数执行

spark一般批处理通过指定时间段来执行，但是有需要当天计算依赖于前天计算结果，只能一天一天计算。通过脚本不断提交spark程序效率太低。于是，通过使用Java类库：Calendar类来实现import java.util.Calendarobject Test_Day { private var logger: org.slf4j.Logger = _ def main(args: Array[String]): Unit = { logger = LoggerFactor.

2021-05-07 14:57:34 391

原创 Flink任务监控（基于API接口编写shell脚本）

Flink部署模式主要分为Flink StandAlone 模式，flink-on-yarn 模式。Flink StandAlone 模式主要是通过调用

2021-04-29 15:54:17 4126 2

原创 spark使用GeoIP2离线批量将ip转换出国家

离线批量数据，频繁请求接口匹配国家，不太合适，这里使用离线库方式。离线库下载地址：https://download.csdn.net/download/qq_36470898/16103168由于需要定时任务执行，我把库上传到hdfs，并通过mapPartitions 方式匹配出国家依赖： <dependency> <groupId>com.maxmind.geoip2</groupId> <artif

2021-03-26 11:08:09 447 2

原创 linux安装NSQ及简单使用

1、下载nsq打开 https://nsq.io/deployment/installing.html 下载对应的nsq版本# 将包上传至服务器后解压tar -zxvf nsq-1.2.0.linux-amd64.go1.12.9.tar.gz#进入bin目录cd /opt/apps/nsq-1.2.0.linux-amd64.go1.12.9/bin# 打开一个终端，启动nsqlookupd ./nsqlookupd# 打开另一个终端，启动nsqd./nsqd --lookupd

2021-03-05 17:01:01 664

原创 json4解析json ——scala解析json

json4解析json ——scala解析json一、org.json4s 引入pom的方法二、Json4s 数据类型三、使用org.json4s解析json字符串3.1 解析 jsonString 中的 String 类型字段3.2 解析 jsonString 中的 Int类型字段3.3 解析单层嵌套json其他类型字段值4 多层嵌套套取单值一、org.json4s 引入pom的方法 <dependency> <groupId>org.j

2021-03-03 18:42:53 1080

原创 HDFS_FileSystem（scala）类介绍

HDFS_FileSystem（scala）类介绍导入配置文件listStatuslistFilesFileSystem api: http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.html LocatedFileStatus 是 FileStatus 的子类import org.apache.hadoop.fs.FileSystem下面就对常用方法进行举例：导入配置文件首先，创建工程到入had

2021-02-03 14:57:27 656 1

原创提交Flink Job任务：实现WordCount

上传Flink Job任务：实现WordCount一实现Job任务的Jar包1.1 修改pom.xml文件：添加依赖1.2 创建scala Object实例FlinkStream二上传Job任务运行2.1 在Linux上启动Flink服务2.2 上传jar提交任务2.3 发送数据并查看效果一实现Job任务的Jar包1.1 修改pom.xml文件：添加依赖pom.xml<!- 根据自己使用的scala与flink的版本修改版本号 -> <dependency>

2021-01-18 23:09:51 783

原创 spark解析嵌套JSON数组

spark解析嵌套JSON数组一数据示例二拆分数据三拆分嵌套子json一数据示例数据是带有时间戳的json数组数据格式： xxx|[{},{}]1610352196000|[{"cp_game_id":1658,"category":"cp_api","event":{"event_time":1610348596000,"event_name":"dungeon_flow"},"data":{"role_name":"xiaohao","role_vip":10,"dungeon_ty

2021-01-11 18:30:59 2205

原创解决nginx有return时请求体$request_body为空

首先看了一些文章，request_body为空是因为nginx 尚未读取请求体的时候，或者请求体有一部分或者全部缓冲到临时文件的时候，$request_body 和 $echo_request_body 都将是空值。所以需要增加配置处理办法在nginx.conf配置文件中添加了两个配置项：fastcgi_buffers 32 8k; #指定本地需要用多少和多大的缓冲区来缓冲FastCGI的应答 client_body_buffer_size 1024k; #缓冲区代理缓冲用户端请求的

2020-12-21 18:57:49 4387

原创 Hbase和redis、hive、mysql比较

Hbase-mysqlHbasemysql数据库NoSQL数据库关系型数据库存储列行数据量大小结果操作非结构式数据跟结构化的数据,插入修改查询一些简单操作结构化的数据复杂操作Hbase-redisHbaseredis读写性Hbase写快读慢，通常几毫秒redis读取时长通常几十微秒数据类型HBase和Redis都支持KV类型Redis 除了KV类型,还支持List、Set等更丰富的类型数据量大Re

2020-12-15 14:13:01 692

原创本地IDEA连接服务器hive连接不上出现org.apache.hadoop.hdfs.BlockReaderFactory - I/O error constructing remote block

在idea中运行SparkSQL，要连接服务器部署的Hive出现下面问题 WARN Executor task launch worker for task 0 org.apache.hadoop.hdfs.BlockReaderFactory - I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information原因：客户端创建文件先访问

2020-11-17 14:38:06 3694

原创 hive本地模式安装及简单案例

hive本地模式安装及简单案例一、hive介绍1.1 hive安装地址1.2 hive安装模式介绍二、hive安装配置2.1 hive解压安装2.2 添加环境变量2.3 hive常见属性配置一、hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1.1 hive安装地址1．Hive官网地址http://hive.apache.org/2．文档查看地址https://cwiki.apa

2020-11-10 00:05:31 677

原创 flume和kafka整合——采集实时日志落地到hdfs

flume和kafka整合——采集实时日志落地到hdfs一、采用架构二、前期准备2.1 虚拟机配置2.2 启动hadoop集群2.3 启动zookeeper集群，kafka集群三、编写配置文件3.1 slave1创建flume-kafka.conf3.2 slave3 创建kafka-flume.conf3.3 创建kafka的topic3.4 启动flume配置测试一、采用架构flume 采用架构exec-source + memory-channel + kafka-sinkkafka-so

2020-10-25 16:50:41 1756

原创 Flume日志采集多级Agent聚合

Flume日志采集多级AgentFlume Agent聚合介绍案例：模拟多Agent的日志采集Flume Agent聚合介绍这种模式是我们最常见的，也非常实用，日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume上传到hdfs、hive、hbase等，进行日志分析。案例：模拟多Agent的日志采集假设有三台组机，s

2020-10-11 23:39:28 489

原创 flume监听文件追加内容并上传到HDFS

flume监听文件追加内容并上传到HDFS一、监听单个日志文件1.1 需求1.2 准备工作1.3 编写配置文件1.4 运行flume一、监听单个日志文件1.1 需求监控test.log日志文件，将日志文件追加的内容上传到hdfs1.2 准备工作Flume要想将数据输出到HDFS，必须持有Hadoop相关jar包，将对应jar复制到 /flume/lib 文件夹下这里使用hadoop版本：hadoop-2.7.6##需要的Jarhadoop-common-2.7.6.jarcommons-c

2020-10-08 18:29:59 823 2

原创 Hadoop-2.7.6 集群部署搭建

Hadoop-2.7.6 集群部署搭建一、前期准备1.1 安装JDK并配置环境变量1.2 虚拟机配置一、前期准备1.1 安装JDK并配置环境变量vim /etc/profile#JAVA环境变量export JAVA_HOME=/home/iot/jzz/jdk1.8.0_231export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexport PATH=$JAVA_

2020-10-04 16:26:10 796 1

原创 Ubuntu下ssh通过主机名与别的主机通信

有时我们想通过ssh命令通过主机名登录到别的主机,，这是只要修改/etc/hosts前面是IP，后面是主机名vim /etc/hosts效果如下：

2020-10-03 19:42:51 486

原创 MySQL每天定时12点弹出黑窗口

电脑运行时，突然弹出一个MySQLInstallerConsole.exe黑窗口，上面显示的内容如下:解决办法：这是因为存在Windows计划服务，将其关闭就好了。windows系统在控制面板 > 系统安全 > 管理工具 > 任务计划程序 > ，把mysql的定时任务计划取消。在任务计划库找到相应任务，结束并删除该任务，也可以禁用防止以后再启动。...

2020-05-17 21:15:29 14252 3

原创 Logrotate实现每小时切割日志文件

Logrotate实现每小时切割日志文件一、Logrotate背景介绍1.1 安装一、Logrotate背景介绍logrotate 程序是一个日志文件管理工具。用来把旧的日志文件删除，并创建新的日志文件，我们把它叫做“转储”。我们可以根据日志文件的大小，也可以根据其天数来转储，这个过程一般通过crontab 定时任务。1.1 安装一般在服务器初始化的时候这些工具都已经存在的，但是为了保险，...

2020-05-09 18:05:53 4390

原创安装和卸载OpenResty

安装和卸载OpenResty一、OpenResty简介二、OpenResty安装2.1 OpenResty下载2.2 解压安装OpenResty三、OpenResty卸载一、OpenResty简介OpenResty是一个全功能的 Web 应用服务器。它打包了标准的 Nginx 核心，常用的第三方模块以及大多数依赖项。可以把它看成是Nginx附加众多的第三方插件的合集。其主体是嵌入lua脚本的...

2020-04-15 20:51:42 7078 6

原创 Idea实现将类打包成jar并在Linux上运行

1.首先我们在File中打开Project Structure这个按键2.之后选择Artifacts选项，选择+这个选项，点击JAR，之后选择From modules with dependencied选项3.选择Main Class选项后面的选择项，选择一个主类之后点击Apply之后点击OK就行。4.选择Build按钮，之后创建Build Artifacts选项5.此处选择bu...

2020-04-15 15:55:48 1774

原创 Spark使用SparkSession读写数据库

一、SparkSession与SparkContext首先介绍一下sparkCsss

2020-04-13 00:12:23 4469

转载 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

敲黑板，引入的依赖一定要 “compile” 或则 “runtime”，否则spark conf 无法初始化，这辈子也运行不了，千万不要是 “provided". <dependency> <groupId>org.apache.spark</groupId> <artifactId&gt...

2020-03-22 17:44:27 510

转载 SSH登录Linux Centos7好慢解决办法

问题：使用ssh登陆 centos，特别的慢，等至少几十秒才登陆进去。解决办法：修改 /etc/ssh/sshd_config 配置，将 useDNS 的值设置为 no ，如果文件中没有，则末尾加入一段useDNS no 即可。//需要有root修改权限vi /etc/ssh/sshd_config再执行重启 sshd，命令 systemctl restart sshd...

2020-03-05 14:18:31 575

原创 redis的安装和使用（windows环境和Ubuntu环境安装）（详细版）

什么是RedisRedis：Remote Dictionary Server(远程字典服务器)。是完全开源免费的，用C语言编写的，遵守BSD协议，是一个高性能的（key/value）分布式内存数据库，基于内存运行并支持持久化的NoSQL数据库，是当前最热门的NoSQL数据库之一，也被人们称为数据结构服务器。redis的官网： http://redis.io/redis中文版： h...

2020-03-03 12:10:50 221

原创 Kafka监控系统Kafka Eagle安装和使用

一、下载安装Kafka Eagle监控系统是一款用来监控Kafka集群的工具，支持管理多个Kafka集群、管理Kafka主题（包含查看、删除、创建等）、消费者组合消费者实例监控、消息阻塞告警、Kafka集群健康状态查看等。1.1 下载安装包http://download.smartloli.org/...

2020-02-28 17:14:30 530

原创 java调用kafka的API生产者和消费者

一、 Producer API1.1消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中，涉及到了两个线程——main 线程和 Sender 线程，以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator，Sender 线程不断从 RecordAccumulator 中拉取消息发送...

2020-02-27 19:25:52 425

原创 Kafka入门集群部署

一、Kafka 概述Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。二、消息队列的两种模式（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。消息被消费以后，queue 中不再有存储，所以消息消费者不可能消费到已经被消费的...

2020-02-26 12:42:02 323

转载史上最全的Maven Pom文件标签详解

史上最全的Maven Pom文件标签详解<span style="padding:0px; margin:0px"><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaL...

2020-02-25 21:54:15 152

原创 Zookeeper集群部署

一. 服务器环境准备我们这次准备了3台主机来完成。分别是slave1，slave2，slave3zookeeper的集群中的机器数量最好应该是奇数个，因为需要过半存活集群才能工作，所以偶数个机器提供的集群可靠性其实和偶数-1个机器提供的集群可靠性是一样的。之前也有在Zookeeper原理介绍进行介绍。二．集群配置前面ZooKeeper入门教程也完成基本入门安装测试，这次在前面的基础上完成集...

2020-02-25 21:47:37 297

转载 Zookeeper原理介绍

一、概述Zookeeper是一个工具，可以实现集群中的分布式协调服务。所谓的分布式协调服务，就是在集群的节点中进行可靠的消息传递，来协调集群的工作。Zookeeper之所以能够实现分布式协调服务，靠的就是它能够保证分布式数据一致性。所谓的分布式数据一致性，指的就是可以在集群中保证数据传递的一致。Zookeeper能够提供的分布式协调服务包括：数据发布订阅、负载均衡、命名服务、分布式协调/...

2020-02-25 21:17:25 259

GeoLite2-City_2021-02-04.mmdb.rar

Git常用指令.html

jar包文件查看工具

空空如也