自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 使用Hexo搭建博客系统部署到Github

1.Hexo官网地址:https://hexo.io/zh-cn/快速、简洁且高效的博客框架2.安装Git,Node.js3.安装Hexonpm install -g hexo-clihexo init <folder>cd <folder>npm install4.修改配置 _config.yml官网有详细说明,这里我就不列举了5.本地启动服务hexo g 生成静态文件hexo s 启动服务,默认端口: 40006.选取主题官网主题地址:https

2021-01-23 13:34:16 231

原创 Flink特性

Flink特性一、统一的数据处理组件栈,不仅能处理流处理,还可以用于批处理,机器学习,可以满足不同的用户的需求,对不同形式的计算进行了整合。二、支持时间时间,接入时间,处理时间等时间概念。三、基于轻量级分布式快照实现容错(checkpoint)。四、有状态计算。可以将状态存储在HDFS,内存,RockDB。五、支持高度灵活的窗口,比如:session window,滚动窗口,滑动窗口等。六、反压,当下流算子处理不过来的时候,对上层算子的消费速度进行控制。七、基于JVM实现自己的内存管理。.

2021-01-23 13:28:19 196

原创 定期删除Hive表的过期数据

定期删除Hive表的过期数据由于Hive中有很多表都是每日全量的,数据量比较大,有些是可以将过去历史分区的数据进行删除的,所以需要一个定时执行的脚本,定时删除前七天的过期数据。注:此脚本只针对分区字段为日期类型#/bin/bashtoday=$(date +%Y-%m-%d)today_timestamp=$(date -d "$today" +%s)echo "获取今天日期:$today,今日日期的时间戳:$today_timestamp"detele_day=$(date -d "7 d

2020-12-28 17:25:42 2234 3

原创 SparkStreaming任务延迟监控

SparkStreaming延迟监控​ 这篇博客来源于一个惨痛的线上事故经历,我们编写好SparkStreaming程序清洗行为数据,然后每十分钟往Hive写一次,大家都以为任务正常的运行,不会出什么问题,然而问题正在后台默默的产生了,到了第二天,所有依赖于Hive这张行为数据表的报表数据都少了很多,这是为啥呢?为什么会有这个问题?答案:数据过多,Spark Streaming调度批次积压,再加上数据倾斜,导致一个批次任务运行时间超过了原来正常运行时间的二倍,数据延迟三个小时。​ 这种事故最快的解决

2020-12-28 16:48:03 875

原创 Linux环境下安装FLink1.10.0并启动SQL-client读取Hive1.2.1的数据

Linux环境下安装FLink1.10.0并启动SQL-client读取Hive数据首先去官网下载Flink1.10.0的tgz的包,教程如上篇文章上半部分流程一样,然后配置一下FLINK_HOME/conf/sql-client-defaults.yaml:catalogs: - name: myhive #自己定个名字就行 type: hive hive-co...

2020-04-06 19:08:12 2869 4

原创 Window10安装Flink1.10.0-大坑

Window10安装Flink1.10.0基本可以确定在window10安装Flink1.10.0启动时会出问题,特别恶心,目前无法修复,现在讲一讲我的踩坑经历。首先我们去官网下载压缩包,官网下载地址:https://flink.apache.org/downloads.html一步到位地址:http://archive.apache.org/dist/flink/flink-1.10.0/...

2020-04-06 18:30:04 5856 3

原创 Flink 1.10.0 读取并插入Hive1.2.1

FLink读取+插入Hive数据入坑指南Flink1.9以上版本可以使用hivecatalog读取Hive数据,但是1.9对于Hive的版本支持不太友好,只支持2.3.4和1.2.1,笔者用的Hive版本是比较老的版本1.2.1,FLink是1.10.0,接下来说一说我在读取Hive数据和插入Hive数据期间遇到的问题。本地环境:window10,Flink:1.10.0目的:用本地电脑ID...

2020-04-01 17:26:21 2687 1

原创 Flink1.9.1写入Hbase1.1.2

这次试手Flink从kafka读数据写入hbase,遇到了很大的坑1.我的程序是用Flink 1.9.1从本地kafka读取数据,写到本地hbase,本地zookeeper和kafka服务都起好了,开始运行程序,没有报错信息,就是一直读不到kafka的数据,在kafka生产者命令窗口都输入10条了,我想怎么还没开始读数据,我也没设置时间窗口啊,见鬼了答:这种问题99%都是因为你的kafka连接...

2020-03-11 19:19:00 643

原创 元数据

1.元数据的定义:元数据是关于数据的数据,元数据打通了源数据、数据仓库、数据应用、记录了数据从产生到消费的全过程。元数据主要记录数据仓库中魔性的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。 --《大数据之路》元数据又分为技术元...

2020-03-01 20:31:26 204 3

原创 Linux crontab 定时删除服务七天前日志文件 文件名称格式: aaa.log2018_07_13_12

shell 脚本  思路: 1.获取当前时间            2.进入日志文件夹,获取日志文件            3.遍历文件把日期中的"_"改成"-",以便下边进行时间戳计算            4.时间戳计算            5.算出一周的秒数,与时间戳进行比较,大于的就是超过七天的,用if判断,进行选择性删除                注意:if语句的括号极容易出问题,...

2018-07-13 15:22:57 1304

原创 Linux 软件管理

软件包的安装和卸载Windows软件包:.exe、.msl、.setup,Windows的软件包不能安装到Linux中Linux里面安装软件,软件包是二进制的包rpm:rechat package manage/ rpm package manage源码包:包含软件代码的软件包在Linux操作系统中所有的外接存储设备,必须在挂载之后才能使用,挂载所使用的命令是mount:mount 挂载设备 挂载...

2018-06-26 18:23:17 147

原创 Linux Redhat7.4 用户管理

操作系统中一定是要有用户存在的用户一定是依赖用户组存在的1.用户及用户组管理配置文件:用户信息文件/home :存放普通用户的家目录/etc/passwd : 存放的是系统用户的信息本地系统的用户信息全都存放在/etc/passwd每一行记录了一个用户的信息,每一行由7列组成;每一列表示不同的信息,列于列之间用“:”隔开一列登录名root(username):二列密码密文x(passwd):三列用...

2018-06-23 13:32:17 4723

原创 Linux Redhat7.4 输出重定向,管道

1.输出重定向ls &gt; gouzi自动创建gouzi并将ls的输出存入gouzi(正确的流用“&gt;”覆盖,“&gt;&gt;”追加;错误的流用“2&gt;  2&gt;&gt;重定向)eg:find/ -name qwe &gt;&gt; ~/findqwe.true 2&gt;&gt; /dev/null 将根目录下正确的qwe文件输出到根目录下的findqwe.true文件下,错误的...

2018-06-22 13:13:28 306

原创 Linux系统vim编辑器

vim编辑器vi编辑器-&gt;vim编辑器(有高亮色)四大模式:命令模式、编辑模式、末行模式、可视化模式使用vim操作文件之后,默认会进入命令模式命令模式-&gt;编辑模式:i或I,o或O,a或A 如果输入i进入编辑模式的光标就在原光标的左侧,如果输入I进入编辑模式的光标就在原光标所在行的最左侧;a和i相反,A和I相反(在右侧);o就是在原光标的下一行另起一行,O就是在原光标的上一行另起一行命令...

2018-06-22 13:04:50 161

原创 Linux操作系统简介 以及简单命令

1.  Linux操作系统介绍伪终端:pts  控制台:tty  “.”当前目录 “..”上级目录软连接:等于windows的快捷方式1.1.PC机结构层次:硬件H--内核K—shell壳—app—用户user(由低到高)1.2.Shell分类:CLI只包含命令行,GUI 包含图形界面1.3.Shell行:[root@wwDesktop ~]$   root:当前shell用户;@:分隔符; ww...

2018-06-22 12:51:52 285

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除