L凝竹-CSDN博客

原创 Flink-04 DataStream 2

窗口在Flink中数据是从开始一直流动的，只有开始没有结束，窗口就是一些数据的集合，根据窗口的划分方式可以按照时间片段来划分某一段时间内的数据划分为一个窗口，也可以按照数据条数的个数来划分，一定量的数据为一个窗口。对窗口的数据的研究有利于我们分析总结数据流。这里的窗口如果是按照时间来划分就比较像Spark Streaming中的一个微批的数据。窗口的类别滑动窗口上图中window size就是窗口大到小，window slide就是滑动步长，红色、蓝色、绿色、紫色的框分别

2021-07-07 21:38:46 261 2

原创 Flink-03 DataStream

Flink DataStream DataStream相关概念 5.1.1 ExecutionEnvironment执行环境执行环境创建方式和Flink交互需要一个入口，这个入口就是ExecutionEnvironment执行环境。在Stream API中，它的执行环境就使用StreamExecutionEnvironment来创建，里面包含了创建各种执行环境的静态方法。这里这些静态方法都可以创建执行环境，我们最常用的就是getExecutionEnvironment方法，它会根据实

2021-07-04 21:52:13 331 3

原创 Flink-02 核心架构

Flink运行架构Flink 是一个分布式系统，需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器，例如Hadoop YARN、Apache Mesos和Kubernetes，但也可以设置作为独立集群甚至库运行。客户端： Client不是运行时和程序执行的一部分，而是用于准备数据流并将其发送给 JobManager。之后，客户端可以断开连接（分离模式），或保持连接来接收进程报告（附加模式）。客户端可以作为触发执行 Java/Scala 程序的一部分运行，..

2021-07-03 11:06:22 131

原创 Flink-01 start

Flink简介Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。事件驱动及微批处理事件驱动以事件本身为触发点触发计算等动作，和Spark Streaming可以做鲜明对比，Spark Streaming就不是事件驱动，是微批应用。在Spark Streaming的观念中，流是批数据的一种微分，Spark Streaming将流数据按照时间片段微批扫描，得到的小批量结

2021-07-01 23:33:07 165 3

原创 docker-06.docker网络

1. docker容器的网络通信1.2 docker容器通信的几种方式docker给容器定义有四种网络驱动方式bridge 网桥方式，这也是默认的容器网络设置方式。host 主机同网，这种方式就是说容器用的IP就是宿主机的IP。container 这种方式允许容器直接使用另一个容器的网络空间。none 指的是不对容器做任何网络设置。1.2.1 容器与宿主机之间的通信容器与宿主...

2020-02-27 17:41:54 103

原创 docker-05.docker仓库管理

1.1 镜像仓库官方有镜像仓库hub.docker.com，这个国内用起来还是比较慢的。也可以使用镜像仓库的加速服务来加速，比如https://registry.docker-cn.comhttp://hub-mirror.c.163.comhttps://3laho3y3.mirror.aliyuncs.comhttp://f1361db2.m.daocloud.iohttps://...

2020-02-25 22:59:01 145

原创 docker-04.docker镜像-使用dockerfile构建镜像

1.1镜像的分层镜像是有分层的，这在关于docker的入门简介中有介绍，它是通过联合文件系统（union filesystem）将各层的文件叠加在一起，这样对外就会表现成一个容器。容器的启动引导，传统文件系统是通过bootfs来启动，包括bootloader和kernel，当启动完成后就会卸载以节省资源。rootfs是位于bootfs之上的...

2020-02-25 11:33:46 162

原创 docker-03.docker容器管理

1. docker常用命令详解1.1 docker infoContainers: 3 容器个数Running: 2 运行的容器个数Paused: 0 暂停的docker个数Stopped: 1 停止运行的docker个数Images: 15 镜像个数Server Version: 17.03.3-ce docker 版本Storage Driver: overlay 存储驱动...

2020-02-23 18:54:10 767

原创 docker-02.docker三剑客之一docker-compose

1. docker-composeCompose是用于定义和运行多容器Docker应用程序的工具。通过Compose，您可以使用YAML文件来配置应用程序的服务。然后，使用一个命令，就可以从配置中创建并启动所有服务。example：我们需要部署一套web应用，这个应用有个依赖就是需要安装mysql数据库服务，现在我们就需要在docker里面首先部署一个mysql服务，然后再部署这个we...

2020-02-23 17:53:47 131

原创 docker-01.简介及使用体验

1.docker简介docker是运行在pass平台的容器引擎，如果不清楚pass指的是什么，可以先了解一下云计算。1.Linux Container 是一种内核虚拟化技术，可以实现轻量级的虚拟化，也就是隔离进程。2.Docker是PAAS平台的软件是基于LXC的高级容器引擎，GO语言实现。3.Docker内的组件可以自由组装，按照规定的标准进行封装。1.1传统虚拟化和容器技术的对...

2020-02-17 15:08:51 119

原创云计算相关概念的介绍

云计算云计算（cloud computing）是分布式计算的一种，指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期，简单地说，就是简单的分布式计算，解决任务分发，并进行计算结果的合并。因而，云计算又称为网格计算。通过这项技术，可以在很短的时间内（几秒种）完成对数以万计的数据的处理，从而达到强大...

2020-02-17 11:08:50 870

原创自定义yarn应用程序

引言yarn是一款非常优秀的分布式资源管理和调度框架，我们的应用程序想要分布式运行，只要使用yarn来管理资源就会非常放心。现如今好多大型计算框架都可以运行在yarn框架上，比如天生运行在yarn上的MapReduce、优秀的内存计算引擎Spark、后起之秀Flink等都支持yarn的运行模式。那么我们自己开发的程序该如何运行在这款优秀的资源管理和调度框架呢。相关资源hadoop-yar...

2020-01-17 15:42:41 1469

原创 01.phoenix-入门

Phoenix入门1.简介Phoenix is an open source SQL skin for HBase. You use the standard JDBC APIs instead of the regular HBase client APIs to create tables, insert data, and query your HBase data.Phoenix是H...

2019-09-22 22:09:37 194

原创 Hive中分析型函数的那些骚操作

行列互转操作列转行是一列拆成多行ｉｄｎｕｍｓ１００１A,B,AC,AB,AE将上面原表的形式转换成ｉｄｎｕｍｓ１００１A１００１B１００１AＣ１００１ＡB１００１AＥ这个过程使用的是lateral view explode(split(column,’,’)) numselect a.id,num f...

2019-09-17 22:53:32 273

原创 scala的运行时反射

1. 运行时反射scala编译器会将scala代码编译成JVM字节码，编译过程中会擦除scala特有的一些类型信息，在scala-2.10以前，只能在scala中利用java的反射机制，但是通过java反射机制得到的是只是擦除后的类型信息，并不包括scala的一些特定类型信息。从scala-2.10起，scala实现了自己的反射机制，我们可以通过scala的反射机制得到scala的类型信息...

2018-06-26 23:17:25 1438

原创使用java代码来实现动态提交spark任务到集群

场景执行java代码的一个方法，这个动作触发提交spark任务到运行在yarn上的spark 集群开始Spark任务介绍执行spark读取Hive中的一个表，这个表是用Hive来管理的HBASE表。统计这个表的总记录数。具体代码如下： objectTable_count { def main(args: Array[String]): Unit = {...

2018-05-05 12:51:08 11405 4

原创大数据技术sqoop插件使用参数详解

大数据技术sqoop插件使用参数

2017-12-28 15:23:42 377

原创大数据技术sqoop插件使用简介

sqoop使用简介

2017-12-27 21:32:42 985

原创 hadoop运行环境的搭建

材料准备：装有Linux操作系统的计算机本次运行时在虚拟机中运行，在window系统的虚拟机中安装VMware软件，在VMware中安装Linux系统，本次使用的是CentOS6.8发行版本。Linux版jdk1.8安装包Linux版hadoop安装包具体搭建步骤： 1.将hadoop安装包和jdk安装包上传至Linux系统中 2.将jdk安装包解压到/opt...

2017-12-19 22:49:47 180

原创 MapperReduce入门Wordcount案例

mapperReduce入门案例

2017-12-17 16:11:37 2227

大数据日志可视化demo

这是一个基于flume采集日志kafka消息传输，使用spark将日志划分等级将日志发送到不同级别的管理人员那里，同时将日志实时传送至web页面进行展示

2018-04-04

论坛短消息小项目

这是一个使用java作为后台语言jsp作为页面做的类似论坛短消息的javaweb项目

2017-03-30

新闻发布系统

这是一个完整javaweb项目，使用的是mysql数据库，完成了新闻发布查看功能，较为全面。

2017-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人