Hertz---CSDN博客

原创 Flink1.11baocuoNo operators defined in streaming topology

Flink1.11 任务报错：No operators defined in streaming topology解决：可以看看你的代码结构是不是以下这种 val bsEnv = StreamExecutionEnvironment.getExecutionEnvironment val bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build val tableE

2020-09-25 11:40:24 490 1

原创解决Flink中could not find implicit value for evidence parameter of type报错

出现问题Error:(23, 41) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation[String]解决办法加入隐士转换import org.apache.flink.api.scala._如加入后依旧报错，请检查idea中运行环境的scala版本与maven导入的版本是否相同。...

2020-09-07 16:35:06 848

原创数据仓库设计——维度建模

数据仓库设计——维度建模1、维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall 所倡导，他的《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。维度建模是专门应用于分析型数据库，数据仓库，数据集市建模的方法。数据集市可以...

2020-03-04 16:48:48 384

原创 Kafka架构

Kafka架构1、介绍kafka是最初由linkedin公司开发的，使用scala语言编写，kafka是一个分布式，分区的，多副本的，多订阅者的日志系统（分布式MQ系统），可以用于搜索日志，监控日志，访问日志等特点：可靠性、可扩展性、耐用性、性能好、速度快主要应用场景指标分析、日志聚合解决办法、流式处理2、架构Kafka：Kafka Server 【Broker节点】，一台机器...

2020-02-28 15:34:13 377

原创 HBase底层原理

HBase底层原理1、系统架构Client1 包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如regione的位置信息。Zookeeper1 保证任何时候，集群中只有一个master2 存贮所有Region的寻址入口3 实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master4 存储Hba...

2020-02-28 15:18:23 353

原创 HBase介绍及使用

HBase介绍及使用1、介绍hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。2、与RDBMS的区别1. RDBMS结构：数据库以表的形式存在支持FAT、NTFS、EXT、文件系统使用Commit log存储日志参考系统是坐标系统使用主键（PK）支持分区使用行、列、单元格功能：支...

2020-02-28 14:51:00 271

原创 Yarn运行流程

Yarn运行流程1）yarn客户端向resourcemanager请求运行MR程序2）RM检查是否具有执行的权限，有则返回job_id和提交资源的路径3）RM将该应用程序的资源路径返回给客户端4）该程序将资源提交（job.submit()）到HDFS上（/tmp/hadoop-yarn/job_id）（jar包，逻辑规划切片，配置信息）5）向RM申请资源运行MRAppMaster6）...

2020-02-27 20:13:41 429

原创 MapReduce处理流程

MapReduce处理流程1）把输出目录下文件按照一定的标准进行逻辑切片，形成切片规划默认为，split size=Block size=128M。每一个切片由一个MapTask处理2）TextInputFormat对切片中的数据进行一行一行的读取，把每一行文本内容解析成键值对。key是每一行的起始位置，value是本行的文本内容3）调用map方法，并将mapper结果输出到...

2020-02-27 20:07:23 887

原创 HDFS基本原理

HDFS基本原理1、NameNode概述是HDFS的核心也成为了Master仅存储HDFS的元数据：文件系统中所有文件的目录树，并跟踪整个集群中的文件不存储实际数据或数据集。数据本身实际存储在DataNodes中知道HDFS中任何给定文件的块列表及其位置。使用此信息Namenode知道如何从块中构建文件并不持久化存储每个文件中各个块所在的DataNode的位置信息，这些信息会在系统...

2020-02-27 17:39:10 335

转载 Bigtable: A Distributed Storage System for Structured Data (译)

Bigtable: A Distributed Storage System for Structured Data (译)转载请注明：http://duanple.blog.163.com/blog/static/709717672010961173782/作者 phylips@bmy摘要Bigtable是设计用来管理那些可能达到很大大小(比如可能是存储在数千台服务器上的数PB的数据)的...

2020-02-27 16:46:33 871

转载 MapReduce: Simplied Data Processing on Large Clusters (译)

MapReduce: Simplied Data Processing on Large Clusters (译)摘要：MapReduce是一个编程模型以及用来处理和生成大数据集的一个相关实现。用户通过描述一个map函数，处理一组key/value对进而生成一组key/value对的中间结果，然后描述一个reduce函数，将具有相同key的中间结果进行归并。正如论文所表明的，很多现实世界中的任...

2020-02-27 16:45:15 168

转载 GFS：google文件系统 (译)

GFS：google文件系统 (译)摘要我们设计实现了google文件系统，一个面向大规模分布式数据密集性应用的可扩展分布式文件系统。它运行在廉价的商品化硬件上提供容错功能，为大量的客户端提供高的整体性能。尽管与现有的分布式文件系统具有很多相同的目标，我们的设计更多的来源于对于我们的具体应用的负载类型以及当前甚至未来技术环境的观察，这就使得它与早期的文件系统表现出明显的不同。这也使得我们重新...

2020-02-27 16:41:57 235

原创 Zookeeper介绍以及使用

Zookeeper介绍以及使用1、介绍Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。Zookeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。2、特性全局数据...

2020-02-27 16:18:38 162

原创 Scala学习

scala学习一、基础1、scala简介scala是运行在 JVM 上的多范式编程语言，同时支持面向对象编程和面向函数式编程2、安装scala程序运行依赖于java类库，必须要有java运行环境解压scala压缩包配置环境变量打开控制台，输出scala -version 测试3、声明变量语法格式：val/var 变量标识:变量类型 = 初始值val 定义的是不可重新赋值的...

2020-02-26 19:52:45 265

原创 Sqoop介绍、安装及使用

Sqoop介绍、安装及使用1、介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具实质：是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制2、安装前提：具备java和Hadoop环境在官网下载对应压缩包：sqoop解压后，修改配置文件:cd sq...

2020-02-25 23:05:28 153

原创 Flume介绍，安装及其使用

Flume介绍，安装及其使用1、概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量采集、聚合和传输的软件。2、组件介绍Flume中核心的角色agent，agent本身是一个Java进程，一般运行在日志收集节点。Source：采集源，用于跟数据源对接，以获取数据Sink：下沉地，采集数据的传送目的，用于往下一级agent传递数据或者往最终存储系统传递数据C...

2020-02-25 16:28:07 239

原创 Kafka的JavaAPI操作

Kafka的JavaAPI操作官网代码参考：生产者：生产者消费者：消费者生产者代码：public class Producer {public static void main(String[] args) { //创建与kakfa的连接 Properties props = new Properties(); //broker的地址 ...

2020-02-25 00:06:16 304

原创启动Hive失败:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException

第一次启动Hive失败:报异常:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.h...

2019-09-10 19:59:56 9441

原创 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Nativ...

2019-08-23 21:36:27 5985 12

原创错误: 找不到或无法加载主类 org.apache.hadoop.hdfs.server.namenode.NameNode 问题解决

*错误: 找不到或无法加载主类 org.apache.hadoop.hdfs.server.namenode.NameNode 问题解决在hadoop3的初始化时，出现了org.apache.hadoop.hdfs.server.namenode.NameNode这个错误用了很多方法都没有解决，后来发现hadoop-3.1.2.tar.gz是由jdk1.8编的，而我用的jdk1.7，果...

2019-08-11 18:07:31 2286

qq_45094921的博客