霄嵩-CSDN博客

原创 Hadoop3.1.2安装文档

目前大数据课程中的Hadoop版本由2.9.2升级到3.1.2，Hadoop 3.1.2的集群搭建过程与2.9.2相比有些不同，其详细安装步骤如下所述。

2022-04-24 14:14:48 1861

原创 Flink源码编译

一、Flink 源码下载从官网或GitHub下载，我下载的是flink-1.9.1-src.tgz二、Flink 源码编译1、安装Maven配置一下环境变量：然后执行命令 mvn -v 可以验证是否安装成功。注意：你的 maven 的 settings.xml 文件的 mirror 添加下面这个(这样才能下载到某些下载不了的依赖)。2、编译源码执行如下命令：mvn clean...

2020-04-19 18:02:22 1378 1

原创 Flink bug记录（一）

标题@[TOC](Flink bug记录（一）)欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它...

2020-04-16 23:07:02 449

原创 Flink侧输出流（Side Output）

需求：如果温度值小于32F，就将报警信息输出到侧输出流中package com.run.wcimport org.apache.flink.streaming.api.scala.{OutputTag, StreamExecutionEnvironment}import org.apache.flink.api.scala._import org.apache.flink.streami...

2020-01-07 20:14:03 2162

原创 Flink传感器温度监控预警

需求：监控温度传感器的温度值，如果温度值在一秒钟之内(processing time)连续上升，则报警。package com.run.wcimport org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.scala.{DataSt...

2020-01-07 18:08:36 1920 1

原创 Flink实时订单统计示例

Flink实时订单统计示例/**首先实现了一个模拟的数据源，它继承自 RichParallelSourceFunction，它是可以有多个实例的 SourceFunction 的接口。它有两个方法需要实现，一个是 Run 方法，Flink 在运行时对 Source 会直接调用该方法，该方法需要不断的输出数据，从而形成初始的流。在 Run 方法的实现中，我们随机的产生商品类别和交易量的记...

2019-12-20 13:58:07 5475 1

原创 HDFS新版本的副本存放策略

今年上半年一直忙于云南省公安厅JZ大数据治理平台的项目，已经大半年没有更新技术博客了，这篇博客算是2019年的第一篇吧。关于HDFS副本存放策略，一直以来总是会听到和看到两种不同的观点。今天看了Hadoop官网上关于Hadoop2.7.6与Hadoop2.8.4的技术文档，HDFS副本存放策略其实可以分为新旧两种策略。Hadoop2.7.6及以下版本是按照旧的策略进行副本存放的，官网文...

2019-10-17 16:19:32 1236 3

原创 Spark中的共享变量

import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}/** * @author Jacky * Spark中的共享变量 * 在Spark中，只要不涉及任务的提交，那么所有的代码都在Spark程序的Driver端运行， *...

2018-12-16 18:40:03 489

原创 Spark中的自定义Partitioner分区器

import org.apache.spark.Partitionerimport scala.collection.mutable/** * @author Jacky * 自定义分区器 * 自定义类Scala_HostNamePartitioner继承Partitioner分区器这个抽象类 */class Scala_HostName...

2018-12-16 00:42:46 727

原创 Spark中的RDD持久化

import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}/** * @author Jacky * RDD持久化 */object Scala_PersistDemo { def main(args: Array[String]): Un...

2018-12-15 23:27:51 224

原创 Flink中Transformation算子（二）

package batch.BatchAPIimport org.apache.flink.api.common.operators.Orderimport org.apache.flink.api.scala.ExecutionEnvironmentimport scala.collection.mutable.ListBuffer/** * @author Jacky */...

2018-12-08 21:42:27 601

原创 Flink中Transformation算子（一）

package batch.BatchAPIimport org.apache.flink.api.common.operators.Orderimport org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}import scala.collection.mutable.ListBuffer/** * @autho...

2018-12-08 21:39:03 3238

原创 Structured Streaming——WordCount

import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{DataFrame, SparkSession}object WordCountDemo1 { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(L...

2018-11-09 21:38:40 581

原创 SparkMLlib——K-Means算法解析与Demo

/** * K-Means是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。 * 给定数据样本集Sample和应该划分的类数K，对样本数据Sample进行聚类，最终形成K个聚类。 * 其相似的度量是某条数据与中心点的“距离”。 * 这里所说的距离是欧式距离，它是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。 * 对于K-Means算法，它的执行过程可...

2018-11-03 22:53:51 538

原创 Spark MLlib——使用逻辑回归算法进行邮件分类

import org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.classification.{LogisticRegressionModel, LogisticRegressionWithSGD}import org.apache.spark.mllib.feature.HashingTFimport org.apa...

2018-08-03 23:08:53 783

原创 Spark MLlib数据类型——本地向量

import org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.Vectorsobject DataTypeDemo { def main(args: Array[String]): Unit = { /** * MLlib数据类型——本地向量 * 本地向量[Local Ve...

2018-08-03 20:43:51 761

原创基于Kafka Receiver方式的实时WordCount

import kafka.serializer.StringDecoderimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.kafka.Kaf...

2018-08-01 17:56:02 563

原创 Spark Streaming架构原理剖析图解

画了一个晚上，终于画完了，和大家一起分享一下。

2018-07-27 18:50:29 1383

原创 Spark Streaming中reduceByKeyAndWindow实例开发

package SparkStreamingTest.Scalaimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by TG. * 每隔...

2018-07-01 11:03:14 803

转载什么是元数据（元数据）？

的英文什么数据元型态任何文件系统 - 中的数据分为数据状语从句：元型态数据。数据是指普通文件中的实际数据，而元数据指用来描述一个文件的特征的系统数据，诸如访问权限，文件拥有者以及文件数据块的分布信息（索引节点的......）等等。在集群文件系统中，分布信息包括文件在磁盘上的位置以及磁盘在集群中的位置。用户需要操作一个文件必须首先得到它的元数据，才能定位到文件的位置并且得到文件的内容或相关属性。管理...

2018-06-08 14:23:24 14213

原创 Spark SQL工作原理剖析和性能优化

一、工作原理剖析： Spark SQL 架构中主要有这几个关键的组件：SqlParser(Sql分析程序) ，Analyser(分析器) ，Optimizer（优化器），SparkPlan（Spark计划） SparkSQL大致的执行流程是这样的： 1. SQL 语句经过SqlParser 完成sql 语句的语法解析功能，解析成Unresolved LogicalPlan（未解析的逻辑计划...

2018-03-11 18:25:45 772

原创某公司笔试面试题

面试题描述：实现代码如下：package Testimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable.ArrayBuffer/** * Created by TG. *//** 测试数据如下：userA locationA 8 60userA lo...

2018-03-11 11:26:32 361

原创 Spark Streaming性能调优

一、数据接收并行度调优 1、通过网络接收数据时（比如Kafka、Flume），会将数据反序列化，并存储在Spark的内存中。如果数据接收称为系统的瓶颈，那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver，该Receiver接收一个数据流。因此可以通过创建多个输入DStream，并且配置它们接收数据源不同的分区数据，达到接收多个...

2018-03-10 12:48:54 1796 1

原创 Spark性能调优一：在实际项目中分配更多资源

分配更多资源：性能调优的王道，就是增加和分配更多的资源，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升是成正比的。当完成了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要调节最优的资源配置。在这个基础之上，如果你的Spark作业能够分配的资源达到了你的能力范围的顶端之后，无法再分配更多的资源了，公司资源也有限，那么此时才去考虑做后面的那些性能调优...

2018-03-10 10:16:41 926

原创 K-Means算法-Python实现

# !/usr/bin/env python# -*-coding:utf-8-*-# Author:TGfrom numpy import *# 从文件加载数据def loadDataSet(fileName): dataMat = [] # assume last column is target value fr = open(fileName) fo...

2018-02-08 11:38:06 726

原创 K-NN近邻算法-Python实现

K-近邻算法的一般流程：（1）收集数据：比如问卷法，观察法等等。（2）准备数据：距离计算所需的数值，最好是结构化的数据格式。（3）分析数据：聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析等。（4）训练算法：在k-近邻中一般不用。（5）测试算法：计算错误率。（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后...

2018-02-08 11:31:34 848 1

原创 RDD的Lineage和Cache

RDD A---RDD B---RDD C---RDD D中，如果RDD D中的分区数据丢失，是只需要在RDD C的分区上重算，还是需要从 RDDA开始从头重新计算？答：1. 如果 A-B-C-D 他们在一个Stage中，也就是说 RDD-D 与RDD-C 依赖关系属于窄依赖，不产生Shuffle的话，RDD-D的某个分区数据将会从 RDD-C 重新计算，此时需要判断RDD

2018-01-25 17:33:42 571

原创 Scala中的注解

package Testimport java.io._/** * 注解 * Annotation是一种对程序代码进行描述的结构化信息。 * Annotation可以分布在程序的任何地方，能够注解变量、类、方法、参数等多种元素， * 它的主要功能有以下几种： * 1、自动生成scala文档 * 2、检查程序中可能出现的语法问题 * 3、规定程序行为，例如以下代码

2017-11-19 20:59:18 3226

原创 Scala中的模式匹配——Option类型中的模式匹配

/** * Option类型中的模式匹配 * Option类型有两个子类，分别是Some和None（单例对象） * None是一个case object，它同Some一样都extends Option类，只不过Some是case class， * 对于case class我们已经很熟悉了，那case object又是怎么样的呢？ * 对比反编译之后的代码可以看出，case ob

2017-11-19 18:43:31 667

原创 Scala中的样例类

/** * 样例类Case Class * Case Class一般被翻译成样例类，它是一种特殊的类，能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候，scala会帮助我们做下面几件事情： * 1、构造器中的参数如果不被声明为var的话，它默认的是val类型的，但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象，同时在里面给我们实现子

2017-11-19 18:03:19 9356

原创 Scala中的breakable

import scala.util.control.Breaks._object BreakAndContinueDemo { def main(args: Array[String]): Unit = { println("="*20+"Break Example"+"="*20) val array=Array(1,4,2,7,9,10) /** *

2017-11-18 23:26:20 7509

原创 Scala高阶函数

object TopLevelFunction { def main(args: Array[String]): Unit = { //map函数，所有集合类型都存在map函数 //Array类型 Array("spark", "scala", "hadoop", "flink").map(_ * 2).foreach(println(_)) //List类型

2017-11-18 23:24:23 293

原创 Scala——基于Akka的并发编程和分布式应用程序开发

基于Akka分布式技术开发分布式应用程序，分为两个角色：1、master作用：接收worker的注册，并将worker的注册信息保存下来；感知worker的上下线；接收worker的汇报心跳，更新worker的相关信息；定时检测超时的worker，并将超时的worker从集群中移除掉。2、worker作用：向master进行注册，加入到集群中去；定时向master汇报心跳。

2017-11-06 00:15:02 2619 1

原创 Scala隐式转换——视图界定

/** * 视图界定： T <% Person * T只能是Person的子类，或者T能隐式的转换成Person */class Person01(var name: String) { def sayHello(): Unit = { println(s"Hello,My name is $name") } def makeFriend(p: Person01

2017-11-04 16:44:56 350

原创 Scala隐式转换之隐式参数

/** * 隐式转换函数——隐式参数 */class SingPen { def write(content: String): Unit = { println(content) }}object ImplicitDemo3 { // def exam(name: String, pen: SingPen): Unit = { //被implicit修饰

2017-10-29 16:48:38 287

原创 Scala隐式转换之隐式转换函数

/** * 隐式转换是Scala中一种特殊的功能，它能将一种数据类型转换成另外一种数据类型， * 然后这种数据类型将拥有另外一种数据类型的所有方法，可以看成是对类的一种增强。 * 隐式转换分为两种： * 1.隐式转换函数 * 2.隐式转换值 * * 定义隐式转换的关键字是implicit * 隐式转换的命名方式是one2one的形式 */class Speci

2017-10-29 15:54:53 791

原创 Scala类型参数——泛型之逆变

/** * 逆变，也是Scala中一种比较特殊的功能，它也完美的解决了在Java中泛型的一大缺憾。 * 比如，Professor02是Master02的子类，那么Card[Professor02]是不是Card[Master02]的子类？ * 这个在Java中是不是的，但是在Scala中因为逆变、协变这个特色功能的存在，它就是其子类。 * 逆变其实就是泛型类下边界的加强版。

2017-10-29 15:03:33 350

原创 Scala类型参数——泛型之协变

/** * 协变，是Scala中比较有特色的功能，它完美的解决了Java中泛型的一些缺陷。 * 比如 Professor是Master的子类，那么Card[Professor]是不是Card[Master]的子类呢？ * 在Java中，很遗憾，不是！这给我们编码带来很多局限性。Scala的协变完美的解决了这一问题。 * 其实这个协变就是泛型的上边界的一种加强版。 *///大师

2017-10-29 14:39:33 479

原创 Scala Trait（四）

/** * Trait的构造机制 *///trait也有主构造代码块，不包含在任何方法中的代码就是trait的主构造器的代码trait TraitDemo04 { println("这是TraitDemo04的主构造代码块！")}trait TraitDemo04_01 extends TraitDemo04 { println("这是TraitDemo04_01的主构造

2017-10-28 23:37:50 144

原创 Scala Trait（三）

/** * 为实例对象混入trait */trait TraitDemo03 { def say: Unit = { println("hello world!") }}//一个在继承了一个父类或trait，那么这个类就拥有该类或trait的所有非私有的方法class Baby(var name: String, var age: Int)object Bab

2017-10-28 23:36:50 142

Hive数据仓库（一）

锋利的jQuery

空空如也