自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大唐帝国—前营

专注大数据技术研发、产品研发、项目管理

  • 博客(116)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hadoop3.1.2安装文档

目前大数据课程中的Hadoop版本由2.9.2升级到3.1.2,Hadoop 3.1.2的集群搭建过程与2.9.2相比有些不同,其详细安装步骤如下所述。

2022-04-24 14:14:48 1861

原创 Flink源码编译

一、Flink 源码下载从官网或GitHub下载,我下载的是flink-1.9.1-src.tgz二、Flink 源码编译1、安装Maven配置一下环境变量:然后执行命令 mvn -v 可以验证是否安装成功。注意:你的 maven 的 settings.xml 文件的 mirror 添加下面这个(这样才能下载到某些下载不了的依赖)。2、编译源码执行如下命令:mvn clean...

2020-04-19 18:02:22 1378 1

原创 Flink bug记录(一)

标题@[TOC](Flink bug记录(一))欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它...

2020-04-16 23:07:02 449

原创 Flink侧输出流(Side Output)

需求:如果温度值小于32F,就将报警信息输出到侧输出流中package com.run.wcimport org.apache.flink.streaming.api.scala.{OutputTag, StreamExecutionEnvironment}import org.apache.flink.api.scala._import org.apache.flink.streami...

2020-01-07 20:14:03 2162

原创 Flink传感器温度监控预警

需求:监控温度传感器的温度值,如果温度值在一秒钟之内(processing time)连续上升,则报警。package com.run.wcimport org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.scala.{DataSt...

2020-01-07 18:08:36 1920 1

原创 Flink实时订单统计示例

Flink实时订单统计示例/**首先实现了一个模拟的数据源,它继承自 RichParallelSourceFunction,它是可以有多个实例的 SourceFunction 的接口。它有两个方法需要实现,一个是 Run 方法,Flink 在运行时对 Source 会直接调用该方法,该方法需要不断的输出数据,从而形成初始的流。在 Run 方法的实现中,我们随机的产生商品类别和交易量的记...

2019-12-20 13:58:07 5475 1

原创 HDFS新版本的副本存放策略

今年上半年一直忙于云南省公安厅JZ大数据治理平台的项目,已经大半年没有更新技术博客了,这篇博客算是2019年的第一篇吧。关于HDFS副本存放策略,一直以来总是会听到和看到两种不同的观点。今天看了Hadoop官网上关于Hadoop2.7.6与Hadoop2.8.4的技术文档,HDFS副本存放策略其实可以分为新旧两种策略。Hadoop2.7.6及以下版本是按照旧的策略进行副本存放的,官网文...

2019-10-17 16:19:32 1236 3

原创 Spark中的共享变量

import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}/** * @author Jacky * Spark中的共享变量 * 在Spark中,只要不涉及任务的提交,那么所有的代码都在Spark程序的Driver端运行, *...

2018-12-16 18:40:03 489

原创 Spark中的自定义Partitioner分区器

import org.apache.spark.Partitionerimport scala.collection.mutable/** * @author Jacky * 自定义分区器 * 自定义类Scala_HostNamePartitioner继承Partitioner分区器这个抽象类 */class Scala_HostName...

2018-12-16 00:42:46 727

原创 Spark中的RDD持久化

import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}/** * @author Jacky * RDD持久化 */object Scala_PersistDemo { def main(args: Array[String]): Un...

2018-12-15 23:27:51 224

原创 Flink中Transformation算子(二)

package batch.BatchAPIimport org.apache.flink.api.common.operators.Orderimport org.apache.flink.api.scala.ExecutionEnvironmentimport scala.collection.mutable.ListBuffer/** * @author Jacky */...

2018-12-08 21:42:27 601

原创 Flink中Transformation算子(一)

package batch.BatchAPIimport org.apache.flink.api.common.operators.Orderimport org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}import scala.collection.mutable.ListBuffer/** * @autho...

2018-12-08 21:39:03 3238

原创 Structured Streaming——WordCount

import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{DataFrame, SparkSession}object WordCountDemo1 { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(L...

2018-11-09 21:38:40 581

原创 SparkMLlib——K-Means算法解析与Demo

/** * K-Means是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。 * 给定数据样本集Sample和应该划分的类数K,对样本数据Sample进行聚类,最终形成K个聚类。 * 其相似的度量是某条数据与中心点的“距离”。 * 这里所说的距离是欧式距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。 * 对于K-Means算法,它的执行过程可...

2018-11-03 22:53:51 538

原创 Spark MLlib——使用逻辑回归算法进行邮件分类

import org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.classification.{LogisticRegressionModel, LogisticRegressionWithSGD}import org.apache.spark.mllib.feature.HashingTFimport org.apa...

2018-08-03 23:08:53 783

原创 Spark MLlib数据类型——本地向量

import org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.Vectorsobject DataTypeDemo { def main(args: Array[String]): Unit = { /** * MLlib数据类型——本地向量 * 本地向量[Local Ve...

2018-08-03 20:43:51 761

原创 基于Kafka Receiver方式的实时WordCount

import kafka.serializer.StringDecoderimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.kafka.Kaf...

2018-08-01 17:56:02 563

原创 Spark Streaming架构原理剖析图解

画了一个晚上,终于画完了,和大家一起分享一下。

2018-07-27 18:50:29 1383

原创 Spark Streaming中reduceByKeyAndWindow实例开发

package SparkStreamingTest.Scalaimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by TG. * 每隔...

2018-07-01 11:03:14 803

转载 什么是元数据(元数据)?

的英文什么数据元型态任何文件系统 - 中的数据分为数据状语从句:元型态数据。数据是指普通文件中的实际数据,而元数据指用来描述一个文件的特征的系统数据,诸如访问权限,文件拥有者以及文件数据块的分布信息(索引节点的......)等等。在集群文件系统中,分布信息包括文件在磁盘上的位置以及磁盘在集群中的位置。用户需要操作一个文件必须首先得到它的元数据,才能定位到文件的位置并且得到文件的内容或相关属性。管理...

2018-06-08 14:23:24 14213

原创 Spark SQL工作原理剖析和性能优化

一、工作原理剖析: Spark SQL 架构中主要有这几个关键的组件:SqlParser(Sql分析程序) ,Analyser(分析器) ,Optimizer(优化器) ,SparkPlan(Spark计划) SparkSQL大致的执行流程是这样的: 1. SQL 语句经过SqlParser 完成sql 语句的语法解析功能,解析成Unresolved LogicalPlan(未解析的逻辑计划...

2018-03-11 18:25:45 772

原创 某公司笔试面试题

面试题描述: 实现代码如下:package Testimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable.ArrayBuffer/** * Created by TG. *//** 测试数据如下:userA locationA 8 60userA lo...

2018-03-11 11:26:32 361

原创 Spark Streaming性能调优

一、 数据接收并行度调优 1、通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据流。因此可以通过创建多个输入DStream,并且配置它们接收数据源不同的分区数据,达到接收多个...

2018-03-10 12:48:54 1796 1

原创 Spark性能调优一:在实际项目中分配更多资源

分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升是成正比的。当完成了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,就是要调节最优的资源配置。在这个基础之上,如果你的Spark作业能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源也有限,那么此时才去考虑做后面的那些性能调优...

2018-03-10 10:16:41 926

原创 K-Means算法-Python实现

# !/usr/bin/env python# -*-coding:utf-8-*-# Author:TGfrom numpy import *# 从文件加载数据def loadDataSet(fileName): dataMat = [] # assume last column is target value fr = open(fileName) fo...

2018-02-08 11:38:06 726

原创 K-NN近邻算法-Python实现

K-近邻算法的一般流程: (1)收集数据:比如问卷法,观察法等等。 (2)准备数据:距离计算所需的数值,最好是结构化的数据格式。 (3)分析数据:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析等。 (4)训练算法:在k-近邻中一般不用。 (5)测试算法:计算错误率。 (6)使用算法:首先需要输入样本数据和结构化的输出结果,然后...

2018-02-08 11:31:34 848 1

原创 RDD的Lineage和Cache

RDD A---RDD B---RDD C---RDD D中,如果RDD D中的分区数据丢失,是只需要在RDD C的分区上重算,还是需要从 RDDA开始从头重新计算?答:1. 如果 A-B-C-D 他们在一个Stage中,也就是说 RDD-D 与RDD-C 依赖关系属于 窄依赖,不产生Shuffle的话,RDD-D的某个分区数据 将会从 RDD-C 重新计算,此时需要判断RDD

2018-01-25 17:33:42 571

原创 Scala中的注解

package Testimport java.io._/** * 注解 * Annotation是一种对程序代码进行描述的结构化信息。 * Annotation可以分布在程序的任何地方,能够注解变量、类、方法、参数等多种元素, * 它的主要功能有以下几种: * 1、自动生成scala文档 * 2、检查程序中可能出现的语法问题 * 3、规定程序行为,例如以下代码

2017-11-19 20:59:18 3226

原创 Scala中的模式匹配——Option类型中的模式匹配

/** * Option类型中的模式匹配 * Option类型有两个子类,分别是Some和None(单例对象) * None是一个case object,它同Some一样都extends Option类,只不过Some是case class, * 对于case class我们已经很熟悉了,那case object又是怎么样的呢? * 对比反编译之后的代码可以看出,case ob

2017-11-19 18:43:31 667

原创 Scala中的样例类

/** * 样例类Case Class * Case Class一般被翻译成样例类,它是一种特殊的类,能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候,scala会帮助我们做下面几件事情: * 1、构造器中的参数如果不被声明为var的话,它默认的是val类型的,但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象,同时在里面给我们实现子

2017-11-19 18:03:19 9356

原创 Scala中的breakable

import scala.util.control.Breaks._object BreakAndContinueDemo { def main(args: Array[String]): Unit = { println("="*20+"Break Example"+"="*20) val array=Array(1,4,2,7,9,10) /** *

2017-11-18 23:26:20 7509

原创 Scala高阶函数

object TopLevelFunction { def main(args: Array[String]): Unit = { //map函数,所有集合类型都存在map函数 //Array类型 Array("spark", "scala", "hadoop", "flink").map(_ * 2).foreach(println(_)) //List类型

2017-11-18 23:24:23 293

原创 Scala——基于Akka的并发编程和分布式应用程序开发

基于Akka分布式技术开发分布式应用程序,分为两个角色:1、master作用:接收worker的注册,并将worker的注册信息保存下来;感知worker的上下线;接收worker的汇报心跳,更新worker的相关信息;定时检测超时的worker,并将超时的worker从集群中移除掉。2、worker作用:向master进行注册,加入到集群中去;定时向master汇报心跳。

2017-11-06 00:15:02 2619 1

原创 Scala隐式转换——视图界定

/** * 视图界定: T <% Person * T只能是Person的子类,或者T能隐式的转换成Person */class Person01(var name: String) { def sayHello(): Unit = { println(s"Hello,My name is $name") } def makeFriend(p: Person01

2017-11-04 16:44:56 350

原创 Scala隐式转换之隐式参数

/** * 隐式转换函数——隐式参数 */class SingPen { def write(content: String): Unit = { println(content) }}object ImplicitDemo3 { // def exam(name: String, pen: SingPen): Unit = { //被implicit修饰

2017-10-29 16:48:38 287

原创 Scala隐式转换之隐式转换函数

/** * 隐式转换是Scala中一种特殊的功能,它能将一种数据类型转换成另外一种数据类型, * 然后这种数据类型将拥有另外一种数据类型的所有方法,可以看成是对类的一种增强。 * 隐式转换分为两种: * 1.隐式转换函数 * 2.隐式转换值 * * 定义隐式转换的关键字是implicit * 隐式转换的命名方式是one2one的形式 */class Speci

2017-10-29 15:54:53 791

原创 Scala类型参数——泛型之逆变

/** * 逆变,也是Scala中一种比较特殊的功能,它也完美的解决了在Java中泛型的一大缺憾。 * 比如,Professor02是Master02的子类,那么Card[Professor02]是不是Card[Master02]的子类? * 这个在Java中是 不是的,但是在Scala中因为逆变、协变这个特色功能的存在,它就是其子类。 * 逆变其实就是泛型类下边界的加强版。

2017-10-29 15:03:33 350

原创 Scala类型参数——泛型之协变

/** * 协变,是Scala中比较有特色的功能,它完美的解决了Java中泛型的一些缺陷。 * 比如 Professor是Master的子类,那么Card[Professor]是不是Card[Master]的子类呢? * 在Java中,很遗憾,不是!这给我们编码带来很多局限性。Scala的协变完美的解决了这一问题。 * 其实这个协变就是泛型的上边界的一种加强版。 *///大师

2017-10-29 14:39:33 479

原创 Scala Trait(四)

/** * Trait的构造机制 *///trait也有主构造代码块,不包含在任何方法中的代码就是trait的主构造器的代码trait TraitDemo04 { println("这是TraitDemo04的主构造代码块!")}trait TraitDemo04_01 extends TraitDemo04 { println("这是TraitDemo04_01的主构造

2017-10-28 23:37:50 144

原创 Scala Trait(三)

/** * 为实例对象混入trait */trait TraitDemo03 { def say: Unit = { println("hello world!") }}//一个在继承了一个父类或trait,那么这个类就拥有该类或trait的所有非私有的方法class Baby(var name: String, var age: Int)object Bab

2017-10-28 23:36:50 142

Hive数据仓库(一)

Hive是hadoop领域的数据仓库。它提供了一套工具可以让我们非常方便的管理位于HDFS中的大型数据集,它提供了一套类似于SQL的查询语言,可以很容易的查询hive中的数据。Hive也有数据库、表、视图、索引、函数等概念,非常类似于我们常用的关系型数据库,因此入手非常方便。本资源是Hive授课讲义的一部分。

2016-09-25

锋利的jQuery

一本关于jQuery很经典的书,不可错过哦!

2012-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除