自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (4)
  • 收藏
  • 关注

原创 TF-IDF

文章目录一、TF-IDF1、TF-IDF是什么?提示:以下是本篇文章正文内容,下面案例可供参考一、TF-IDF1、TF-IDF是什么?TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)DF(t,D)包含词语t的文档数量|D|文档数IDF意思是逆文本频率指数(Inverse Document Frequency)显然,|D|比上DF(t,D)越大表示该词语越能代表该文档,当每个文档中都有该词语时,那么取对数时为0,为了防止分母为0,因

2021-06-12 16:13:59 183 2

原创 Input DStream和Receivers

文章目录前言一、要点二、基本源1.文件流总结前言每一个DStream都和一个一个Receiver 对象有关,Receiver从一个源接收到数据,然后存储在spark的内存中进行处理。spark提供了两类的内置流源基础源:直接在StreamingContext可用的源。高级源:例如KafKa 等一、要点在本地运行Spark流程序时,不要使用“local”或“local[1]”作为主URL。这意味着只有一个线程将用于在本地运行任务。如果使用的是基于receiver的输入数据流(如sock

2021-06-08 19:20:30 143

原创 spark编程指导

文章目录前言一、离散流(DStream)前言本文主要按照官方教程理解了spark离散化数据流一、离散流(DStream)DStream 是spark 流提供的基本抽象。表示一系列连续的数据流,可以从源文件获得,也可以从输入流转换得到。DStream是由连续的RDD表示。每个RDD包含来自某个间隔的数据。应用于数据流的任何操作都被转换为底层RDD上的操作。对每行DStream中的每个RDD应用flatMap操作以生成字DStream的RDD。...

2021-06-07 20:46:59 99 2

原创 spark 时间窗口操作

文章目录一、基于事件时间的窗口操作二、处理延迟数据和水印三、清除聚合状态的水印条件四、基于水印的聚合语义保证总结一、基于事件时间的窗口操作窗口在10分钟分组聚合,每5分钟触发一次结果表,如上图,数据在12:00-12:05来临,在12:05会进行结果统计。数据在12:05-12:10到达时,不但要统计12:00-12:10的数据,还需要统计12:05-12:15的数据。在绿色结果表中可以清晰的看到加粗的横线将不同窗口的结果进行划分。在Java中使用如下代码进行设置Dataset<Row&.

2021-06-03 15:50:06 1527

原创 spark编程模型

文章目录前言一、基本概念前言spark 结构化流式编程指南---------------------编程模型结构化流种的关键思想是将实时数据流看作不断追加的表,非常类似于批处理模型。一、基本概念将输入数据流看作为“输入表”,每一个正在以流的形式到来的数据项像一个新行被追加再输入表上。在input上查询时将会产生结果表。新行追加到输入表时,最终会更新结果表,每当更新结果时,更新后的结果行写入外部接收器。Output被定义成向外部数据输入的。Complete mode 将数据完全写入外

2021-06-01 19:08:47 216 2

原创 Spark SQL入门

文章目录一、sparkSession二、创建数据集二、无类型数据集操作三、 以编程方式运行sql查询四、 全局临时视图五、 创建数据集五、 与RDD交互交互一、sparkSession指向所有方法的实体类是sparkSession, 使用SparkSession.build().builder()创建 SparkSession session = SparkSession.builder() .appName("Java Spark SQL basic example").config("spa.

2021-05-28 22:35:11 145

原创 RDD共享数据集

文章目录前言一、共享变量二、部署集群三、单元测试前言共享数据集部署集群单元测试一、共享变量在远程节点上执行spark方法时,会拷贝该方法的单独副本。远程节点上的数据更新不会回传到driver程序。spark提供了两种共享数据变量:broadcast(广播)和accumulators(累加器)。广播变量broadcast变量允许程序在节点保存一个可读的缓存。比如可以缓存一个数据集,并且spark选择以一种高效的广播算法来广播broadcast变量。spark操作分为一系列阶段,这.

2021-05-27 22:22:37 125

原创 Java内部类

文章目录前言一、代码详情及解释总结前言Java内部类详解一、代码详情及解释package cuc.edu.com.interview;import java.util.Scanner;/** * @Author jayzh * @Date 2021/5/12 6:32 下午 * @Version 1.0 */public class Test { private int c = 1; private int a =2; public Test() {.

2021-05-26 21:57:07 49

原创 spark弹性分布式数据集编程

文章目录RDD概述一、初始化spark1. 导包2. 初始化代码二、弹性化分布式数据集1.并行化数据集2. 对数据进行操作三、 Spark's Java API 支持的数据格式三、 RDD操作四 、spark传递方法RDD概述RDD弹性分布式数据集(resilient distributed dataset)不可变的分布式对象集合每个RDD可被分为多个分区,这些分区运行在不同节点RDD 可以由Hadoop文件系统(其他分布式文件系统)或者驱动程序中现有的Scala集合,其他RDD集合转换创建

2021-05-25 15:35:36 156

原创 spark开发环境搭建

spark开发环境搭建提示:spark官方系列教程文章目录spark开发环境搭建前言一、IDEA搭建Maven工程二、新建 SimpleApp类1.复制代码2.设置JVM运行参数总结前言本篇内容主要按照spark官方教程,搭建Java版的spark开发教程,该例子主要是为了统计含有“a”的行数,和含有“b”的行数。提示:以下是本篇文章正文内容,下面案例可供参考一、IDEA搭建Maven工程IDEA搭建maven工程,在pom文件中导入依赖。 <dependencies>

2021-05-22 20:57:47 101

获取100多种英文外刊 & 20多种中文杂志持续快速更新的方法!!!

获取100多种英文外刊 & 20多种中文杂志持续快速更新的方法!!!

2018-10-18

1. 猫和老鼠都有名字和体重两种属性,猫有抓老鼠的方法,对应的老鼠则有逃跑的方法

1. 猫和老鼠都有名字和体重两种属性,猫有抓老鼠的方法,对应的老鼠则有逃跑的方法。 2. 猫抓住了老鼠或者老鼠逃跑了,对于这两种情况,我们用体重、技能和速度来区分,若猫的体重、技能和速度大于或等于老鼠的体重、技能和速度,则猫可实现抓住老鼠的方法,若猫的体重、技能和速度小于老鼠的体重和速度,则老鼠实现了逃跑的方法。 3. 猫和老鼠都有技能提高功能,猫每次抓老鼠成功之后,技能加1,失败则技能减1。老鼠逃跑成功,则技能加1。

2018-10-18

校园网路由器破解教程

用于锐捷校园网路由器的破解,可以完美适用学校校园网安装路由器。里边包含了普通路由器的刷机固件和教程。

2018-08-10

Java web轻量级整合开发 课后习题答案

清华大学出版社 Java web轻量级整合开发 Struts 2+Hibernate 4+Spring 3

2018-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除