一只懒得睁眼的猫-CSDN博客

原创 Join中on条件是null的问题讨论

MySQL [dbs]> select * from test1; +----+--------+---------+| id | stu_id | stu_age |+----+--------+---------+| 1 | 1 | 25 || 2 | 1 | NULL |+----+--------+---------+2 rows in set (0.00 sec)MySQL [dbs]> select

2020-06-24 00:00:07 2520 1

原创 Hadoop伪分布安装详解+MapReduce运行原理+基于MapReduce的KNN算法实现

本篇博客将围绕Hadoop伪分布安装+MapReduce运行原理+基于MapReduce的KNN算法实现这三个方面进行叙述。（一）Hadoop伪分布安装1、简述Hadoop的安装模式中–伪分布模式与集群模式的区别与联系. Hadoop的安装方式有三种:本地模式,伪分布模式,集群(分布)模式,其中后两种模式为重点,有意义伪分布:如果Hadoop对应的Java进程都运行在一个物理机器上,称为伪

2016-06-15 16:25:46 13072 22

原创 Flume架构以及应用介绍

在具体介绍本文内容之前，先给大家看一下Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。（一）Flume架构介绍 1、Flume的概念 flume是分布式的日志

2016-05-31 12:35:17 97214 33

原创深入理解python--线程、进程与协程

深入理解python--线程、进程与协程

2023-11-01 15:15:47 169

原创 Flink状态管理与恢复

Flink支持不同的重启策略，以在故障发生时控制作业如何重启，集群在启动时会伴随一个默认的重启策略，在没有定义具体重启策略时会使用该默认策略。该策略会覆盖集群的默认策略，默认的重启策略可以通过Flink的配置文件flink-conf.yaml 指定。是的，如果flink任务没有启用checkpoint，则使用无重启策略，那么当你配置了checkpoint的时候，重启策略又是怎么样的呢？后续我在用flink1.9进行测试的时候，没有看到重启的Restart的标志，但是我们可以从下面的标志看到重启的痕迹.

2023-05-27 19:57:19 1017

原创 Flink运行架构

简单来说，TaskManager会将节点上管理的资源分为不同的Slot：固定大小的资源子集。这样就避免了不同Job的Task互相竞争内存资源的问题，但是需要注意的是，Slot只会做内存的隔离，没有做CPU的隔离。KeyGroupStreamPartitioner：Hash分区器，分区字段相同的记录信息将被发送到下游的同一个task当中进行处理，所以如果数据分布不均匀，某一个key的条数比其它key多很多，将会导致数据大量的集中到某一个task节点，造成数据倾斜。

2023-03-02 10:54:49 548

原创 Elasticsearch倒排索引详解

2022-12-24 10:56:43 2403

原创 Hive面试题系列第七题-同时在线问题

Hive面试题系列第七题-同时在线问题

2022-08-21 19:50:05 429

原创 Hive面试题系列第六题-互为好友问题

互为好友问题

2022-08-21 19:48:36 643

原创 Hive面试题系列第五题-Uv累加趋势图问题

uv累加趋势图问题

2022-08-21 19:47:26 372

原创 Hive面试题系列第四题-Pv累加趋势图问题

Hive面试题系列第四题-Pv累加趋势图问题

2022-08-21 19:45:50 247

原创 Hive面试题系列第三题-用户留存问题

Hive面试题系列第三题-用户留存问题

2022-08-21 19:44:33 607

原创 Hive面试题系列第二题-行转列问题

Hive面试题系列第二题-行转列问题

2022-08-21 19:42:51 138

原创 Hive面试题系列第一题-连续登录问题

Hive面试题系列第一题-连续登录问题

2022-08-21 19:40:17 269

原创间隔连续问题

间隔连续问题

2022-08-02 22:35:54 143

原创 Flink的安装和部署--伪分布模式

Flink的安装和部署主要分为伪分布模式和集群模式：伪分布:如果Flink对应的Java进程都运行在一个物理机器上,称为伪分布模式，如果Flink对应的Java进程运行在多台物理机器上,称为集群模式.伪分布模式就是在一台服务器上面模拟集群环境，但仅仅是机器数量少,其通信机制与运行过程与真正的集群模式是一样的.Flink伪分布模式搭建过程（flink-1.10.2-bin-scala_2.11.tgz用这个即可）flink-1.7.2-bin-hadoop27-scala_2...

2022-05-01 17:59:37 522

原创 Flink的安装和部署--Standalone集群模式

Flink提供了多种集群模式，主要包括：Standalone和Flink on Yarn两种方式，Standalone是Flink的独立部署模式，它不依赖其他平台，如果想搭建一套独立的Flink集群，可以考虑使用这种模式。具体安装步骤（主节点）（flink-1.10.2-bin-scala_2.11.tgz用这个即可）flink-1.7.2-bin-hadoop27-scala_2.11.tgz 百度云地址：链接：百度网盘请输入提取码提取码：xh10官网地址：In...

2022-03-16 10:00:51 551

原创 ES单机版安装步骤详解

本篇博客的主要目的是介绍ES单机版的安装方式。elasticsearch-5.4.3.tar.gz 百度云地址链接：https://pan.baidu.com/s/1z9yA2Ai34ZqiteMMifgx-A 提取码：y2zn官网地址：https://www.elastic.co/cn/downloads/?elektra=home&storm=heroa. tar开文件到指定的目录下面（创建软连接）tar -zxvf elasticsearch-5.4.3.tar.gz -C.

2022-02-26 16:01:01 1793

原创 Spark on yarn

参考博客：https://www.cnblogs.com/lemonu/p/13540201.htmlhttps://blog.csdn.net/huojiao2006/article/details/80563112Spark可以和Yarn整合，将Application提交到Yarn上运行，Yarn也有两种提交任务的方式。yarn-client提交任务方式配置方式：在client节点配置中spark-env.sh添加Hadoop_CONF_DIR的配置目录即可提交yarn 任务（或者在/e

2021-10-03 11:47:41 265

原创 hive安装步骤详解

hive没有集群，只是一个client工具。只需要安装在一台主机上.软件下载的地址：mysql下载安装方式地址：链接：https://pan.baidu.com/s/1ddxqAzeTDs623xOr27ZeJw 提取码：isd1hive下载地址：链接：https://pan.baidu.com/s/1bqARkuC2DGiQcswmuLVUxA 提取码：r8f0基础安装步骤a. tar开文件到指定的目录下面tar -zxvf apache-hive-2.1.1-bin.tar.gz -

2021-08-08 14:29:35 317

原创 scala入门介绍

2020年4月14日20:17:43参考官方文档：https://docs.scala-lang.org/getting-started/intellij-track/getting-started-with-scala-in-intellij.html IntelliJ是Scala开发人员最常用的IDE。在本教程中，我们将引导您完成使用Scala插件下载和设置IntelliJ的过程，并开始您的第一个Scala项目，以及单元测试！（1）Installation（安装）第一：确保你具有Java

2021-06-29 10:28:36 140

原创 IK分词器应用

本篇博客的主要目的是介绍IK分词器与ES的集成使用.IK分词器简介IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。IK分词器3.0的特性如下：1）采用了特有的“正

2021-06-05 17:02:30 556

原创 Hive 正则匹配函数 regexp_extract和 regexp_replace和rlike

介绍一下主要的功能函数.参考：https://www.jianshu.com/p/3bcc06b1294bregexp_extract相当于python当中的re.search：遍历匹配，仅可以获取到字符串当中第一个满足匹配条件的字符串然后返回，如果没有匹配到字符串，则返回空串（re是None）.group() :不管有没有分组将匹配到的结果全部拿出来，等价于group（0），返回类型为字符串，group(1):只获取第一个分组部分的结果，group(2):只获取第一个分组部分的结果.hi

2021-04-21 07:40:09 4010

原创 HIVE自定义函数--UDF函数（用户自定义函数）详解

虽然HIVE当中的函数功能很强大，但是有的时候我们需要自定义函数，今天我们介绍一个最简单的函数，UDF函数. 当Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）.UDF：给参数计算出一个结果.参考博客：https://www.cnblogs.com/jifengblog/p/9278972.html直接进入正题，主要步骤：回到顶部UDF函数创建步骤（1）新建Java Maven项目，添加依赖123

2021-02-05 22:59:07 1587

原创 Flink中增量聚合函数和全量聚合函数的关系

在上一篇博客当中，我们对Window的整体分类即使用进行了介绍，今天我们将从另外一个角度对Window进行分类，这个角度就是聚合角度。Window的聚合操作分为2种：一种是增量聚合，另外一种是全量聚合，增量聚合是指窗口内每进入一条数据就计算一次，而全量聚合是指在窗口被触发的时候才会对窗口内的所有数据进行一次计算。（1）增量聚合常见的增量聚合函数有：reduce(reduceFunction)、aggregate(aggregateFunction)、sum()、min()、max()。增量聚合.

2020-11-28 10:03:57 2522

原创深入理解python--线程、进程与协程（1）

（1）线程的概念线程是进程内同步执行的代码段，每个线程对应一个栈。（2）创建线程的2种方式方式1：该方式常用（通过Thread类的args参数调用线程函数）注意：线程函数传入的是元组类型，如果只有一个参数，需要加入逗号.#!/usr/bin/env python3-- coding:utf-8 --“”"author:zhang ming yang#创建线程的第一种方式.“”"from threading import Threaddef task(arg):print(arg)

2020-09-30 07:58:46 368

原创 Flink 异步I/O访问外部数据（18）

2020-07-22 23:20:44 182

原创 Flink Operators之Process Function（17）

2020-07-21 08:53:51 169

原创 Flink Operators之CoGroup和Join概述（16）

2020-07-20 08:41:24 240

原创 Flink Window概述（15）

2020-07-19 19:08:24 172

原创 Flink Time概述（14）

2020-07-19 09:51:22 164

原创 Flink Operator概述（13）

2020-07-18 19:00:37 1154

原创 Flink DataStream API概述（12）

代码：package chap;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.s...

2020-07-14 23:21:07 144

原创 Flink API 通用基本概念（11）

2020-07-12 17:26:36 184

原创 Flink Runtime（10）-- Flink编译报错集锦

后面更多错误略！！！

2020-07-08 09:25:10 458

原创 Flink Runtime（9）-- 自己编译Flink

2020-07-08 09:23:42 316

原创 Flink Runtime（8）-- 创建Flink项目及依赖管理

pom.xml示例文件：<!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copyright ownership. The ASF licenses this ...

2020-07-05 22:26:57 477

原创 Flink Runtime（7）--搭建非YARN的主从FLINK集群

启动任务：运行结果：

2020-07-05 12:04:13 305

原创 Flink Runtime（6）

2020-07-04 22:15:43 249

原创 Flink Runtime（5）

2020-07-04 20:30:52 181

flink-1.7.2-bin-hadoop27-scala_2.12.tgz

2020-07-19

flink-1.7.2-bin-hadoop27-scala_2.11.tgz

2020-07-19

jdk-8u131-windows-i586.zip

jdk-8u131-windows-i586.exe

2020-05-02

Postman-win64-6.5.2-Setup.exe.7z.zip

postman 压缩包。安装即可使用，支持在线请求

2020-05-02

scala-2.11.8.msi.zip

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

2020-05-02

plugins_2.zip

Notepad++插件集合大全

2020-05-02

大数据全套视频2018.zip

内含全套大数据视频，我也是看这个学习的，大家有什么不懂的可以相互交流！徐老师（视频中）讲的课非常好，当初学习java就是靠着它对这门语言有了深刻的认识。

2020-05-02

BookmarkSidebar(书签侧边栏插件)v1.9.0Chrome版.rar.zip

Bookmark Sidebar是款简单实用的浏览器辅助插件。它可以帮助用户打造一个精美侧边栏，里面主要用于放置你所保存的所有书签。有喜欢的用户不要错过了。

2020-05-02

oCam录屏软件.zip

cCam录屏软件是一个免安装，不占内存的电脑屏幕录制工具，非常轻量级。直接点击cCam.exe文件即可录制屏幕。非常好用。不卡顿。

2020-05-02

批量工具管理

2017-07-15

Hadoop2.0开发环境搭建

涉及到了Hadoop2.0、Hbase、Sqoop、Flume、Hive、Zookeeper的具体环境搭建

2016-07-15

Hadoop 2.2 Windows下需要的 winutils.exe

Hadoop 2.2 Windows下eclipse开发hadoop程序会报错，原因是因为hadoop2.2没有发布winutils.exe造成的，现编译发布出来；把此文件放到hadoop/bin下，在环境变量中配置 HADOOP_HOME 即可。 ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

2016-06-29

基于哈希技术与MapReduce的大数据集K-近邻算法实现代码

基于哈希技术和MapReduce的大数据集K-近邻算法实现代码

2016-05-06

基于哈希技术和MapReduce的大数据集K-近邻算法实现代码

基于哈希技术和MapReduce的大数据集K-近邻算法实现的完整代码

2016-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人