3分钟秒懂大数据-CSDN博客

原创史上最全系列 | 大数据框架知识点汇总（资源分享、还不快拿去）

前言大家好，我是土哥写文章整整五个月了，在这期间写了很多篇高质量文章，每一篇都在 1000+ 阅读以上，为了让各位小伙伴更好的学习和面试，我将自己发表的文章以及未发表的文章全部汇总成一个文档，里面包含了全部的无水印高清图片，具体内容如下：关注公众号：【3分钟秒懂大数据】，回复关键字：【大数据】，进群领取下文全部 PDF 文件。1、大数据学习路线文章硬不硬核，你说了算，土哥怒肝大数据学习路线一条龙！（万字长文+资源分享）上述文章将所有组件的安装包全部都收集好，版本

2021-11-23 00:15:32 4838 36

原创 CDH6.2.0搭建（史上最全的安装教程）

1 集群准备 1 首先准备三台虚拟机，虚拟机ip地址可以ping通。 ip 名称 192.168.63.131 cdh1 192.168.63.132 cdh2 192.168.63.133 cdh3 2 系统环境准备在三台虚拟机上进行网络配置，免密登录、防火墙关闭、selinux关闭...

2020-05-08 23:47:13 19062 66

原创 2022届秋招各大公司面经总结

提问环节问自己没答出的最重要的一个问题（如果都答出来了，就不要问啦）面试官您好：你能具体给我讲讲目前您所在的部门具体负责公司的哪块业务，以及技术栈吗？面试的流程大概是什么样的？通长时间能收到2面或3面通知如果有幸进入公司，是否可以去实习？扩展新知识机器学习了解吗？监督学习和非监督学习有什么区别？分布式集群有哪些了解？ docker有什么了解? 微服务了解吗？ ...

2019-08-25 12:30:05 3452 1

原创 2020-JAVA-大数据-面试汇总

腾讯一面试下 4月6日挂1 自我介绍2 介绍一下你在项目中的承担的任务3 你对哪种语言熟悉4 线程池使用过吧，说说线程池中有哪些关键字具体使用方法。5 说说hashMap 使用的是哪种数据结构，6说说hashMap 和 ConcurrentHashMap 的区别7为啥hashMap是线程不安全的？8锁机制怎么使用的？9如何查看linux 内存占......

2019-07-23 17:25:23 13324 18

原创 mysql5.7.23安装详细过程

1.百度云网盘：https://pan.baidu.com/s/17ci5OcDf-bt10H7r_Hi2pw 提取码：0wmq2下载后可以把解压的内容放到你的安装目录下，我的是在E盘：E:\mysql如下图：此时加压后的文件中没有data目录和ini文件3.在E:\mysql目录下新建my.ini文件，复制如下内容[mysqld]#设置3306端port ...

2018-08-12 13:31:04 47011 26

原创《大数据面试通关》（第十四讲）——10 大业务场景 500 个离线实时指标

《大数据面试通关》（第十四讲）重点介绍一下在数仓场景中，10 大业务场景 500 个离线实时指标。

2023-10-22 12:38:39 382

原创 Spark 大厂面试题

spark大厂高频考点Spark on Yarn 模式有哪些优点

2023-07-25 19:46:32 450

原创 Flink 1.15.0 单独编译 runtime 模块

问题当在业务代码编写时，不可避免会涉及到对 Flink 源码中的一个或几个模块进行频繁更改，更改之后，需要验证代码的准确性，对需要对 Flink 源码进行编译打包。本文以Flink1.15.0 为例：当对 Flink 1.15.0 进行打包编译时，整体编译打包一次需要花费的时间在 30 分钟以上，如果频繁对其中一个模块进行代码修改，频繁打包，这样效率会非常低下。所以最好的解决办法就是：1、先对整体打包，在 flink-dist 添加不需要编译打包的配置项，形成 flink-dist.jar2、对

2022-05-20 11:55:35 1445

原创大数据面试高频点Flink checkpoint 执行流程及优化方案

Flink checkpoint 核心知识点以优化方案，本文主要从以下几方面进行介绍：1 Checkpoint 执行流程2 checkpoint 执行失败问题分析3 非对齐checkpoint 优化方案4 动态调整 buffer 大小5 通用增量快照1 checkpoint 执行流程如上图所示，chechpoint 在执行过程中，可以简化为可以简化为以下四大步：在数据流中插入 checkpoint barrier；每执行到当前算子时，对算子 sta

2022-05-02 15:39:34 1147 2

原创蚂蚁金服—JAVA实现全排列

分享一道蚂蚁金服JAVA实现全排列的代码在这里插入代码片package com.lyz.dataStructure.LeetCode;import java.util.List;import java.util.ArrayDeque;import java.util.ArrayList;import java.util.Deque;public class Solution{ public static void main(String[] args) { int

2022-04-28 14:48:34 922

原创 4000字全面了解小红书数据平台工程师(实时方向)社招面试内容

大家好，我是土哥。周五晚上过来卷大家了，今天为大家带来一位读者面试小红书的数据平台工程师（实时方向）面经。面试时间：72 分钟面试方向：数据平台工程师（实时方向）面试工具：赛码网面试难度 : ⭐⭐⭐⭐原文链接：小红书数据平台工程师(实时方向)社招面经(附答案)流计算平台面试官：不用自我介绍了，直接介绍一下流计算平台纳尼？好高冷啊！！具体自我介绍请查看： 58同城大数据开发社招面经(附答案)面试官：1 你们的 UDF 是怎么管理的？当自定义 UDF jar 后，如果是

2022-02-21 11:41:26 2197 2

原创 Flink on Yarn 远程 debug 应用提交流程及源码分析

采用flink 1.13.2版本对flink on yarn per-job 模式进行流程分析及源码调试

2021-12-13 10:34:36 2840 6

原创 36 张图详解ElasticSearch 原理+实战知识点

大家好，我是土哥今天为大家带来流计算领域经常使用的组件 ElasticSearch，本文通过原理+实战操教程带领大家快速学会 ElasticSearch 搜索引擎，以下内容全部经过实战操作，可以根据文档进行学习~大纲如下：1 ElasticSearch 概述1.1 全文搜索引擎小伙伴们经常使用 google 或者百度进行搜索内容，在输入框中输入关键字，这个时候，网站会将包含关键字的所有网页返回，大家有没有想过，为什么输入关键字就可以查到结果呢？同时网站上返回的页面内容大多都是一些非结构化

2021-12-06 14:50:27 16123 1

原创全网最好懂的Kafka面试知识点总结大全【图文并茂、更易理解】

整理了一下 Kafka 面试的连环问题，保证你看完后，对 Kafka 有了更深层次的了解。全文总结的 Kafka 题目之间的关联性很强，本文将通过问答 + 图解的形式由浅入深帮助大家进一步学习和理解 Kafka 分布式流式处理平台。全文总计 1 万字、28 个知识点、40 张原理、流程图。提纲如下：正文⭐ 1、什么是 kafka ？Kafka 起初是由 Linkedin 公司采用 Scala 语言开发的一个多分区、多副本且基于ZooK

2021-12-06 10:12:55 955 9

原创文章硬不硬核，你说了算，土哥怒肝大数据学习路线一条龙！

前言大家好，我是土哥。随着读者数量的不断增加，从8月底到10月中旬，3分钟秒懂大数据公众号粉丝数已经突破7200+。短短几个月，看着越来越多的读者通过我写的文章而关注到该公众号，我好开心，同时也诚惶诚恐，害怕无法持续输出高质量文章，让读者失望。但我知道，只有写出让读者心动的文章，才能得其心，土哥会好好加油，为大家持续输出精品文章的。有读者问我，对于大数据小白或者跨行业者，应该如何学习大数据呢？或者说有什么推荐的书籍或者网站？其实这个我很有心得啦，因为我研究生学的就是大数据与人工智

2021-10-19 14:46:13 1425 1

原创 Flink 1.14.0 内存优化你不懂？跟着土哥走就对了（万字长文+参数调优）

关注微信公众号：3分钟秒懂大数据跟着土哥走，教你秒懂大数据前言大家好，我是土哥。自从写 Flink 系列文章，收到了太多读者的私信，希望我不断更新完善 Flink 专栏，为此，土哥还专门创建了一个文档，用来记录粉丝和读者在使用 Flink 组件时遇到的典型问题。由于 Flink 在大数据流计算中占据非常重要的位置，毫不夸张的说，已经被所有一二线互联网大厂所使用，并且 Flink 组件在 Apache 社区持续占据热...

2021-10-09 10:34:37 3421 7

原创一口气搞懂「Flink Metrics」监控指标和性能优化，全靠这33张图和7千字（建议收藏）

前言大家好，我是土哥。最近在公司做 Flink 推理任务的性能测试，要对 job 的全链路吞吐、全链路时延、吞吐时延指标进行监控和调优，其中要使用 Flink Metrics 对指标进行监控。接下来这篇文章，干货满满，我将带领读者全面了解 Flink Metrics 指标监控，并通过实战案例，对全链路吞吐、全链路时延、吞吐时延的指标进行性能优化，彻底掌握 Flink Metrics 性能调优的方法和 Metrics 的使用。大纲目录如下：1 Flink Metrics 简介Flink Metri

2021-09-30 14:00:31 2205 10

原创 33张图解flink sql应用提交

前言大家好，我是土哥。这已经是我为读者写的第21篇Flink系列文章了。上周有粉丝在群里问，在流计算平台编写完Flink sql后，为什么通过一键提交按钮，就可以将sql提交到yarn集群上面了？由于现在各大厂对业务分层特别清晰，平台方向和底层技术开发会被单独划分，所以好多大数据同学编写完Flink Sql后，只需通过提交按钮将其提交到集群上，对背后的提交原理些许不太清楚。下面土哥将为大家揭开这层神秘的面纱，挖掘Flink Sql背后的提交原理和源码设计。（硬核文章，建...

2021-09-22 12:05:44 2391 8

原创 Flink1.13.2三种方式安装部署

有位Flink初学者问我有没有Flink的安装教程，看到这后，土哥二话不说直接安排上。以下教程全部使用 Flink1.13.2版本，在普通用户下面部署：1、Standalone部署版本要求：版本节点部署方式flink-1.13.2-bin-scala_2.11.tgz192.168.244.129standalone1.1 将软件安装包放入集群中1.2、软件包解压tar -zxvf flink-1.13.2-bin-scala_2.11

2021-09-22 11:49:02 8891 13

原创漫画 | 字节一面：求无重复子串的最长子串

大家好，我是土哥。作为一名大数据算法工程师，需要有一些算法功底，但是学习算法又非常枯燥，冰冷的文字+代码往往使大部分读者在学习算法的道路上半途而废。今天呢，土哥就用漫画+动图的风格让我的读者轻松、愉快的学习算法，毕竟故事今天，小笨猪阿土收到了字节跳动的一面邀请邮件，约定3天后面试。这可把阿土高兴坏了，但是阿土的算法水平比较差，他听说字节跳动每轮面试必考算法，所以心情很忐忑。这个时候，他的好朋友小美猪阿梅来找她玩耍，看到小笨猪闷闷不乐，于是问起了缘由，当得知字节跳动每轮都考

2021-09-13 10:22:23 1243

原创重磅！ | Flink1.14新特性预览

欢迎加博主微信：threeknowbigdata，拉你进大数据群、Flink流计算群大家好，我是土哥。目前在某互联网大厂担任大数据算法工程师。今天在查看Flink源码时，发现Flink1.14修复了很多bug，并且提了很多PR,其中完成了33个重要的新特性及优化。Bug修复可见部分截图：Improvement可见部分截图：新版本预计1-2周之内会发布，下面我将带领大家查看一下 Flink1.14的新特性都有哪些？1、流批一体优化流批一体其实从 Flink 1.9 版本开始就受到持续的关注

2021-09-08 20:12:36 1883 5

原创 Kakfa-Flink-Hive集成原理和实战代码

大家好，我是土哥。目前在某互联网大厂担任大数据算法工程师。今天有位粉丝在群里发信息，问有没有Flink DDL的使用资料，表示自己是为刚入门的学习者。为了让这位粉丝快速学会 Flink DDL 使用步骤，下面我将通过Kafka - Flink -Hive这个案例，讲解一下原理，并附上实战代码。1、Flink-Hive理论1.1、Flink-Hive介绍在Flink 1.11 版本中，社区新增了一大功能是实时数仓，可以通过kafka,将kafka sink端的数据实时写入到Hive中。为实现这

2021-09-07 13:55:35 1191 5

原创 Flink面试大全总结（全文6万字、110个知识点、160张图）

添加作者微信：threeknowbigdata，备注Flink，获取文章PDF版本Hello，各位大数据学习爱好者，我是3分钟秒懂大数据公众号的作者土哥，目前在杭州某互联网大厂担任大数据算法工程师，组内专注于Flink流式计算组件以及AB融合技术，为了让更多朋友更清晰的了解流式计算组件，现在我以面试的方式为大家全面总结了Flink所涉及的知识点，全文总共6万字，涉及各种原理，以及源码分析，图片是一张张绘制而出，欢迎大家进行解读！在互联网行业，我们都知道薪资结构跟岗位存在直接关系，如下面这幅关..

2021-08-31 10:47:20 2200 8

原创 Flink-yarn-session集群提交模式

2021-08-24 18:47:28 1132

原创史上最完整的AirFlow2.1.2版本安装教程

hello，大家好，我是阿周，上周我们讲解了AirFlow的一些基本概念，请看文章：学会AirFlow调度工作流平台，让你告别加班，老板还会升值加薪，但是只知道理论知识是不行的，所以接下来我将带领大家一块安装部署，通过实战学会airflow。1、Anaconda环境准备由于Airflow2.1.2版本依赖于python3高阶版本，但是服务器中一般默认python2.7.5版本，如下图：所以，我们直接通过部署miniconda,创建虚拟python3环境就可以满足airflow的要求。1.

2021-08-17 11:45:25 3210 9

原创 14天算法入门-第2天-双指针

关注并标星微信公众号3分钟秒懂大数据每天1次，打卡阅读获取AI大数据技术、面经、内推信息1、题目介绍：给你一个按非递减顺序排序的整数数组nums，返回每个数字的平方组成的新数组，要求也按非递减顺序排序。2、示例如下：3、解题思路：我们可以使用两个指针分别指向位置 0和 n-1，每次比较两个指针对应的数，选择较大的那个逆序放入答案并移动指针。这种方法无需处理某一指针移动至边界的情况，读者可以仔细思考其精髓所在。4、代码如下...

2021-08-14 11:20:21 760

原创 14天算法入门-第1天-二分查找

Hello,各位小伙伴，我们都知道，在求职阶段，算法被作为大厂面试的一个核心考点，本阶段我将带领大家通过14天执行一个算法入门计划，具体内容如下：算法入门：第1天：二分查找第2天：双指针第3天：双指针第4天：双指针第5天：双指针第6天：滑动窗口第7天：广度优先搜索 / 深度优先有搜索第8天：广度优先搜索 / 深度优先有搜索...

2021-08-14 11:07:51 731

原创 Spark-SQL绑定原理深入分析

上一篇文章Spark-SQL解析原来如此简单讲到了Spark-SQL通过Antlr4生成未解析的LogicalPlan。此时的LogicalPlan是Unresolve的，需要通过Catalog来绑定UnresolvedRelation 和UnresolvedAttribute，生成解析后的LogicalPlan。在Spark-SQL中，Catalog主要用于各种函数资源信息和元数据信息（数据库、数据表、数据视图、数据分区与函数等）的统一管理。Spark-SQL中的Catalog体系...

2021-08-14 11:01:20 1117 1

原创硬核！10分钟解读Flink 状态原理(1)

关注并标星微信公众号3分钟秒懂大数据每天1次，打卡阅读获取AI大数据技术、面经、内推信息原文链接：硬核！10分钟解读Flink状态原理（1）前言关于Flink状态存储，同样是面试中的重点考察对象，经常被问到的问题如下：（1）什么是状态？（2）Flink状态类型包含哪些？（3）Flink 广播状态模式了解不？（4）Flink状态接口包含哪些？（5）Flink状态如何存储？（6）Flink状态如何持久化？（7）Flink状态过期后，如何清理？（8）状...

2021-08-04 10:10:04 172

原创详解ROC/AUC计算过程

ROC和AUC定义ROC全称是“受试者工作特征”（Receiver Operating Characteristic）。ROC曲线的面积就是AUC（Area Under the Curve）。AUC用于衡量“二分类问题”机器学习算法性能（泛化能力）。Python中sklearn直接提供了用于计算ROC的函数[1]，下面就把函数背后的计算过程详细讲一下。计算ROC需要知道的关键概念首先，解释几个二分类问题中常用的概念：True Positive, False Positive, True

2021-08-03 19:26:28 921

原创在pycharm中配置anaconda的虚拟环境

环境配置环境的配置分为三步: 配置虚拟环境和安装程序所需要的包以及在pycharm中打开项目配置虚拟环境配置虚拟环境需要通过anaconda来完成，anaconda的下载地址为：https://docs.conda.io/en/latest/miniconda.htmlwindows用户下载python3.8的miniconda即可下载完毕之后双击安装即可，注意一点这些一定要选中程序安装完毕之后打开windows的命令行（cmd），输入conda env lis...

2021-07-16 11:32:24 924

原创语义分割预处理与后处理方法

深度学习发展到现在，各路大神都发展出了各种模型。在深度学习实现过程中最重要的最花时间的应该是数据预处理与后处理，会极大影响最后效果，至于模型，感觉像是拼乐高积木，一个模块一个模块地叠加，拼成最适合自己的模型。1 数据预处理1.1 图像切割一般而言，训练集会是一整张大图，所以需要自己切割成小图训练，可以做切割，也可以在训练时划窗读取，最好先做切割，可以检查数据。切割的图片大小根据服务器性能来看，12G的GPU切为256或512的比较合适一些。切割的时候最好有重叠的切割，至于重叠率可以根据实际情况

2021-07-15 15:22:33 1449 1

原创深度学习实战-Python教程

Python入门教程以熟练使用Pytorch完成深度学习模型为目标，简单介绍Pytorch涉及到的Python基础（Python其它知识可以在遇到后再学习，先动手）。这篇教程并不涉及Python的复杂方法，教程的结构如下： 1.Python实例 2.Python基础 - 2.1 Python数据类型 - 2.2 Python语法 3.Numpy 4.类 5.文件读写 6.错误分析3.Numpy3.1Num...

2021-07-15 15:17:37 359

原创怎么使用永久免费的GPU与TPU服务器colab

什么是 Colaboratory？借助 Colaboratory（简称 Colab），可以在浏览器中编写和执行 Python 代码，并且：无需任何配置免费使用 GPU,TPU轻松共享 colab适合做一些模型的调试，colab下载常见的训练集网站的数据贼快，像kaggle也可以直接用api下载。colab的使用使用火狐浏览器可以打开colab，先看一下colab编辑器的页面，类似Python的jupter，可以按块运行，不用配置，目前是默认配置了tensorf...

2021-07-15 15:09:19 1201 1

原创 CenterCrop图像裁剪原理

CenterCrop模式解决的就是：图片要去两头，留中间图片要填充满控件我们按照Image与ImageView的宽高比差值，分两种情况进行讨论。假设原始图片高h，宽w ， Imageview的高y，宽x ，比较两者高宽比。裁剪出的图称为Image1： 1、当 y / x - h / w > 0 时说明Imageview的高宽比大于图片的高宽比，如图所示：左图实线标示的是图片Image的高和宽，右图是Imageview。我们需要从Image的中间按照...

2021-07-14 14:31:04 13850 1

原创 import input_data报错

在刚进行TensorFlow，MNIST数据导入时，输入如下依赖import input_data会发现input_data报错，通过在网上查询之后，找到解决方案from tensorflow.examples.tutorials.mnist import input_data

2021-07-13 17:00:39 744

原创 Pytorch初学者系列-基础知识

关注博主微信公众号：3分钟秒懂大数据，粉丝2w+;Hello 各位小伙伴，本章节，我将带领大家学习一下PyTorch的基础知识。对于没有机器学习、深度学习经验的小伙伴们，可以以此为跳板，掌握一点基础概念和知识点，为以后学习打基础，当然，对于有使用经验的，就当温故而知新了。PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。2017年1月，由Facebook人工智能研究院（FAIR）基于Torch推出了PyTorch。它是一个基于Python的可续..

2021-07-13 10:54:55 1419

原创蔚来提前批后端开发1、2、3面面经

Netty（项目中用到了，大概聊了一下），简单介绍，IO多路复用 BIO、NIO的区别。（上个问题中我说到了NIO） NIO、AIO的区别。 IO多路复用底层在Linux中的原理（用的select、poll、epoll） redis有哪些特性使它能作为缓存（在内存中，单线程） redis为什么单线程还能快（忘了，没答上）数据一致性（忘了，没答上） HTTPS如何保证传输安全性（说了下HTTPS的加密过程） HashMa...

2021-07-13 10:42:32 2010 2

原创 Spark-SQL解析原来如此简单

如下图所示，Spark-SQL解析总体分为以下几个步骤：解析（Parser）绑定（Analysis）优化（Optimization）执行（Physical）生成RDD（RDDs）接下来，我们先介绍解析部分，对于绑定、逻辑计划的优化、物理执行计划、生成RDD后面再专门介绍。Antlr4最新的Spark-Sql解析模块为spark-catalyst_2.11，通过Antlr4（Another Tool for Language R

2021-07-12 13:54:41 1245

原创微调(Fine-tune)原理

微调(Fine-tune)原理　　在自己的数据集上训练一个新的深度学习模型时，一般采取在预训练好的模型上进行微调的方法。什么是微调？这里已VGG16为例进行讲解，下面贴出VGGNet结构示意图。上面圈出来的是VGG16示意图，也可以用如下两个图表示。如上图所示，VGG16的结构为卷积+全连接层。卷积层分为5个部分共13层，即图中的conv1~conv5。还有3层是全连接层，即图中的fc6、fc7、fc8。卷积层加上全连接层合起来一共为16层，因此它被称为VGG16。如果要将VGG16的结构用

2021-07-12 09:55:16 1314

flink-cep未发生算子设计方案

kernel-headers-3.10.0-957.el7.x86_64.zip

Home_Credit_new_0.7849_246008_495.pmml

Ray技术分享总结以及核心技术点讲解

大数据组件和人工智能总结.zip

ray Forward 2021 ppt

cifar100(20个任务)测试结果

cifar100-imagenet

使用pyspark将csv文件转为parquet文件

flink-sql-connector-kafka_2.11-1.12.0.jar

空空如也