浪尖聊大数据-浪尖-CSDN博客

转载 4w字Spark调优宝典(推荐收藏)

1 性能调优1分配更多资源分配哪些资源？Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量在哪里分配这些资源...

2021-06-25 09:00:00 845

转载 spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换（例如map和filter）返回的RDD，会延续父RDD的分区信息，以pipe...

2021-06-15 09:00:00 777

1.数仓建模的理由数据建模的主要目的是降低成本，提高数据的利用效率。尤其是大数据时代的到来，数据的多样化，巨量，更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法，更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点，一般我们会从以下面四点考虑：性能：能够快速查询所需的数据，减少数据I/O的吞吐。成本：减少不必要的数据冗余，实现计算结果的复用，降低大数据系统中的存储成本和计算成本。效率：改善用使用数据的体验，提高使用效率。

2021-06-12 20:12:51 2295 1

转载那些被问懵逼的数仓面试题

数仓构建：1). 前期业务调研需求调研数据调研技术选型2). 提炼业务模型，总线矩阵，划分主题域；3). 定制规范命名规范、开发规范、流程规范4). 数仓架构分层：一般分为操...

2020-12-16 08:34:00 878

转载 8种ETL算法模型汇总大全！看完你就全明白了

摘要：ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加...

2020-12-07 17:55:22 2639

原创浪尖聊聊大数据从业者的迷茫及解决方案

最近不少粉丝找浪尖私聊，说做大数据久了比较迷茫，今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办！一现状目前的迷茫最主要原因是行业趋势所致，了解一下大数据行业的现状：对于整个...

2020-12-06 16:08:14 1385 5

转载面试|不可不知的十大Hive调优技巧最佳实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口，它提供了类似于SQL的接口来查询存...

2020-11-18 09:00:00 659

原创面试｜spark刷爆磁盘与java弱引用的关系

一引用基本概念如下面，定义两个变量num，str，存储模型大致如下图：int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8；变量str...

2020-11-11 08:35:34 303

转载 Hbase Bulkload 原理｜面试必备

当需要大批量的向Hbase导入数据时，我们可以使用Hbase Bulkload的方式，这种方式是先生成Hbase的底层存储文件 HFile，然后直接将这些 HFile 移动到Hbase的...

2020-11-10 08:59:49 1237

原创漫画｜讲解一下如何写简历&项目

star法写项目的案例：深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20，在深圳...

2020-11-06 08:19:00 879

原创漫画面试回答kafka为何如此之快｜满分

一磁盘读写原理磁盘的结构图：当需要从磁盘读取数据时，要确定读的数据在哪个磁道，哪个扇区：首先必须找到柱面，即磁头需要移动对准相应磁道，这个过程叫做寻道，所耗费时间叫做寻道时间;然后目标...

2020-10-29 08:18:00 2620 11

转载大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展...

2020-10-25 09:38:32 3137 1

原创漫画讲解Kafka高效的存储设计｜面试

在开始讲解之前，先带着大家回忆一下kafka一些名词概念：a. Broker：提供数据存储和数据读写服务实例，一个Kafka节点就是一个broker，多个broker可以组成一个Kafk...

2020-10-22 08:25:00 761

原创漫画全面解释Spark企业调优点

一：资源配置一般企业中，物理机器的cpu:内存基本上都是1:4+，比如机器24core，一般有128GB及以上内存；48core，一般有256GB及以上内存。减去系统及hdfs所需cor...

2020-10-18 20:43:40 809 4

转载基于Kafka的六种事件驱动的微服务架构模式

在过去的一年里，我一直是负责Wix的事件驱动消息基础设施（基于Kafka之上）的数据流团队的一员。该基础设施被 1400 多个微服务使用。在此期间，我已经实现或目睹了事件驱动消息传递设计的几个关键模式的实现，这些模式有助于创建一个健壮的分布式系统，可以轻松处理不断增长的流量和存储需求。一、消费与投射…那些非常受欢迎的服务会成为瓶颈当您遇到存储大型领域对象的“流行”数据的瓶颈时，此模式可以提供帮助。...

2024-04-16 12:28:24 7

转载 SQL优化这5个极简法则，直接让查询原地起飞！

SQL 作为关系型数据库的标准语言，是 IT 从业人员必不可少的技能之一。SQL 本身并不难学，编写查询语句也很容易，但是想要编写出能够高效运行的查询语句却有一定的难度。查询优化是一个复杂的工程，涉及从硬件到参数配置、不同数据库的解析器、优化器实现、SQL 语句的执行顺序、索引以及统计信息的采集等，甚至应用程序和系统的整体架构。本文介绍几个关键法则，可以帮助我们编写高效的 SQL 查询；尤其是对于...

2024-04-15 09:01:12 12

转载规则引擎与机器学习比较与结合

机器学习正在席卷全球，许多使用规则引擎做出业务决策的公司开始利用它。然而，这两种技术针对不同的问题。规则引擎用于执行需要 100% 精度的离散逻辑。另一方面，机器学习专注于获取大量输入并尝试预测结果。了解这两种技术的优势非常重要，这样您才能确定问题的正确解决方案。在某些情况下，不是其中之一，而是如何将两者结合使用以获得最大价值。业务逻辑、计算和工作流程让我们首先从了解业务逻辑开始。多年来，我一直在...

2024-04-15 09:01:12 8

转载企业级离线数仓分层设计和演化之路

分享人：金澜涛，资深大数据专家，前eBay OLAP组技术Leader

2024-04-14 08:34:45 11

转载揭秘数据指标设计的奥妙！

就像人走路的时候需要看到前方的道路，产品和运营在做决策前也需要睁开“双眼”。左眼，是数据；右眼，是用研。通过线上数据反馈，我们可以准确地发现问题，找到规律，求证猜想，平息主观之争，为产品改进和运营优化的制定和实施提供明确的方向。一、互联网公司数据职能设置互联网公司普遍十分重视数据，数据部门职能设置却各不相同。大多会设置独立的BI部门（如携程、京东），有些（如亚马逊）也会把数据人员分散在各个团队。数...

2024-04-11 09:02:41 21

转载 JMH + Arthas，性能监控的神器

问题描述为了能够让我后面的实例能够贯穿这两个工具的使用，我首先简单描述下我们在开发中遇到的实际的性能问题。然后再引出这两个性能工具的实际使用，看我们如何使用这两个工具成功定位到性能瓶颈的。问题如下：为了能够支持丢失率，我们将原先log4j2 的Async+自定义Appender的方式进行了修正，把异步的逻辑放到了自己改版后的Appender中。但我们发现修改后日志性能要比之前Async+自定义Ap...

2024-04-11 09:02:41 6

转载 15张架构图，详解数据中台建设框架！

《DAMA数据管理知识体系指南》对企业的数据管理成熟度定义了6个层级，分别为：0级-无能力、1级-初始或临时级、2级-可重复级、3级-已定义级、4级-已管理级、5级-优化级，级别越高数据管理越成熟。对于前期缺少数据管理经验的企业，在无数据专家或数据顾问公司支撑的情况下，容易导致以下的问题：一、数据架构规划未能长期有效支撑业务发展对企业数据架构缺少系统性梳理与思考，没有规划未来长期有效的业务发展，只...

2024-04-09 09:01:03 39

原创闭包在Scala中的含义，使用场景和各个场景的代码案例

闭包的含义在 Scala 中，闭包是一种函数，它可以捕获并使用其作用域之外定义的变量。闭包由两部分组成：一个函数，以及该函数引用的外部变量的环境。这意味着即使外部变量的作用域已经结束，闭包依然可以访问和操作这些变量。使用场景延迟执行：闭包可以用来延迟代码的执行，直到需要结果的时候。函数工厂：利用闭包根据参数动态生成特定行为的函数。封装状态：闭包可以封装状态，使得状态在函数调用间保持私有。回调函数：...

2024-04-09 09:01:03 287

转载 Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper

Apache 软件基金会发布了包含许多新特性和改进的 Kafka 3.3.1。这是第一个标志着可以在生产环境中使用KRaft（Kafka Raft）共识协议的版本。在几年的开发过程中，它先是在 Kafka 2.8 早期访问版本中发布，然后又在 Kafka 3.0 预览版本中发布。KRaft 是一种共识协议，可以直接在 Kafka 中管理元数据。元数据的管理被整合到了Kafka当中，而不需要使用像Z...

2024-04-08 08:02:39 24

原创 hive面试必备题

1. Hadoop中两个大表实现JOIN的操作在Hadoop和Hive中处理两个大表的JOIN操作通常涉及以下策略：利用Hive分区：通过在创建表时定义分区策略，可以在执行JOIN时只处理相关的分区数据，减少需要处理的数据量。优化HQL语句：选择性查询所需字段而非全表、全字段查询，减少数据加载和处理时间。使用适当的JOIN策略，比如利用/*+ MAPJOIN(小表名) */提示对小表使用MapJo...

2024-04-07 09:00:21 714

转载快手关于海量模型数据处理的实践

01模型场景介绍1.实时大模型*本文数据具有即时性，不代表实时数据。‍‍快手的模型场景主要是实时的大模型。实时主要体现在社交上。每天都有新用户上传 1500 万以上的视频，每天有亿级以上的直播活跃用户，并且上传数每年都在同比上涨。大主要体现在流量规模。快手现在的日活达到了 3.87 亿，有千亿级别的日均曝光，百亿级别的日均播放，模型量级非常大，还要保证实时。并且快手的核心价值观是平等普惠，即千万...

2024-04-06 17:48:13 156

原创 javaer 为什么称redis、rabbitmq这些东西为中间件？

中间件（Middleware）是位于客户端和服务器端之间的软件服务层，它提供了一种通用服务的方式，帮助不同的应用程序、系统组件和服务之间进行交互和数据交换。中间件隐藏了底层的复杂性，使得开发者可以专注于业务逻辑的实现，而不需要从头构建底层的通信、数据管理等机制。Redis、RabbitMQ 等被称为中间件，是因为它们为应用程序提供了特定的服务（如数据存储、消息队列），从而充当了应用程序和底层系统之...

2024-04-06 17:48:13 598

原创 Java中多态的优势和劣势是什么？

多态的背景多态是面向对象编程（OOP）的核心概念之一，它允许一个方法或对象在不同的场景下有不同的表现形式。Java 中的多态主要通过继承（inheritance）和接口（interface）实现。多态性使得一个接口可以有多个不同的实现，一个方法可以在多个子类中有不同的行为。多态的优势代码可重用性：通过使用多态，可以写出更通用的代码，增加了代码的可重用性。可扩展性：多态提高了程序的可扩展性，使得新的...

2024-04-04 20:26:33 150

转载如何高效接入 Flink：Connecter / Catalog API 核心设计与社区进展

在正式介绍这些 API 的细节之前，要把这些 API 以它们的分层列了出来，下面一层 API 是 DataStream ，针对 Java 开发一般都是基于 DataStream API 直接开发的。再往上一层就是 Table 和 SQL API ，Connector API 分层也是类似的，如果是想实现一个 Connector 的话其实是一个自底向上的过程。首先需要实现 DataStream 层上...

2024-04-03 19:24:15 13

转载这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的页面，咱也做不到。成熟的日志解决方案，那就是ELK，还有现在比较火的Loki，（当然还有很多其他解决方案，比如Splunk、Datadog等），那我们这个小网站，小体量，必然是选择Loki来做。所以这次就采用Nginx+Pr...

2024-04-03 19:24:15 15

原创如何判断hive sql生成mapreduce任务的数量

在 Hive 中，一个 SQL 查询最终会被翻译成一个或多个 MapReduce 作业。判断 Hive SQL 生成的 MapReduce 任务数量通常涉及以下几个方面：1. 使用 EXPLAIN 命令Hive 提供了 EXPLAIN 命令，它可以显示 Hive SQL 查询的执行计划，包括将要执行的 MapReduce 作业的数量和详细的阶段信息。要查看一个查询的执行计划，可以在 Hive 查询...

2024-04-02 08:30:54 632

转载大规模事件处理选择Redis，还是Kafka？

Kafka以解决大规模数据处理问题而闻名，并被广泛部署在许多知名公司的基础设施中。早在2015年，LinkedIn有60个集群，总共有1100个Broker，每秒处理1300万条信息。但事实证明，规模并不是Kafka唯一擅长的事情。它所提倡的编程范式——分区、有序、事件处理——对于你可能面临的许多问题都是一个很好的解决方案。例如，如果事件代表的是要被索引到搜索数据库的行，那么最后的修改就是最后的索...

2024-04-02 08:30:54 17

转载 Flink CEP 在抖音电商的业务实践

01Flink CEP 简介Flink CEP 是基于 Flink Runtime 构建的复杂事件处理库，它擅长处理跨多个事件的复杂规则匹配场景。例如检测用户下单后，是否超过半个小时没有发生支付行为；检测用户进入直播间后，是否有浏览商品随后加入购物车行为。Flink CEP 有以下优势：支持跨多事件的规则匹配计算；支持精准一次计算语义；低延迟、高吞吐等特性。02业务场景与挑战随着抖音电商业务逐渐趋...

2024-03-31 10:56:22 21

原创 Spark Streaming结合Esper实现CEP

介绍如何使用一个真正可以与Spark Streaming结合使用的第三方库——esper来实现CEP。EsperEsper是一个为复杂事件处理和事件流处理提供实时内存数据分析的组件。虽然Esper可以独立使用，但是通过将其与Spark Streaming结合，可以利用Spark的分布式计算能力处理大规模数据流，同时使用Esper进行复杂的事件模式匹配和分析。以下是使用Esper和Spark Str...

2024-03-30 10:00:10 347

原创 Esper简介，优缺点，及使用案例

Esper是一个高性能的复杂事件处理（CEP）和事件流处理（ESP）引擎，它允许用户从广泛的数据源实时处理和分析高频率的事件流。Esper使用一种声明式的查询语言，非常类似于SQL，但针对实时数据流进行了优化。这使得Esper成为在金融服务、网络监控、智能传感器分析、电信以及其他需要快速、实时数据分析的领域的一个理想选择。Esper的优点实时性：Esper能够在事件发生的同时进行处理和分析，支持低...

2024-03-30 10:00:10 234

转载开源量化系统简介

如果你拥有一定的编程技能和量化投资知识，可以根据自己的需求自主开发一套本地的量化投资系统，自建系统的好处是灵活，可以很好的实现自己的构思。但自建系统需要有较高的技术能力，如果欠缺这方面的技术或不想花费过多的精力造轮子，也可以选择用开源的量化系统来搭建本地的量化系统。开源量化系统提供了基本的量化策略开发、回测和交易接口，可以帮助交易者构建、测试和执行算法交易策略，但具体选择还需根据你的需求和技术能力...

2024-03-29 09:00:48 18

转载为什么 IDEA 建议去掉 StringBuilder，而要使用 “+” 拼接字符串？

前言各位小伙伴在字符串拼接时应该都见过下面这种提示：内容翻译：报告StringBuffer、StringBuilder或StringJoiner的任何用法，这些用法可以用单个java.lang.String串联来替换。使用字符串串联可以使代码更短、更简单。只有当得到的串联至少与原始代码一样高效或更高效时，此检查才会报告。大家普遍认知中，字符串拼接要使用StringBuilder，那为什么idea会...

2024-03-27 08:30:43 12

转载 1w+ 字深入解读 Flink SQL 实现流处理的核心技术！

本文摘编于《Flink SQL 与 DataStream 入门、进阶与实战》，作者羊艺超。使用SQL实现流处理的核心技术在了解了Table\SQL API的使用方法以及作业运行机制之后，接下来分析SQL实现流处理的核心技术。为什么要分析这个问题呢？因为传统的关系代数以及SQL最开始是为了批处理设计的，在传统关系型数据库以及批处理中，数据都是有界的，因此SQL语句的执行过程比较好理解，但是在流处理中...

2024-03-26 09:00:31 24

转载不好意思，ELK 该换了！

最近客户有个新需求，就是想查看网站的访问情况，由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的页面，咱也做不到成熟的日志解决方案，那就是ELK，还有现在比较火的Loki，（当然还有很多其他解决方案，比如Splunk、Datadog等），那我们这个小网站，小体量，必然是选择Loki来做。所以这次就采用 Nginx+Pr...

2024-03-26 09:00:31 19

转载 MapReduce和Spark的区别，使用场景

Apache Spark与MapReduce都是处理大规模数据集的强大框架，但它们在设计理念、性能以及使用场景上存在显著的差异。MapReduceMapReduce是一种编程模型，用于在大型计算集群上并行处理大数据集。它主要由两个阶段组成：Map阶段和Reduce阶段，之间通过磁盘进行数据交换。特点：稳定且成熟：作为Hadoop生态系统的核心，MapReduce是经过广泛测试和使用的稳定计算模型。...

2024-03-25 09:00:48 33

转载什么是数据仓库的架构？企业数据仓库架构如何建设？

全文共4102字，建议阅读11分钟企业数据仓库架构关于数据仓库，有一种简单粗暴的说法，就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。数据仓库用来管理企业庞大的数据集，提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力，我们讲集中讨论最本质的问题，在不考虑过多技术细节的情况下，整个层次架构可以被划分为4层：原...

2024-03-21 21:18:37 31

空空如也

空空如也