修破立生-CSDN博客

在SeaweedFS中，所有写入请求都是强一致性的，所有的副本写成功才算成功。只要有其中一个副本写失败，则正写入请求都是失败的。这使得读请求非常的快。SeaweedFS的存储层可以支持Replication，但不是以文件为粒度，而是以Volume为粒度来进行。x,y,z的取值可以为0,1,2。每一种复制类型会产生的volume副本数是 x+y+z+1。修改完之后，与复制类型不匹配的volume会变成只读的状态，执行。命令可使这些volume的副本数与复制类型一致。: 指定datacenter。

2023-05-09 08:00:00 527

原创 SeaweedFS学习笔记：Filer服务，目录与文件

本文介绍了SeaweedFS Filer服务基本用法，启动命令，读写流程，Filer Store以及数据加密

2023-05-08 19:00:00 1616

原创 SeaweedFS学习笔记：架构和快速入门

本文介绍了SeaweedFS的架构，主要组件，以及快速入门的操作案例

2023-05-08 08:00:00 1202

原创 Apache Doris 系列：自动分桶(Auto Bucket)

本来介绍了分桶不规范，分桶数过多和过少带来的问题；分桶数规范的建议；以及自动分桶功能的使用。

2023-03-29 15:59:05 590

原创 Apache DophinScheduler 定时调度Python脚本

本文通过定时调度Python的例子演示了Apache DophinScheduler 的基本操作：* 创建租户* 指定用户的租户* 创建Python环境* 创建项目* 创建工作流* 上线项目* 设置调度时间* 上线定时管理* 查看日志

2023-03-20 16:51:11 683

原创 Apache DophinScheduler Standalone（单机）模式部署

本文介绍Apache DolpinScheduler Standalone 的部署流程Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinScheduler 以 DAG（Directed Acyclic Graph，DAG）流式方式组装任务，可以及时监控任务的执行状态，支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。

2023-03-17 17:45:13 1576

原创 Flink SQL 性能优化记录

在处理流式数据时， Flink SQL的ROW_NUMBER，Group by等操作会产生大量的回撤数据，对下游的算子产生巨大的压力，下游算子处理不过来便会产生反压，造成延迟。如下图，前面两个SQL算子产生的回撤流，给下游的KeyedProcess和Sink算子带来的巨大的压力。

2023-03-13 15:00:49 627

原创 Flink SQL UDF自定义函数collect_list实现及其泛型化

Flink SQL1.10 没有collect_list函数，可以通过自定义函数的方式实现。文章最后介绍自定义函数的泛型化。

2023-02-23 18:49:13 839

原创 Flink SQL使用Row_number去重是否会导致状态无限增长

在Flink SQL中使用ROW_NUMBER去重是一个比较常见的场景，那么这种去重方式是否把所有的历史数据都缓存在状态中导致状态无限增长？Flink SQL使用Row_number去重时，状态中只会保留最新的1或者n条数据，单个主键的状态不会无限增长。观察一段时间，发现状态的大小稳定在186KB，不再增长。状态只保留了最新的2000条数据。接下来，通过以下实验观察状态的增长来解答以上的问题。

2023-02-23 17:02:44 720

原创 Apache Doris 系列：Bucket(分桶)数量设置建议

Apache Doris集群上线运行一段时间后，随着越来越多的数据增长，集群每次重启后一周左右，读写就会开始变得越来越慢，直到无法正常进行读写。注：表的数据量可以通过 SHOW DATA。命令查看，结果除以副本数，即表的数据量。

2023-02-09 10:26:46 1636

原创 Flink官方例子解析：带窗口的WordCount

本篇介绍的是带窗口的WordCount，使用窗口函数countWindow。countWindow是一种计数窗口，有固定窗口和滑动窗口两种用法。学习更多Flink的相关知识。

2023-02-01 18:11:02 491

原创 Flink官方例子解析：WordCount

今天介绍的是官方子项目flink-examples-streaming里面的WordCount例子。WordCount ，中文：单词统计，是大数据计算常用的例子。

2023-01-31 17:40:39 1485

原创 Flink官方例子解析：工具类CLI

CLI(org.apache.flink.streaming.examples.wordcount.util.CLI) 这个工具类在官方的大多数例子中都会使用到，因此本文先对这个类进行介绍。这个类比较简单，主要用于封装传入的参数，如–input, --output。

2023-01-30 16:10:32 307

原创 Flink官方例子解析：Flink源码子项目flink-examples

本文介绍了Flink官方demo代码的获取方法

2023-01-30 14:58:40 1111

原创 Apache Doris 系列：基础篇-使用BitMap函数精准去重（2）

Apache Doris 原有的BitMap函数虽然比较通用，但在亿级别的BitMap大基数并交计算性能较差，解决方案：将bitmap列的值按照范围划分，不同范围的值存储在不同的bucket上，确保在不同bucket的bitmap值是正交的。在查询的时候，先对不同bucket的bitmap值完成聚合计算，上层的FE节点只需合并聚合过的数据并输出即可。如此会极大的改善计算效率，和解决FE节点成为计算瓶颈的问题。

2023-01-28 16:55:40 1617

原创 Apache Doris 系列：基础篇-使用BitMap函数精准去重（1）

本文介绍了使用BitMap函数进行精准去重，以及其局限

2023-01-14 11:40:28 1612

原创 Apache Doris 系列：基础篇-BitMap索引

本文基于SSB测试数据创建BitMap索引，对比索引创建前后的性能，并给出使用的建议

2023-01-13 16:15:05 1350

原创 Apache Doris 系列：基础篇-清理垃圾数据

简单介绍垃圾数据产生的原因，以及垃圾数据的清理方法

2023-01-13 16:03:18 1098

原创 Apache Doris 系列：基础篇-单独更新一列

本文举例说明Apache Doris如何实现单独更新一列，数据表使用 Aggregate 聚合模型。需要更新的字段使用关键字REPLACE_IF_NOT_NULL。

2023-01-10 15:59:03 1695 3

原创使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris

使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris, Apache Doris使用唯一模型，实现更新/删除操作

2023-01-07 14:11:48 1644 1

原创 Apache Doris 系列：基础篇-创建动态分区表

Apache Doris 系列：基础篇-创建动态分区表

2022-11-15 20:47:05 1655

原创 Spark SQL 使用 GROUPING SETS 替代 UNION ALL

使用 GROUPING SETS 实现维度的分组聚合计算

2022-09-27 21:29:56 1238

原创 Apache Doris 系列：基础篇-Flink SQL写入Doris

本文介绍 Flink SQL如何流式写入 Apache Doris

2022-09-22 22:38:35 3860 7

原创 Apache Doris 系列：基础篇-Flink DataStream 读写Doris

本来介绍Flink Doris connector 通过 DataStream API 读写 Apache Doris

2022-09-18 19:13:41 2759 1

原创 Apache Doris 系列：基础篇-Routine Load

Routine Load 支持用户提交一个常驻的导入任务，通过不断的从指定的数据源读取数据，将数据导入到 Doris 中。目前仅支持通过无认证或者 SSL 认证方式，从 Kakfa 导入 CSV 或 Json 格式的数据。接下来通过一个案例介绍 Routine Load 的使用。部署单节点Kafka准备测试数据并导入kafka导入数据到 Doris。

2022-09-17 17:40:30 1643

原创 Apache Doris 系列：基础篇-JAVA执行Stream Load

Stream Load 的本质是调用 Doris BE 节点的 HTTP API 来实现数据的导入，因为我们可以用JAVA HTTP CLIENT 来实现数据的导入。

2022-09-16 21:38:44 1761

原创 Apache Doris 系列：基础篇-Stream Load

Stream Load 提供 HTTP API 提交数据导入任务，支持本地数据文件(csv,json)的导入。同步导入保证数据原子性，导入一批数据时，要么全部成功，要么全部失败。

2022-09-15 22:10:18 768

原创 Apache Doris 系列：基础篇-创建数据表

本文介绍 Doris 怎么创建表及其他的相关操作。连接 Doris部署完成 Doris 之后，可以通过任意 MySQL 客户端来连接 Doris。 mysql -u<username> -P<query_port> -h<FE_IP>注意：这里连接 Doris ，指的是连接 Doris FE，连接的 IP 地址就是 FE 节点 IP 地址，端口是 FE 的 query_port 默认是9030创建数据库使用 root 用户登录，创

2022-09-14 20:39:33 1981

原创 Apache Doris 系列：基础篇-安装部署

系统准备系统版本Ubuntu系统或者Centos系统皆可，本文采用Ubuntu 18.04.6 LTS(下载地址：https://releases.ubuntu.com/bionic/)。配置系统参数echo "0" > /proc/sys/vm/swappinessecho "0" > /proc/sys/vm/overcommit_memorysysctl -p修改/etc/security/limits.conf，在文件末尾追加以下配置* sof

2022-09-13 22:30:25 1919

小文件存储SeaweedFS技术指南

该文档包含以下内容： 1. SeaweedFS的架构和组件说明 2. SeaweedFS Master API 3. SeaweedFS Volume API 4. SeaweedFS Filer API 5. SeaweedFS的配置 6. SeaweedFS S3 API 7. SeaweedFS 与大数据Hadoop,Spark,Hbase,Presto的集成 8. SeaweedFS的复制和备份 9. 安全 10. 高级使用 11. 维护该文档为英文版，如需中文版的笔记欢迎与博主联系。

2023-05-06

大数据Spark面试题汇总

大数据Spark面试题汇总，共有79道面试题以及题目的解答部分题目如下： 1. spark 的有几种部署模式，每种模式特点？ 2. Spark 为什么比 mapreduce 快？ 3. 简单说一下 hadoop 和 spark 的 shuffle 相同和差异？ 5. spark 的优化怎么做？ 6. 数据本地性是在哪个环节确定的？ 7. RDD 的弹性表现在哪几点？ 8. RDD 有哪些缺陷？ 9. Spark 的 shuffle 过程？ 10. Spark 的数据本地性有哪几种？ 11. Spark 为什么要持久化，一般什么场景下要进行 persist 操作？ 12. 介绍一下 join 操作优化经验？ 13. 描述 Yarn 执行一个任务的过程？ 14. Spark on Yarn 模式有哪些优点？ 15. 谈谈你对 container 的理解？ 16. Spark 使用 parquet 文件存储格式能带来哪些好处？ 17. 介绍 parition 和 block 有什么关联关系？ 18. Spark 应用程序的执行过程是什么？

2023-04-12

SeaweedFS 架构说明文档英文版

文档对SeaweedFS的架构进行了介绍，包括： Blob Storage File Storage Remote Storage Cache FUSE Mount Object Storage Hadoop Compatable File System APIs Replication and Backup Administration Security

2023-04-08

draw.io画图工具 diagrams

支持UML、流程图、ER图等 windows版本，免安装 visio竞品

2022-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

小文件存储SeaweedFS技术指南

大数据Spark面试题汇总

SeaweedFS 架构说明文档 英文版

draw.io画图工具 diagrams

空空如也

SeaweedFS 架构说明文档英文版