lizhongwen1987-CSDN博客

翻译【FAST‘24论文解读】I/O直通：上游Linux一种灵活和有效的I/O路径

前几天有一位朋友问我一个问题：如何优化单机存储引擎在混合读写下的吞吐和延迟？根据我的了解，单机引擎有基于文件系统的、有直接管理裸盘的，有基于KV数据库的，还有基于DPU等软硬协同设计实现的。这些年随着闪存设备等高性能介质的大量使用，传统的文件系统和I/O堆栈所带来的性能损耗越发明显，其设计抽象愈发不适应新介质标准的发展。通过调整参数一定程度上能提升性能，但总体效果有限。

2024-04-03 18:38:41 39

原创 DAOS学习笔记及思考

根据的描述，DAOS是Intel基于NVMe全新设计开发并开源的异步对象存储，充分利用下一代NVMe技术的优势，对外提供KV存储接口，提供非阻塞事物I/O，端到端完整性，细粒度的数据控制，数据保护以及弹性存储等特征。。以大家熟悉的Ceph，BeeGFS为例，对Ceph OSD通过Shard来控制并发，以粗粒度的PG为并发单位，限制了PG及PG内对象I/O的并发能力，导致系统的并行性不足；

2023-10-24 17:57:32 682

原创我的AI存储实践及思考

我从2020年进入人工智能行业，开始为AI训练提供存储解决方案及技术支持，随着这几年行业以及公司的发展，采用的存储方案经历了几次大的演变，最开始使用的是分布式并行文件系统Lustre，接着是BeeGFS+Ceph，再到最近的分布式异步对象存储DAOS，本文结合自己的经历，将历次存储架构/方案选型的背景，考量及部署，思考记录如下（保密要求，略过了部分配置及拓扑细节），供参考。

2023-10-11 14:35:02 497 3

原创 DPDK&SPDK中的内存管理

DPDK的一大特点是使用大页（hugepage）进行内存管理，相比4KB页管理，使用大页可以减少页表大小，节省开销以及降低TLB miss的概率，从而提升应用访问内存的效率。在此基础上，DPDK主要实现了无锁队列ring，内存池mempool，内存堆heap来进行内存的分配和回收。

2023-07-12 11:42:33 774

前段时间，我将公众号中收录的SPDK相关的文章学习了一遍，最近结合最新的代码v23.0.x，对example目录下的示例程序hello_word/hello_blob/hello_bdev，以及app目录下的应用程序vhost/nvmef的源码进行了走读分析：和大家熟悉的存储服务程序一样，可以将一个spdk程序分成管理面和数据面，管理面负责程序运行环境的初始化，各子系统及模块的初始化，rpc动态管理，数据面根据管理面中设置好的运行环境和数据结构完成具体的I/O操作。

2023-07-07 10:46:42 1061

原创 HadaFS - Burst Buffer解读

Burst Buffer（BB）根据部署位置的不同，分为本地BB和共享BB，本地BB，部署在计算节点的SSD上，专职服务于本节点，扩展性和性能要更好些，但是不适合用于N-1的共享数据场景，另外因为共享部署，不同I/O模型/负载的业务相互干扰，可能导致巨大的资源浪费，最后随着计算节点的升级，部署成本也会快速增加。代表产品有Luster的LPCC，BeeGFS的BeeOND。

2023-04-29 11:55:40 1109

原创 Ext4日志优化-iJournaling

根据上文的分析，我们归纳出Ext4的日志机制有如下的不足，并导致I/O延迟增加JBD2串行事务依赖，为了避免并发提交重叠事务带来的一致性风险，每个时刻只能有一个事务处于commiting状态。JBD2组合事务提交，JBD2事务中可能包含多个不相干的inode，当发起事务提交时，会将所有文件的数据块都提交。JBD2组合事务可能使延迟分配失效，因为组合事务提交的原因，不相干的文件也被提交，导致延迟分配策略失效。

2023-04-24 09:50:33 1111

翻译 InfiniFS论文解读

在前期分析BeeGFS的元数据实现思路的文章中有提到，BeeGFS的元数据具有很好的负载均衡和本地化性能，但也存在一些不足，正好看了一篇FAST2022上的论文，在论文中对近根热点、路径寻址等方面提供了相应的解决方式，论文解析如下，供大家参考。

2022-12-10 15:40:22 600

原创 BeeGFS客户端的文件缓存

从内核角度看，Linux上有Buffered IO和Direct IO两种文件IO模式，Direct IO绕过内核缓存直接将数据写入后端设备，Buffered IO先将数据写到pagecache（内核中每个文件（inode）都包含一个address_space结构（内部通过一棵基数树来管理缓存页）来管理文件缓存），然后通过内核在合适的时候（内存不足、用户发起fsync、定期flush等）将数据回写到后端设备。

2022-10-29 20:24:23 1528

原创 BeeGFS元数据优化

文中设计的数据结构基于BeeGFS 7.2.2代码一句话总结：基于目录的静态分区方式，文件与父目录放在一起（本地化）文件系统初始化时，根据先来后到原则，选取第一个（注册成功）的元数据节点（组）作为系统根节点，根据根目录ID的hash值将根目录（root）预置于根节点的38/51/root路径下；创建子目录时，父目录随机选择一个元数据节点（组）作为该子目录的服务节点，创建子目录的元数据操作如下：1、在子目录的服务节点，根据子目录ID的hash值创建目录项（目录）：dentries/xx/yy/den。

2022-10-14 16:40:34 1275

原创 BeeGFS元数据管理设计思想剖析

这里写自定义目录标题Beegfs元数据管理新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Beegfs元数据管理换工作以后，近两年，对块存储和对象存储的关注有所减少，专注在分布式文件系统的研发上，为满足公司业务对文件存储

2022-05-02 17:38:01 2141 2

原创 ceph bluestore中的磁盘空间管理

ceph bluestore摒弃了传统的本地文件系统，而直接使用裸磁盘作为OSD的存储介质，因而需要自行管理磁盘空间的分配与回收概述一个设计良好的磁盘空间管理器，需要兼顾空间和时间效率；bluestore中提供了空间管理器FreelistManager来支持空间管理，当前提供了一种基于位图的实现，包含：位图持久化以及内存分配器Allocator两部分。其中，位图的持久化是指将空间分配（置1）和回收（置0）的位图状态持久化到磁盘中，基于rocksdb实现；内存分配器是磁盘位图的一致性视图，用来加速空间.

2020-08-28 18:13:00 6111 2

原创 ceph rgw元数据分布式改造

本篇是对前面几篇ceph rgw元数据分析类文章的总结，同时整体介绍下rgw元数据分布式改造的架构以及实现逻辑架构看过前面"ceph rgw元数据分析"类文章的读者，应该还记得那个rgw 分层架构图，为实现元数据的分布式改造，只需要在store层新增一个存储后端，称为MetaStore，专门用来存储集群元数据（realm，zonegroup，zone等）和用户元数据（user，bucket，bucket index等）：在实践中MetaStore有多种候选组件，如：Mysql，Mongodb，T.

2020-08-10 16:55:40 1646 8