PeakCrosser-CSDN博客

原创 [CUDA 学习笔记] 如何优化 CUDA 矩阵乘内核以获得类似 cuBLAS 的性能: 工作日志

写这篇文章的经历与我上一篇关于优化 CPU 上的 SGEMM的文章类似: 迭代优化 SGEMM 是深入了解硬件性能特征的最佳方法之一. 对于编写 CUDA 程序, 我感到惊讶的是, 一旦我对希望的内核工作方式进行很好地可视化后, 实现代码变得十分容易.

2024-04-21 15:17:42 1026

原创 [CUDA 学习笔记] 矩阵转置算子优化

矩阵转置是一种基础的矩阵操作, 即将二维矩阵的行列进行反转.本文主要围绕行主序的二维单精度矩阵的转置考虑相关的优化.以下 kernel 笔者均是在 NVIDIA V100 (7.0 算力) 上进行测试的, 且选择矩阵的行列维度大小为M=2300N=1500。

2024-04-10 22:25:55 766

原创 [CUDA 学习笔记] half 类型的 atomicAdd 操作

kernel性能(ms)182.45halfashalf282.37kernel 2:82.36优点: 可以直接使用.缺点:性能很差, 不如对 2 个half的haf2类型的halfashalf2优点: 性能较高缺点: 必须两个half一起处理, 从而需要满足half2的内存对齐, 也会修改相邻的half元素kernel 2:优点:性能较高不影响相邻half元素的值缺点: 适合half数组的情况, 极端情况下仍会退化为;多个线程写入偏移不同时, 可能会造成额外一提, 在参考代码中,N。

2024-03-23 13:41:07 733

原创 [CUDA 学习笔记] Reduce 算子优化

本文同样按照英伟达官方 PPT 文档的优化思路给出一步步优化的 kernel 实现.本文中的 reduce 算子实现, 都采用树形归约的方式, 这种方式更适合 GPU 这种可以大规模并行的情况. 整体 reduce 划分为两个阶段: 首先是对全部数据划分为线程块归分别约成 1 个结果, 然后再对每个线程块归约后的结果地进行同样地归约, 如此递归, 最后可以得到最终的 1 个结果. 如下图所示:因此, 本文的线程块 Reduce 算子的函数可以定义为, 实现对n个数据input按照线程块大小。

2024-02-12 23:37:15 1053

原创 [CUDA 学习笔记] Element-wise 算子优化

Element-wise 算子即针对输入 Tensor(可能有多个) 进行逐元素操作. 如 ReLU 操作.

2024-02-02 22:51:26 967

原创 [CUDA 学习笔记] CUDA kernel 的 grid_size 和 block_size 选择

Execution Configuration: grid 的维度和大小 (grid_size). 类型 . : 为启动的线程块(block)数.: 每个线程块的维度和大小 (block_size). 类型 . 为每个线程块的线程数.: 每个线程块需动态分配的共享内存的字节数. 类型 . 默认值 0.: 相关的 CUDA 流. 类型 . 默认值 0.block_size 选择NVIDIA GPU 算力及规格参数大于 0, 上限为 1024x 维度和 y 维度上限 1024, z 维度上

2024-01-20 20:28:23 1433

原创 [论文笔记] PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs

提出了 PiPAD, 一个流水线并行的 DGNN 训练框架, 用于 GPU 上的端到端性能优化. 从算法和运行时层面重构了整体训练范式.动态图表示分类: 连续时间动态图(Continuous Time Dynamic Graphs, CTDGs) 和离散时间动态图(Discrete Time Dynamic Graphs, DTDGs).DTDG: 使用静态 GNN(如 GCN) 在所有时间步上对各个快照进行空间图学习, 同时使用循环神经网络 (RNN) 以获得不同快照之间的时间特征;

2023-12-24 20:12:06 662

原创 [CUDA 学习笔记] 百度 STI2 赛题二-基于向量交集的 TopK 搜索优化学习笔记

给定850万条规模的数据文件，每条数据是最大128维度的整型id向量（称为doc），id取值范围是0-50000，给定一个最大128维的整型id向量（称为query），求query与doc全集内各数据的交集个数topk（k=100）topk_v0_base.cu 为赛题的 Baseline 实现.该实现整体思路比较简单, 首先是主机端内存分配等预处理, 然后在 GPU 上进行求交集, 最后在主机端根据求交集的分数降序排序得到最终结果.这个 Baseline 主要值得一提的是其 docs 的 swizzl

2023-12-18 22:32:57 336

原创 [论文笔记] GAMMA: A Graph Pattern Mining Framework for Large Graphs on GPU

提出了一个基于 GPU 的核外(out-of-core) 图模式挖掘框架(Graph Pattern Mining, GPM) GAMMA, 充分利用主机内存来处理大型图GAMMA 采用对用户透明的自适应隐式主机内存访问方式针对 GAMMA 在核心外 GPU 系统中提供的原语提出了一些优化GPM 算法通常产生大量中间结果. 本文关注使用硬件加速器 (GPU) 的 GPM 算法的高效计算.已经提出的 GPM 框架中大多数基于 CPU, 性能不令人满意.

2023-12-16 21:50:21 335

原创 [论文笔记] GNNAdvisor: An Adaptive and Efficient Runtime System for GNN Acceleration on GPUs

提出了 GNNAdvisor, 一个用于加速 GPU 平台上各种 GNN 工作负载的自适应高效运行时系统从 GNN 模型和输入图中探索并识别了几个与性能相关的特征实现了一种新颖且高效的2D 工作负载管理利用 GPU 内存层次结构进行加速集成了一个轻量级分析模型, 用于有效的设计参数搜索GNN 突出特点: 在聚合阶段的图操作(scatter-and-gather) 和在更新阶段的神经网络(NN)操作(矩阵乘法)交错执行.

2023-12-08 21:42:46 94

原创使用 NVProf 检测 CUDA kernel 的 bank conflict

使用 NVProf 可以对 bank conflict 进行检测:nvprof --events shared_ld_bank_conflict,shared_st_bank_conflict [args...]

2023-11-23 20:22:00 265

原创 CUDA code=700(cudaErrorIllegalAddress) 报错与排查方法

最近笔者在调试自己写的 CUDA 代码时, 遇到了的报错, 在此记录一下排查和解决方法.

2023-10-11 22:54:05 2457

原创 [论文笔记] Understanding and Bridging the Gaps in Current GNN Performance Optimizations

本文揭示了当前框架在优化 GNN 性能方面的五大差距, 并提出了一套优化措施来填补差距.GNN 主要由图运算和神经网络运算组成, 但简单地将图计算框架和 DNN 框架组合不足以支持高效的 GNN 执行, 因为其不能有效处理图运算和神经网络运算之间的复杂交互, 而这是 GNN 性能的关键.本文发现了当前框架在优化 GNN 性能方面的五大差距, 特别是在处理 GNN 相对于传统图或 DNN 操作的特殊复杂性方面. 这些差距存在于数据局部性、负载均衡、冗余(计算)、内存占用和对不同特征长度的处理等方面.

2023-10-05 14:06:07 121 1

原创 [论文笔记] Gunrock: A High-Performance Graph Processing Library on the GPU

Gunrock, 针对 GPU 的高层次批量同步图处理系统.采用了一种新方法抽象 GPU 图分析: 实现了以数据为中心(data-centric)的抽象, 以在结点或边的边界(frontier)上的操作为中心.将高性能 GPU 计算原语和优化策略与高级编程模型相结合, 实现了性能与表达的平衡.提出了 Gunrock, 基于 GPU 的图处理系统, 通过高层次的、以数据为中心的并行编程模型在计算图分析时提供高性能.

2023-09-08 16:47:08 1154

原创 [论文笔记] Gemini: A Computation-Centric Distributed Graph Processing System

提出了 Gemini, 一个分布式图处理系统, 应用了多种针对计算性能的优化以在效率之上构建可扩展性稀疏-稠密信号槽抽象, 将混合推拉计算模型扩展到分布式场景基于分块的划分(chunk-based partition)方案, 可实现低开销的横向扩展和保留局部性的结点访问压缩结点索引访问的双重表示方案用于高效节点内内存访问的NUMA 感知子划分用于改善节点间和节点内的负载均衡的局部感知分块和细粒度工作窃取许多分布式图处理系统被提出, 但与最先进的共享内存系统相比性能不尽人意.

2023-07-07 17:15:15 1388

原创 [论文笔记] uGrapher: High-Performance Graph Operator Computation via Unified Abstraction for GNN

提出了uGrapher, 一个为不同图算子和数据集实现通用高性能的统一接口.现有 GNN 框架易集成将图算子的计算和调度解耦构建了一个结合图张量和图循环语义的特定于 GNN 的算子抽象探索基于抽象的各种调度策略, 权衡并行性、局部性与效率具有巨大的体系结构空间, 使用的图算子的可变性和复杂性迅速增加.在具有独特特征的不同图结构数据集上进行操作, 并对不同的图数据集和图算子表现出不同的模式和瓶颈, 从而缺乏并行的自适应性.不同于传统图算法。

2023-06-22 14:09:23 215 1

原创 [论文笔记] Atos: A Task-Parallel GPU Scheduler for Graph Analytics

提出了 Atos, 一个特别针对动态不规则应用的任务并行 GPU 动态调度框架支持消除依赖关系的应用的任务并行公式来暴露额外的并发性除了数据并行负载平衡之外, 提供隐式任务并行负载均衡允许用户控制内核策略和任务并行粒度来适配不同用例批量同步并行(Bulk-synchronous parallel, BSP)编程非常适合静态调度的、规则的问题;而一些不规则的问题自然要使用基于任务的编程模型.本文考虑非常细粒度的任务分配问题, 聚合一组相似的应用级别的任务来构成数据并行的 GPU 任务.

2023-06-12 11:32:06 657

原创 [论文笔记] Scaph: Scalable GPU-Accelerated Graph Processing with Value-Driven Differential Scheduling

提出了 Scaph, 一个GPU 加速的图系统, 实现了对大规模图的可扩展图处理.Scaph 通过减少传输冗余数据(仅有激活结点的邻域信息被使用而传输整个子图)大幅提高了主机-GPU带宽利用率, 从而显著提高了性能.Scaph 的关键新颖点是在每次迭代时自适应地分类子图是高价值子图(可能在当前和未来的迭代中被广泛遍历)还是低价值子图(反之).Scaph 使用两个图处理引擎调度子图在 GPU 上进行图处理: 一个用于高价值子图, 其将被完全流式传输到 GPU 并反复迭代;

2023-06-12 11:09:53 125

原创 [论文笔记] STMatch: Accelerating Graph Pattern Matching on GPU with Stack-Based Loop Optimizations

提出了一个新颖的基于栈的 GPU 上的图模式匹配系统, 以避免同步和内存消耗问题.提出了两级工作窃取技术和循环展开技术, 以提高 warp 内和 warp 间的资源利用率.现有的 GPU 图模式匹配系统都采用以子图为中心(subgraph-centric)的方法.需要在每步扩展结束后进行同步.部分子图占用大量内存空间.以子图为中心的实现失去了部分子图的隐式层次结构, 从而失去了一些可用于回溯过程的优化.本文选择从最外层循环并行化回溯过程, 消除了 GPU 上的同步.通过基于栈。

2023-05-23 16:59:02 159 1

原创 [论文笔记] In Search of an Understandable Consensus Algorithm (Extended Version)

Raft 是一个用于管理复制日志的共识算法Raft 更易于理解, 且为构建实际的系统提供了更好的基础.Raft分离了共识的关键要素, 如领导者选举、日志复制、安全性;并通过更强的一致性来减少状态数量.Raft 包括一个使用重叠多数(overlapping majorities)保证安全性的新机制来更改集群成员.共识算法(consensus algorithms) 让一组机器作为一个协调的整体进行工作, 并在一些成员机器出现故障时也能继续运行.

2023-05-02 13:47:21 738

原创 [论文笔记] Efficient and Scalable Graph Pattern Mining on GPUs

提出了第一个可以在多 GPU 上高效运行的图模式挖掘框架(Graph Pattern Mining, GPM), G2Miner.使用模式图感知输入感知(input-aware)以及架构感知(architecture-aware)的搜索策略. 提供自动生成模式图感知 CUDA 代码的代码生成器灵活支持 BFS 和 DFS以利用内存和 GPU 并行平衡多 GPU负载的定值调度策略GPU 上高效实现 GPM 需要利用 GPU 硬件架构、模式图特点以及输入图的信息进行复杂优化.

2023-04-07 10:22:27 514 1

原创 [论文笔记] XRP: In-Kernel Storage Functions with eBPF

提出了 XRP, 一个允许应用程序从 NVMe 驱动程序中的 eBPF 钩子(hook)执行用户定义的存储函数(例如索引查找或聚合)的框架, 可以安全地绕过大部分内核的存储栈.随着新的高性能存储技术的兴起, 新的 NVMe 存储设备现在可以实现很高的性能,内核存储栈成为延迟和开销的主要来源现有的解决方案偏激进, 需要侵入式应用程序级的更改或新的硬件.本文旨在寻求一种易于部署的机制, 可以提供对新兴快速存储设备的快速访问, 而使用现有内核和文件系统时, 无需专门的硬件或对应用程序进行重大更改.依靠 BPF。

2023-01-31 13:04:05 821

翻译 [论文翻译] XRP: In-Kernel Storage Functions with eBPF

随着微秒级 NVMe 存储设备的出现, Linux 内核存储栈的开销变得非常大, 访问时间几乎翻倍. 我们提出了 XRP, 一个允许应用程序从 NVMe 驱动程序中的 eBPF 钩子(hook)执行用户定义的存储函数(例如索引查找或聚合)的框架, 可以安全地绕过大部分内核的存储栈. 为了保留文件系统语义, XRP 将少量内核状态传播到 NVMe 驱动程序钩子, 在那里用户注册的 eBPF 函数被调用. 我们展示了两个键值存储, BPF-KV, 一个简单的 B。

2023-01-17 17:20:34 417

翻译 [论文翻译] Devign: Effective Vulnerability Identification by Learning Comprehensive Program Semantics

漏洞识别对于保护软件系统免受网络安全攻击至关重要. 尤其重要的是在源代码中定位漏洞函数, 以便于修复. 然而, 这是一个充满挑战和乏味的过程, 还需要专门的安全专业知识. 受各种代码表示图中手动定义漏洞模式的工作以及最近在图神经网络方面的进展的启发, 我们提出了Devign, 一种基于图神经网络的通用模型, 用于通过学习丰富的代码语义表示集进行图级别分类. 它包括一个新的Conv。

2022-12-24 22:39:03 628

原创 [矩阵论] Unit 0. 线性代数 - 部分知识点整理

向量 α1,α2,...,αn\alpha_1,\alpha_2,...,\alpha_nα1,α2,...,αn 线性无关即 k1α1+k2α2+...+knαn=0⃗k_1\alpha_1+k_2\alpha_2+...+k_n\alpha_n=\vec{0}k1α1+k2α2+...+knαn=0, 要求 k1=k2=...=kn=0k_1=k_2=...=k_n=0k1=k2=...=kn=0.求法:非奇异矩阵 ⟺ 行列式不为 0 矩阵 ⟺ 可逆矩阵 ⟺ 满秩矩阵正定矩阵

2022-12-09 21:19:21 835

原创 [矩阵论] Unit 6. 矩阵的 Kronecker 积与 Hadamard 积 - 知识点整理

K-积:Am×n⊗Bs×t=[aijB]ms×nt=[a11B⋯a1nBa21B⋯a2nB⋯⋯⋯am1B⋯amnB]A_{m\times n}\otimes B_{s\times t}=[a_{ij}B]_{ms\times nt}=\begin{bmatrix}a_{11}B&\cdots&a_{1n}B\\a_{21}B&\cdots&a_{2n}B\\\cdots&\cdots&\cdots\\a_{m1}B&\cdots&a_{mn}B\\\end{bmatrix}Am×n⊗Bs×

2022-12-09 09:15:43 651

原创 [矩阵论] Unit 5. 矩阵范数 - 知识点整理

Def 5.1: Vn(F)V_n(F)Vn(F) 上的实值函数 ∥⋅∥:Vn(F)→R+\Vert\cdot\Vert:V_n(F)\rightarrow R^+∥⋅∥:Vn(F)→R+ 满足 ∀x∈V\forall x\in V∀x∈V:齐次性: ∀k∈F,∥kx∥=∣k∣ ∥x∥\forall k\in F, \Vert kx\Vert = |k|\ \Vert x\Vert∀k∈F,∥kx∥=∣k∣ ∥x∥三角不等式: ∥x+y∥≤∥x∥+∥y∥\Vert x + y\Vert \leq \

2022-12-08 20:21:31 1370

原创 [矩阵论] Unit 4. 矩阵的广义逆 - 知识点整理

Def’ 4.1: 设 A∈Cm×nA\in C^{m\times n}A∈Cm×n左逆:必要条件 ⇒ n=r(BA)≤r(A)≤mn=r(BA)\leq r(A)\leq mn=r(BA)≤r(A)≤m充要条件:⟺ AAA 列满秩(瘦高) n=rank(A)≤mn=rank(A)\leq mn=rank(A)≤m⟺ AHAA^HAAHA 可逆 (AL−1A=((AHA)−1AH)A=InA_L^{-1}A=((A^HA)^{-1}A^H)A=I_nAL−1A=((AHA)−1AH)A=In)

2022-12-06 17:17:15 789

原创 [矩阵论] Unit 3. 矩阵的分解 - 知识点整理

Th 3.1 矩阵的 kkk 阶顺主子式: 取矩阵的前 kkk 行、前 kkk 列得到的行列式.Th 3.1: A∈Fn×nA\in F^{n\times n}A∈Fn×n 有唯一 LDV 分解 ⟺ AAA 的顺主子式 ∣Ak∣≠0,k=1,2,...,n−1|A_k|\neq 0, k=1,2,...,n-1∣Ak∣=0,k=1,2,...,n−1, ∣A0∣=1|A_0|=1∣A0∣=1. 其中 D=diag(d1,d2,…,dn),dk=∣Ak∣∣Ak−1∣,k=1,…,nD = diag(

2022-12-05 09:37:52 805

原创 [矩阵论] Unit 2. Jordan 标准形介绍 - 知识点整理

TTT 是 Vn(F)V_n(F)Vn(F) 上的线性变换, TTT 在某组基 {ξ1,ξ2,...ξn}\{\xi_1,\xi_2,...\xi_n\}{ξ1,ξ2,...ξn} 下变换矩阵为对角矩阵 [λ1λ2⋱λn]\begin{bmatrix}\lambda_1& & & \\ &\lambda_2& & \\ & &\ddots& \\ & & &\lambda_n\end{bmatrix}⎣⎢⎢⎡λ1λ2⋱λn⎦⎥⎥⎤ ⟺ T(ξi)=λiξi,i=1,2,...,n

2022-12-05 09:34:57 1056

原创 [矩阵论] Unit 1. 线性空间与线性变换 - 知识点整理

Def 1.1: 设 VVV 是一个非空集合(V≠∅V\neq \varnothingV=∅)，FFF 是一个数域．在其中定义两种运算, 加法与数乘(满足封闭性)：∀α,β∈V,α+β∈V;\forall \alpha,\beta\in V,\alpha+\beta\in V;∀α,β∈V,α+β∈V; ∀α∈V,k∈F,kα∈V\forall\alpha\in V,k\in F,k\alpha\in V∀α∈V,k∈F,kα∈V 并且满足下面 8 条运算性质:5 条运算律:3 个特殊元素:负元(唯

2022-12-05 09:32:44 1007

原创 [计算机网络安全实验] DNS攻击实验

心得体会，以及对本实验的意见和建议略。

2022-11-12 14:04:00 12275 6

原创 [计算机网络安全实验] TCP协议漏洞利用

用户机IP: 172.17.0.2目标机(服务器)IP: 172.17.0.3攻击机IP: 172.17.0.1。

2022-11-12 13:51:39 3291 3

原创数字图像处理练习题整理 (三)

请写出Canny算子检测边缘的详细步骤。Canny边缘检测算法可以分为一下五个步骤：1. 使用高斯滤波器，以平滑图像，滤除噪声。高斯滤波使用的高斯核是具有x和y两个维度的高斯函数，且两个维度上标准差一般取相同，形式为：G(X,Y)=∑x−mx+m∑y−my+mexp∣−x2+y22σ2∣G(X,Y)=\sum\limits^{x+m}\limits_{x-m}\sum\limits^{y+m}\limits_{y-m}exp\vert-\frac{x^2+y^2}{2\sigma^2}\vertG(X,

2022-11-08 19:28:16 1043

原创数字图像处理练习题整理 (二)

请写出生成大小为 (2N+1)×(2N+1)、标准差为 sigma 的高斯模板 H 的方法。二维高斯模板矩阵 HHH, 模板的大小为 (2N+1,2N+1)(2N+1, 2N+1)(2N+1,2N+1), 标准差为 σ\sigmaσ, 则其中 (N,N)(N,N)(N,N) 为模板中心, 则 H(i,j)H(i, j)H(i,j) 的值如下所示:H(i,j)=12πσ2exp⁡(−(i−N−1)2+(j−N−1)22σ2)H(i,j)=\frac{1}{2\pi \sigma^2}\exp(-\fra

2022-11-08 19:22:15 1123 1

原创数字图像处理练习题整理 (一)

说明：不要直接使用MATLAB（或者OPENCV、PYTHON等）所带的图像处理函数，重点考察大家是否理解了各种处理算法。读写图像、显示图像等可直接使用库函数。若自己编程实现了某功能，则应与直接调用库函数的方法进行对比，看结果是否一致，运行速度如何。什么是图像的空间分辨率?直观上看，空间分辨率是图像中可辨别的最小细节的度量。在数量上，空间分辨率可以有很多方法来说明，其中每单位距离线对数和每单位距离点数(像素数)是最通用的度量。空间分辨率度量用每英寸点数（DPI）来表示。空间分辨率越大，图片效果越好。什么是

2022-11-08 19:08:18 3038

原创 C++ Boost 库 Windows 环境 GCC 编译安装及 CMake 相关配置

Boost 在 Windows 操作系统上编译安装默认使用 Visual Studio 的 MSVC 编译器, 由于笔者个人比较习惯使用 CLion 作为 C++ 的集成开发环境并使用 GCC 编译代码, 因此本文主要是的记录与说明, 同时最后也记录了如何以编写调用 Boost 库的代码.

2022-09-27 18:51:54 3479 11

原创 [论文笔记] MapReduce: Simplified Data Processing on Large Clusters

MapReduce 是一种用于处理和生成大型数据集的编程模型和相关实现 .用户指定一个处理键值对以生成一组中间键值对的mapmapmap函数, 以及一个合并与同一中间键关联的所有中间值的reducereducereduce函数.特点: 自动并行化并在大型集群上执行. 运行时系统负责对输入数据进行分区、调度程序执行、处理机器故障以及管理所需的机器间通信等细节.分布式计算的输入数据很大, 处理并行计算、分发数据和处理故障等分布式所具有的问题掩盖了原本问题的简单计算....

2022-08-04 19:16:10 979 2

原创浅析 Dockerfile 中 RUN、CMD 以及 ENTRYPOINT 指令的异同

RUN、CMD和ENTRYPOINT指令都可以用来执行具体的命令.RUN指令是在Docker镜像构建时发挥作用,可以使用多个该命令,且执行结果会记录到镜像中.CMD和ENTYPOINT指令是在容器启动时自动执行,均只有最后一个该指令有效,且均可以在dockerrun中被覆盖.ENTRYPOINT指令和CMD的区别在于使用ENTRYPOINT时CMD指令会被作为其默认参数,而用户也可以在启动容器时通过覆盖CMD指令来输入参数;此外,这也意味着ENTRYPOINT指令的内容..........

2022-07-16 14:31:25 4290 2

原创 [论文笔记] GraphMat: High performance graph analytics made productive

GraphMat：高性能图分析提高生产力 [Paper] [Slides] [Code]VLDB’15弥合用户友好的图分析框架和本地手动优化代码之间的差距采用结点编程(前端)并将其映射到后端的高性能稀疏矩阵运算, 性能主要取决于一些可扩展且易于理解的稀疏矩阵运算单节点多核图框架大多数图框架比原生的手动优化代码性能下降了一个数量级需要最大限度地提高图框架在现有硬件上的效率(除了关注横向扩展问题外)GraphMat 主要思想: 采用结点编程并将其映射到广义稀疏矩阵向量乘法运算(Sparse Matri

2022-07-09 02:04:40 2481

空空如也

空空如也