自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(149)
  • 资源 (4)
  • 收藏
  • 关注

原创 使用cutlass实现多种精度的GEMM,支持cuda core与tensor core

使用cutlass实现多种精度的GEMM,附有完整代码与cmakelist

2024-03-27 20:42:15 702

原创 glog使用指南

应用级别日志记录库glog

2024-03-14 10:25:58 1173

原创 Sora技术报告——Video generation models as world simulators

我们在视频数据上探索生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明,缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。

2024-02-16 18:23:36 1733

原创 torch.multiprocessing

torch.multiprocessing是具有额外功能的multiprocessing,其 API 与multiprocessing完全兼容,因此我们可以将其用作直接替代品。multiprocessing支持 3 种进程启动方法:fork(Unix 上默认)、spawn(Windows 和 MacOS 上默认)和forkserver。要在子进程中使用 CUDA,必须使用forkserver或spawn。启动方法应该通过set_start_method()在if== '

2023-08-04 11:38:35 1203

原创 flash attention1和2

虽然non-matmul FLOPs仅占总FLOPs的一小部分,但它们的执行时间较长,这是因为GPU有专用的矩阵乘法计算单元,其吞吐量高达非矩阵乘法吞吐量的16倍。这个过程使用更多的flop,由于减少HBM访问,重新计算也加快了反向传播的速度。,为了减少对HBM的读写,FlashAttention将参与计算的矩阵进行分块送进SRAM,减少了HBM访存,来提高整体读写速度。,将QK划分成块后,只能计算局部,设置长为N的全局max(x)和全局。,每次计算完局部后,更新这俩全局向量,更新的方法就是乘。

2023-07-24 19:29:46 1034

原创 GQA阅读

多query注意(MQA)仅使用单个key头,大大加快了解码器推理速度。然而,MQA可能导致质量下降,而且仅仅为了更快的推理而训练一个单独的模型可能是不可取的。MHA(Multi-head Attention)是标准的多头注意力机制,h个Query、Key 和 Value 矩阵。

2023-07-24 10:29:47 878

原创 cuda在申请sharedmemory和原子操作时对fp16bf16等的支持

注意shared memory的申请和原子操作(计算能力大于8的支持bf16等,这里使用的是torch的gpuAtomicAdd)的问题。给pytorch写cuda算子时,需要支持多种数据类型,可以使用模板。

2023-07-02 16:37:26 438

原创 LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Gener

gpt llm 量化

2023-06-19 11:21:09 677

原创 alpa概览

在编译步骤中,Alpa采用计算图形式的模型描述和设备集群作为输入,并执行一些编译和优化以生成模型并行执行计划,该计划是为模型和集群定制的。然后,Alpa根据训练代码和并行执行计划为集群中的每个参与计算设备生成二进制可执行文件。在运行时步骤中,Alpa编排这些可执行文件在集群上的并行执行。

2023-06-08 00:03:38 602

原创 Megatron + zero

大模型并行优化

2023-06-05 18:11:19 131667

原创 C++面经

c++面试八股文

2023-03-20 23:02:34 1591 3

原创 cuda性能分析工具

cuda性能分析工具

2023-02-14 17:02:25 1607 4

原创 算法总结c++

数据结构和算法 c++

2023-02-13 17:32:26 703

原创 数据结构c++

【代码】数据结构c++

2023-02-08 09:50:04 214

原创 pytorch + tensorboard远程可视化

tensorboard+pytorch在远程服务器下的使用方法

2022-09-14 10:59:53 1109 2

原创 ros导航避障

move_base全局路径规划局部路径规划move_basemove_base包采用action机制接受导航goal,然后移动机器人底座到达指定的goal。 这个过程中move_base node将同时利用局部规划器和全局规划器来完成导航任务:(1) 全局路径规划(global planner):根据给定的目标位置进行总体路径的规划;(2) 本地实时规划(local planner):根据附近的障碍物进行躲避路线规划。支持任何一种继承了nav_core包中nav_core::BaseGlobal.

2022-01-08 14:54:27 4931

原创 ubuntu20 ros kobuki全纪录

安装ros noetic安装kobuki双目相机建图安装ros noeticsudo sh -c '. /etc/lsb-release && echo "deb http://mirrors.tuna.tsinghua.edu.cn/ros/ubuntu/ $DISTRIB_CODENAME main" > /etc/apt/sources.list.d/ros-latest.list'sudo apt install curl # if you haven't alrea.

2021-12-30 22:02:41 1493

原创 Ensure there is enough space in /tmp and that the installation package is not corrupt Signal caught,

sudo sh cuda_11.4.1_470.57.02_linux.run Extraction failed.Ensure there is enough space in /tmp and that the installation package is not corruptSignal caught, cleaning up1找一个大空间,建立文件夹sudo sh cuda_11.4.1_470.57.02_linux.run --tmpdir=./mycudaspace/.

2021-11-11 20:30:00 7756 1

原创 gazebo仿真 街区 机器人 记录

1. 下载model库下载https://github.com/osrf/gazebo_models,解压重命名为models。移动到~/.gazebo文件夹中2. world模型https://github.com/KalanaRatnayake/Multi-robot-mapping/tree/c7dfc4e2d8d809e49038b3792b7c045429c039e03. rossource /opt/ros/eloquent/setup.bash...

2021-11-10 13:53:02 958

原创 ros actor lidar

1.sudo apt-get install ros-xxx-joint-state-publisher-guixxx替换为当前ros版本 kinetic indigo melodic2.https://blog.csdn.net/qq_43279579/article/details/115017677?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBl

2021-11-04 17:29:17 156

原创 g2o 相机和点同时优化 BA

https://blog.csdn.net/z504727099/article/details/116243129https://github.com/JohnsonLC/SLAM_practice/tree/87d503d7b97882e5f0d1826bf53b35757ee3a9f0/ch9/srchttps://github.com/Tamray/slam-learning/blob/8d704cf5c1e7357ad2d3006ce9568057f7f5ea0d/include/trslam

2021-10-22 20:33:47 143

原创 effective c++

effective c++C++ explicitC++ explicitexplicit关键字只需用于类内的单参数构造函数前面,它的作用是表明该构造函数是显示的, 而非隐式的。google约定所有单参数的构造函数都必须是显示的类构造函数默认情况下即声明为implicit(隐式).#include <iostream>class CxString // 使用关键字explicit的类声明, 显示转换{public: char *_pstr; int _size

2021-10-18 14:09:40 110

原创 3d bounding box 标注工具

3d bounding box 标注工具3d-bat / 257starpoint-cloud-annotation-tool /266starSUSTechPoints /131starLabelHub3d-bat / 257starhttps://github.com/walzimmer/3d-batgithub写明了标注流程方法。支持 PCD 点云渲染和基本立方体标注功能的标注工具.https://arxiv.org/pdf/1905.00525.pdf在本文中,我们专注于在新型 3D 边

2021-10-16 14:18:33 4366 3

原创 c++ 友元函数、友元类、内联函数

c++ 友元函数、友元类、内联函数友元函数友元类内联函数友元函数在C++中,我们使用类对数据进行了隐藏和封装,类的数据成员一般都定义为私有成员,成员函数一般都定义为公有的,以此提供类与外界的通讯接口。public:可以被该类中的函数、子类的函数、友元函数访问,也可以由该类的对象访问;protected:可以被该类中的函数、子类的函数、友元函数访问,但不可以由该类的对象访问;private:可以被该类中的函数、友元函数访问,但不可以由子类的函数、该类的对象、访问。但是,有时需要定义一些函数,这

2021-10-12 21:04:05 420

原创 c++多态、虚函数、纯虚函数、抽象类

c++多态、虚函数、纯虚函数、抽象类多态虚函数纯虚函数抽象类多态使用场景:将 基类类型的指针或者引用 指向 子类对象,并调用子类的虚函数。多态(polymorphism)是面向对象编程语言的一大特点,而虚函数是实现多态的机制。其核心理念就是通过基类访问派生类定义的函数。多态性使得程序调用的函数是在运行时动态确定的,而不是在编译时静态确定的。形成多态必须具备三个条件:1、必须存在继承关系;2、继承关系必须有同名虚函数(其中虚函数是在基类中使用关键字Virtual声明的函数,在派生类中重新定义基类中

2021-10-12 20:06:23 213

原创 VDO-SLAM: A Visual Dynamic Object-aware SLAM System

https://www.cnblogs.com/CV-life/p/13644001.htmlhttps://blog.csdn.net/electech6/article/details/108506856https://zhuanlan.zhihu.com/p/163816831

2021-10-09 12:58:58 685

原创 STAIR: Hardware and Software Architecture

STAIR: Hardware and Software ArchitectureAbstractIntroductionHardware SystemsSTAIR 1STAIR 2Software SystemsRequirements并行处理模块化跨平台Robot-independent代码优美设计选择消息传递的拓扑结构Master Server 主服务器进程启动进程连接数据流Data Flow Registration端口配置Operationgraph设计框架用法:“获取订书机”口头对话导航目标检测

2021-10-08 22:42:45 264

原创 JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset

JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset摘要:INTRODUCTIONRELATED WORKJRMOTa. 2D Detectionb. 2D Appearancec. 3D Detection and Appearanced. Feature Fusione. Data Association小结摘要:自主导航的机器人需要感知和跟踪周围物体和其他代理的运动。这些信息使规划和执行可靠和安全的轨迹成为

2021-09-30 17:16:54 736 1

原创 ROS2学习

@TOCROS 2 依赖于使用 shell 环境组合工作区。 “工作区”是一个 ROS 术语,表示您使用 ROS 2 进行开发的系统上的位置。 核心 ROS 2 工作区称为底层。 随后的本地工作区称为叠加层。 使用 ROS 2 进行开发时,您通常会有多个工作区同时处于活动状态。结合工作区可以更轻松地针对不同版本的 ROS 2 或不同的软件包集进行开发。 它还允许在同一台计算机上安装多个 ROS 2 发行版(或“发行版”,例如 Dashing 和 Eloquent)并在它们之间切换。这是通过在每次打开新

2021-09-29 00:10:35 368

原创 ROS1学习

ROS 是一个适用于机器人的开源操作系统。它提供了操作系统应有的服务,包括硬件抽象、底层设备控制、常用函数实现、进程间消息传递和包管理。它也提供用于获取、编译、编写和跨计算机运行代码所需的工具和库函数。ROS11. ROS工作空间2. ROS 文件系统2.1 rospack 获取有关包的信息2.2 roscd 和 rosls3. 创建 ROS 包3.1创建3.2 构建一个 catkin 工作区并获取安装文件3.3 包依赖3.4 定制包4. Build包5. 理解ROS节点5.1 节点5.2 客户端库5.

2021-09-26 13:24:52 377

原创 卡尔曼滤波

卡尔曼滤波:从入门到精通 - David LEE的文章 - 知乎https://zhuanlan.zhihu.com/p/36745755https://blog.csdn.net/weixin_41203075/article/details/104410841卡尔曼滤波(Kalman Filter)原理与公式推导 - 涅索斯衬衫的文章 - 知乎https://zhuanlan.zhihu.com/p/48876718...

2021-09-25 14:10:16 76

原创 Leveraging Stereo-Camera Data for Real-Time Dynamic Obstacle Detection and Tracking

Leveraging Stereo-Camera Data for Real-Time Dynamic Obstacle Detection and Tracking简介评价指标:相关工作分析:contribution方法1. 点云生成a. 块匹配 //TODOb. 深度学习MADNet //TODO2. 点云滤波2.1 剪裁2.2 滤波3. 聚类、3d追踪3.1 聚类 // TODO DBSCAN3.2 3d追踪4. 动态 与 静态 分类4.1 投票依据:速度4.2 下面的点 没有投票权 // TODO?

2021-09-12 16:16:30 706 1

原创 2021-09-05

在anaconda里,用 python setup.py install安装包,但是在项目中 import找不到,import syssys.path.append(path)

2021-09-05 11:34:35 49

原创 libxxx.so cannot open shared object file No such file or directory

libxxx.so cannot open shared object file No such file or directory没安装装了没找到所以先定位locate libxxx.so,找到了说明装了Linux下ld对于动态库的搜索路径的配置方式包括以下几种方式:通过配置gcc编译器的参数-Wl,-rpath指定;通过LD_LIBRARY_PATH环境变量指定;通过sudo vim /etc/ld.so.conf指定,切记修改完ld.so.conf之后必须执行sudo /sbin/

2021-08-31 11:28:16 1988

原创 jaston nano

https://zhuanlan.zhihu.com/p/348159247https://blog.csdn.net/weixin_48131397/article/details/111309758https://blog.csdn.net/shakalakaphd/article/details/109411938https://blog.csdn.net/qq_19707521/article/details/106191572?utm_medium=distribute.pc_aggpag.

2021-08-27 20:45:18 186

原创 cuda operator稀疏矩阵csr相乘

#include <iostream>#include<malloc.h>#include "cuda_runtime.h"#include <cusparse_v2.h>template<typename T>int csrmatrix_mul_csrmatrix(const int rows_num, const int nonzero_num_A, const int nonzero_num_B, T *c

2021-08-05 21:00:53 841 3

原创 cuda operator稀疏矩阵csr相加

https://docs.nvidia.com/cuda/cusparse/#cusparse-generic-function-spsm#include <iostream>#include<malloc.h>#include "cuda_runtime.h"#include <cusparse_v2.h>template<typename T>int csrmatrix_mul(const int rows_num, const int.

2021-08-05 19:54:58 331 3

原创 CUDA debug大法 GDB

在Cion上,没法进去CUDA kernel 调试,所以需要GDB。在clion的终端生成可调试文件 nvcc -g -G main.cu -o main运行文件cuda-gdb main回车开始start在53行设置断点b 53cc是continue查看变量值p val_num变换threadscuda thread (0,7,0)跳到threadsIdx.x=0, threadsIdx.y=7的线程...

2021-07-30 14:29:48 1287

原创 将cusparse、cublas加到CMakelist

cmake_minimum_required(VERSION 3.19)project(myCG CUDA)set(CMAKE_CUDA_STANDARD 14)enable_language(CXX CUDA)add_executable(myCG main.cu)find_package(CUDA)target_link_libraries( myCG ${CUDA_cusparse_LIBRARY} ${CUDA_cublas_LIBRARY} )set_target_propert

2021-07-27 15:48:07 1088

原创 cuda工具

在终端运行nvvp点击file -> new session在file里选择可执行文件即可

2021-07-27 11:42:52 1320

GCN图卷积知识点和推导

mindmasterGCN图卷积笔记,内含公式推导以及相关知识,结构清晰,便于学习。

2020-09-26

机器学习算法

mindmaster的思维导图,内含机器学习经典算法的公式推导以及相关知识,结构清晰,便于学习。

2019-09-07

python知识网.emmx

mindmaster格式的python思维导图,内含代码展示,以及相关拓展链接

2019-09-07

GPS在stm32单片机例程

关于gps模块的解析:编写单片机代码,解析 NMEA-0183数据,从而得到GPS定位的各种信息。

2018-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除