cyz0202-CSDN博客

原创自定义卷积注意力算子的CUDA实现

自定义卷积注意力算子的CUDA实现

2022-06-22 13:23:15 1039

原创 CUDA实现focal_loss

本文介绍如何用CUDA进行算子实现，以mmdetection的focal_loss实现为例

2022-06-06 19:02:16 1214 1

本系列文章Intel Distiller工具包-量化实现1Intel Distiller工具包-量化实现2Intel Distiller工具包-量化实现3回顾上一篇文章中介绍了Distiller及Quantizer基类，基类定义了重要的变量，如replacement_factory（dict，用于记录待量化module对应的wrapper）；此外定义了量化流程，包括预处理（BN折叠，激活优化等）、量化模块替换、后处理等主要步骤；本文介绍继承自Quantizer的子类量化...

2022-05-31 16:35:37 206

原创 Intel Distiller工具包-量化实现2

本系列文章Intel Distiller工具包-量化实现1https://blog.csdn.net/cyz0202/article/details/125030673回顾上一篇文章中介绍了Distiller及Quantizer基类，基类定义了重要的变量，如replacement_factory（dict，用于记录待量化module对应的wrapper）；此外定义了量化流程，包括预处理（BN折叠，激活优化等）、量化模块替换、后处理等主要步骤；本文介绍继承自Quantizer的子类量化..

2022-05-31 01:03:23 312 2

原创 Intel Distiller工具包-量化实现1

DistillerDistiller是Intel2019年左右开发的一个

2022-05-29 23:58:18 439 3

原创 C++_CUDA入门

NVIDIA CUDA入门blog-An Even Easier Introduction to CUDA

2022-05-29 13:51:16 2624

原创 BMINF的后训练量化实现

BMINFBMINF是清华大学开发的大模型推理工具，目前主要针对该团队的CPM系列模型做推断优化。该工具实现了内存/显存调度优化，利用cupy/cuda实现了后训练量化等功能，本文记录分析该工具的后训练量化实现。主要关注cupy操作cuda实现量化的部分，涉及量化的原理可能不会做详细介绍，需要读者查阅其他资料；实现代码分析1量化部分的入口代码主要是在 tools/migrate_xxx.py，这里以 tools/migrate_cpm2.py为例；main函数build_mo

2022-05-27 15:52:48 644

原创 Transformer relative position的一种实现方式

参考自 GitHub BMINF项目直接上代码class PositionBias(Layer): def __init__(self, num_buckets, num_heads, is_decoder): self.num_buckets = num_buckets self.is_decoder = is_decoder self.num_heads = num_heads self.embedding = Embedd.

2022-05-23 20:36:23 262

原创 spark学习

Spark2.4.5RDD的转换操作学习mapPartitions例子：给定rdd1 = sc.makeRDD(1 to 10, 4)，请输出各partition的"|“拼接结果；=> rdd1.mapPartitions(x => Iterator(x.mkString(”|"))).collectnote：要注意Iterator的使用是为了满足partition的要求；...

2022-05-23 15:58:38 139

原创 NLP-transformer部分知识点

1. Scaled Dot-Product Attention中为什么要除以-

2022-05-17 10:21:12 454

原创空洞卷积+转置卷积+反卷积

1. 空洞卷积1.1 如上图所示，空洞卷积是为了增加感受野（pooling虽然能增加感受野，但是容易丢失原有信息）；1.2 实现原理：图a为普通3*3卷积（注：该卷积也可视为空洞率=1的空洞卷积，见以下说明）；图b是空洞率=2的空洞卷积，即向原有卷积核前中后都插入一个权重为0的格子；此时卷积核变为77，但是有值的格子还是只有原来的33；图c是空洞率=4的空洞卷积，情况如图b；1.3 空洞卷积的应用：如下是在语音里的应用（Dilation=2即空洞率为2）1.4 补充：pooling

2022-05-05 13:54:54 425

原创 nvidia混合精度训练原理

参考自 nvidia-mixed-precision-trainingMixed Precision Training背景：减少内存消耗、提高训练、推断速度基本思想：大部分相对不重要的计算使用FP16，少量重要的计算使用FP32实际实现主要考虑两大部分：哪些部分使用FP16针对FP16可能带来的性能衰退做相应优化，主要是添加 loss scale一个例子展示效果半精度格式IEEE754规定16bits半精度浮点数格式为：1 sign bit, 5 exponent bit.

2021-07-13 10:15:38 359

原创 label-bias-problem

参考自：label-bias-problem1label-bias-problem2B站白板推导MEMM-CRF现象描述该问题来自对局部转移概率的归一化；直观地想象状态S的向外转移分支较少时，各分支会得到更多的probability；状态S的向外转移分支虽多，但是其实真实数据中这些转移发生次数都比较少，因为归一化，S的转移概率分布也可能和其他状态的常见转移一样；上述两种现象针对的问题就是，本身从当前状态S向外转移在数据中并不常见，但是由于S外转分支少，再加上做归一化，就会.

2021-07-02 15:10:50 375

原创 GCN理解

主要内容参考自该知乎高赞回答 @superbrother，加入个人理解，侵删；本文介绍GCN原理，不是科普入门，需要熟悉矩阵、高数、深度学习；对矩阵分解不熟悉的请先看最后的补充知识部分（注意不是从头讲解）背景介绍为什么研究GCN主要是有不规则图需要处理的场景，如社交网络等；处理拓扑图空间特征的两种方式具体分析1）图卷积理论图拉普拉斯矩阵为什么使用L（拉普拉斯）矩阵L矩阵的谱分解：GCN的核心基于拉普拉斯矩阵的谱分解如[何从传统的傅里叶变换、卷积类比到.

2021-03-23 17:46:28 273 1

原创 linux-设置网络类型

内容来自itbaizhanNAT：网络地址转换模式Bridge：桥接/桥连模式区别：假设物理机U的局域网ip地址：192.168.1.5创建虚拟机V时（如下图图片示例），如果使用NAT网络类型，则V被分配的ip地址可能为192.168.203.5；V访问外网时，NAT技术会将V的ip地址转换成物理机U的公用IP地址，因此可以访问外网；NAT优点：NAT有点是节省ip，只要访问外网时进行一下转换即可；NAT缺点：V与物理机U的ip区别是不在同一个网段，因此两者没法直接互相访问；桥连：.

2021-03-16 22:37:32 210

原创 mysql基本操作2

视图性质概念：利用已有数据构建出来的虚拟表特性：因为是虚拟的，所以真实数据变动，该表数据也会相应变动好处：子表查询较多时，可以用视图把常用子表创建出来保护机密数据：如student表涉及全校15个院系的学生数据，此时可以定义15个视图分别给相应院系的人使用和修改；可以适当修改实体表结构而不影响已有视图视图操作视图创建单表查询创建视图 select ename, sal, hiredate, job from emp create view emp_view a..

2021-03-09 22:25:26 99 1

原创 BERT-Whole Word Masked(WWM)

记录一下BERT的WWM实现和中文的WWM上代码: 英文 Bert-WWM数据创建方法def create_masked_lm_predictions(tokens, masked_lm_prob, max_predictions_per_seq, vocab_words, rng): """ Creates the predictions for the masked LM objective. para.

2021-03-02 18:19:24 1116

原创 mysql基本操作1

创建数据库create database dbname; # dbname为所创建数据库名称查看数据库show create database dbname;修改数据库编码alter database dbname character set “gbk”删除数据库drop databse dbname;创建表语法如下：create table 表名( 字段名1 字段类型1 [完整性约束], # 注意需要逗号，[]表示optional 字..

2021-02-19 00:24:26 350

原创子集-组合问题

leetcode39-子集问题leetcode78-组合问题LC39子集问题题目一解法思想：迭代、递归/回溯迭代法：思想是，每增加一个数，新增加的子集跟已有子集关系密切，具体如下令nums=[0,1,2]，观察[0,1]增加2后子集的变化nums的子集为[ [ ], [0], [1], [0, 1], [2], [0,2], [1,2], [0,1,2] ]令nums1=[0,1]，子集为[ [ ], [0], [1], [0,1] ]，与nums子集非黄色部分一样观察n.

2021-02-08 12:03:52 441 1

原创 RealFormer

1)本文参考自@苏剑林 RealFormer：把残差转移到Attention矩阵上面去，主要是做一些个人的注解2)以下阴影背景部分为引用上述文章，“注：”部分为本文添加背景Layer Normalization 是 Transformer 模型的重要组成之一，它的用法有 PostLN 和 PreLN 两种，论文 On Layer Normalization in the Transformer Architecture [1] 中有对两者比较详细的分析。简单来说，就是 PreLN 对梯度下降更加.

2021-01-26 14:30:51 611

空空如也

空空如也