- 博客(49)
- 资源 (5)
- 收藏
- 关注
原创 tensorrt,tensorrtllm优化原理
模型中有很多层,在部署模型推理时,每一层的运算操作都是由GPU完成的,但实际上是GPU通过启动不同的CUDA(Compute unified device architecture)核心来完成计算的,CUDA核心计算张量的速度是很快的,但是往往大量的时间是浪费在CUDA核心的启动和对每一层输入/输出张量的读写操作上面,这造成了内存带宽的瓶颈和GPU资源的浪费。当输入有多个batch的时候,由于GPU的并行计算的特性,不同的batch会同步到不同的CUDA核心中进行并行计算,提高了单位时间GPU的利用率。
2024-05-07 16:31:11 891
原创 ubuntu20.04 k8s nvidia-device-plugin: failed to initialize NVML
nvidia-device-plugin failed to initialize NVML k8s kubenetes ubuntu20.04
2022-11-02 11:39:34 1208 4
原创 RBAC 基于权限的访问控制 serviceaccount -- clusterRole clusterRoleBinding
从上面我们可以看到我们没有为这个资源对象声明 namespace,因为这是一个 ClusterRoleBinding 资源对象,是作用于整个集群的,我们也没有单独新建一个 ClusterRole 对象,而是使用的 cluster-admin 这个对象。如果我们现在创建一个新的 ServiceAccount,需要他操作的权限作用于所有的 namespace,这个时候我们就需要使用到 ClusterRole 和 ClusterRoleBinding 这两种资源对象了。
2022-09-19 19:29:36 252
转载 ubuntu nfs
1、NFS 介绍NFS(Network File System)即网络文件系统,是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。2、安装 NFS 软件包sudo apt-get install nfs-kernel-server # 安装 NFS服务器端sudo apt-get install nfs-common # 安装 ...
2022-05-04 17:03:47 577
原创 nvidia 驱动升级
系统 Ubuntu 16.041.禁用系统默认显卡驱动(1). 打开黑名单vi /etc/modprobe.d/blacklist.conf(2).将下列代码填入文件末尾:# for nvidia display device installblacklist vga16fbblacklist nouveaublacklist rivafbblacklist rivatvblacklist nvidiafb(3).保存,然后更新initramfs:sudo up
2022-04-18 10:15:50 764
转载 私有docker registry的使用--push,pull,search,delete
私有docker registry的使用--push,pull,search,delete - 云+社区 - 腾讯云
2022-04-13 13:53:06 212
原创 shell生成文件内容,插入变量到行
[root@ccsrv shell]# cat cat_file.sh#!/bin/bashTEST_VAR=123rm -f ./test_file.txtcat > ./test_file.txt<<TEST_EOFtest file content$TEST_VAR#INSERT_HEREtest endTEST_EOFsed -i '/#INSERT_HERE/a\insert_content="'"${TEST_VAR}"'"' ./test_fil..
2022-02-28 17:27:10 707
原创 SSH 端口转发
1.参数-f 后台认证用户/密码,通常和-N连用,不用登录到远程主机。-N 不执行脚本或命令,通常与-f连用本地转发ssh -f -N -L local_port:remote_host:remote_port username@tunnel_host在本地打开local_port端口监听,把发送到这个端口的TCP数据包经过tunnel_host之后,发送到remote_host的remote_port上远程转发ssh -f -N -R remote_port:local
2022-02-14 15:29:06 877
转载 软件系统架构评估方法SAAM 介绍
SAAM(软件系统架构分析方法),它也是一种基于场景的评估方法,最早用于分析体系结构的可修改性,后来也用于其他质量属性的评估,主要包括如下6个步骤:1. 形成场景2. 描述体系结构3. 对场景进行分类和确定优先级4. 对间接场景进行单个评估5. 评估场景的相互作用6. 形成总体评价1.形成场景指的是风险承担者们集中在一起,集体讨论,提出一个个系统需求场景。记录人员把这些场景记录在册,形成文档的过程。2.描述体系结构指的是体现结构设计师,对待评估的体系结构进行适当的描述
2021-10-06 09:02:29 4559
转载 PyTorch加载模型model.load_state_dict()问题,Unexpected key(s) in state_dict: “module.features..,Expected .
Unexpected key(s) in state_dict: "module.features. ...".,Expected ".features....". 直接原因是key值名字不对应。 表明了加载过程中,期望获得的key值为feature...,而不是module.features....。这是由模型保存过程中导致的,模型应该是在DataParallel模式下面,也就是采用了多GPU训练模型,然后直接保存的。 You probably saved the model ...
2021-09-18 15:06:56 4337
原创 C++用clock()统计程序运行时间时的坑
clock()是C/C++中的计时函数,与其相关的数据类型是clock_t,头文件是time.h/ctime。clock()函数的功能是:返回从“开启这个程序进程”到“程序中调用clock()函数”时之间的CPU时钟计时单元数(clock tick)。在C/C++中,定义了一个常量CLOCKS_PER_SEC,它用来表示一秒钟会有多少个时钟计时单元。clock_t是长整型 long,返回的是整形,通常要以转换成浮点数类型。坑clock()函数测量的是处理器的CPU时间,而不是实际的时间,
2021-08-24 16:30:57 1923
原创 C++ LD_DEBUG
#LD_DEBUG=help lsValid options for the LD_DEBUG environment variable are:libsdisplay library search pathsreloc display relocation processingfiles display progress for input filesymbols display symbol table processing...
2021-06-22 10:40:34 385
原创 Opencv找不到 opencv2/gpu/gpu.hpp
新版本//#include "opencv2/gpu/gpu.hpp" 替换为如下:#include "opencv2/core/cuda.hpp"//using namespace cv::gpu; 替换为如下:using namespace cv::cuda;
2021-06-02 16:52:52 887
原创 cuda编译
https://blog.csdn.net/weixin_30682415/article/details/98036624?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_v2~rank_aggregation-5-98036624.pc_agg_rank_aggregation&utm_term=cu%E6%96%87%E4%BB%B6%E7%BC%96%E8%...
2021-04-28 15:35:00 54
转载 vsftp配置
ubuntu1.安装vsftp2.修改配置文件vi /etc/vsftpd.conf见最后3..新增目录 mkdir -p /data/ftp/ftptest4.新增用户useradd -d /data/ftp/ftptest-g ftp -s /sbin/nologin ftptest5.设置密码passwdftptest6.修改目录权chown -R ftp:testftp/data/ftp/ftptest7.测试验证ftp 127.0.0....
2021-04-26 18:52:44 1230
原创 ubuntu配置网络
1.查看ifconfig2.一个网卡配置多个ip修改/etc/network/interfaces文件auto enp0s31f6iface enp0s31f6 inet staticaddress 192.168.63.41netmask 255.255.255.0auto enp0s31f6:0iface enp0s31f6:0 inet staticaddress 192.168.1.11netmask 255.255.255.03.查看网关netstat -r
2021-04-26 17:32:54 149
转载 CUDA中grid、block、thread、warp、SM、SP
首先概括一下这几个概念。其中SM(Streaming Multiprocessor)和SP(streaming Processor)是硬件层次的,其中一个SM可以包含多个SP。thread是一个线程,多个thread组成一个线程块block,多个block又组成一个线程网格grid。现在就说一下一个kenerl函数是怎么执行的。一个kernel程式会有一个grid,grid底下又有数个block,每个block是一个thread群组。在同一个block中thread可以通过共享内存(shared mem
2021-04-22 17:03:45 1242
原创 docker 常用操作
1.加载镜像docker load -i test_v1.tardd5242c2dc8a:Loading layer [=======================================>] 119.2MB/119.2MBce5242c2d542:Loading layer [=======================================>] 18.2MB/18.2MB2.查看加载的镜像docker imagesREPOSITORY...
2021-04-21 15:43:41 45
原创 pstack 脚本
脚本写入shell文件pstack,直接执行这个脚本pstack pid#!/bin/shif test $# -ne 1; then echo "Usage: `basename $0 .sh` <process-id>" 1>&2 exit 1fiif test ! -r /proc/$1; then echo "Process $1 not found." 1>&2 exit 1fi# GDB doe...
2021-04-21 09:51:56 352
原创 alias 传参
alias cdls=`func() { cd $1; ls -ltr;}; func`使用cdls/home/test进入/home/test目录并列出文件
2021-04-20 17:14:13 470
原创 离线下载python安装包以及依赖包
在外网环境1、安装pipdeptree:2.安装要安装的安装包(pyinstaller)3.pipdeptree 查看并生成requirements.txt4.下载5,复制downloadfile下文件到要安装的离线机器
2021-04-01 16:59:34 524
原创 Python在Linux后台重定向无输出
Python在Linux后台重定向问题。Python将其输出到缓存区,导致重定向文件看不到数据,关闭即可:-u:关闭缓冲如:nohup python -u test.py > t.log &
2021-03-18 19:03:43 474
原创 cmake编译参数
cmakeSET(CMAKE_BUILD_WITH_INSTALL_RPATH TRUE)SET(CMAKE_INSTALL_RPATH "\${ORIGIN}/lib") #指定运行时动态库的加载路径,ORIGIN指运行文件所在目录makefilegcc -L选项在链接时指定动态库路径,编译通过,但是执行时会找不到路径;gcc -Wl -rpath选项在运行时指定路径,运行时按照指定路径寻找动态库;也就是说处理动态链接库时有2个路径:链接时路径和运行时路径,2个路径是分开的;..
2020-12-21 15:48:51 967
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人