自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 问答 (1)
  • 收藏
  • 关注

原创 【RAG】在 InternLM Studio 上部署茴香豆技术助手

设置接受问题列表和拒答问题列表,在问题进来时,先进行相似度匹配,与接受问题列表里的内容相似的才进行回复,否则在用户群聊中,有很多闲聊是不需要回复的。在实践过程中学到很多知识点,尤其是linux指令。部署位置为Intern Studio 开发机。感觉知识库里没有的内容,搜索不到也会不回答。

2024-04-13 14:08:40 159

原创 mobaXterm使用密钥免密登录服务器,并且在Vscode中使用ppk密钥进行远程连接

本文介绍在mobaXterm上免密登录的过程,并且在vscode中也免密登录服务器。

2024-04-11 16:08:07 320

原创 InternLM2-Chat-1.8B 模型测试

进行InternLM2-Chat-1.8B模型访问,进入开发机后。不知道是对齐的时候太严格了还是怎么样,能力有限。

2024-04-05 15:34:45 391 1

原创 第一次作业学习笔记

规则处理:随机爬的网页很多脏数据,针对标点符号的异常断行、异常字符出现频率、标点符号分布情况等设计了一系列启发式过滤规则。安全过滤:采用“域名屏蔽”、“词屏蔽”、“色情分类”和“毒性分类”相结合的综合安全策略对数据进行过滤。对模型中的权重矩阵如Wk, Wq, Wv进行了调整,以支持不同的张量并行转换,并提高训练速度。质量过滤:互联网来源的数据包含大量低质量的内容,人工按照一些维度标注,然后训练模型二次过滤。激活函数选择了SwiGLU之类的激活函数,提升了模型的性能。数据格式化:爬的网页提取正文和检测语言。

2024-03-31 19:53:21 207

原创 服务器上虚拟环境里的jupyter notebook连接不上kernal,显示not connection to kernel

在服务器上新建了一个虚拟环境,下载了相关的包后,使用以下代码新建了kernal然后输入jupyter notebook启动,却显示not connection to kernel。

2024-03-25 02:48:34 292

原创 移动硬盘分区打不开,显示函数不正确

如果你的是装在硬盘壳里的,没有装在电脑里,可以打开硬盘壳看看,卡是不是松了。某天移动硬盘突然打不开文件了,显示函数不正确,以为硬盘被我硬插拔弄坏了。如果松了就重新插回去就好啦!

2024-03-21 22:53:40 112

原创 pycharm里test connection连接成功,但是无法同步服务器文件,deployment变灰

如果能正常显示服务器文件夹,再点击tools-deployment,就会发现不是灰色的了,可以同步文件了。点击tools-deployment-browse remonte host,选择要连接的服务器的文件夹。如果服务器test connection连接成功,但是无法同步文件。

2024-03-18 02:22:48 436

原创 【疑难杂症】conda虚拟环境里使用which python 与虚拟环境名称对应不上的问题

把.bashrc里的这行删除,重新指定export PATH="/home/xxx/anaconda3/bin:$PATH"即可,这样就不会每次都默认使用其他环境里的编译器了。:检查.bashrc里的export PATH,看是否指向了其他环境里的python作为默认路径,比如我的就指定了。启动的是vllm-env虚拟环境,结果使用的编译器是open-instruct-env环境里的。:是因为之前在A环境里conda activate启动了B环境,导致使用的还是A环境里的编译器。

2024-03-01 17:28:08 494

原创 【linux】执行bash文件后如何记录终端打印出来的输出和错误信息

在命令行中执行sh文件后,终端里会显示打印出来的信息,但需要一点点翻动来看很麻烦。以下命令帮助我们将标准输出和标准错误显示在终端上,并且保存到文件中。

2024-01-10 01:16:25 864

原创 如何把服务器代码上传至github

本教程适用于已经在服务器上下载好了git并和github账号进行关联,如果没有请先移步至。

2024-01-04 04:50:41 517 1

原创 [通俗易懂]float32、float16、bfloat16之间的差异

qlora一般用bfloat16的精度类型进行训练,然而支持bfloat16精度往往需要V100以上的卡(不包括V100)。可惜本人服务器上只有V100类型的卡,想要使用qlora进行训练需要把精度改为float16。指的是使用FP32作为主权重,而在进行前向和后向传播时使用FP16/BF16来提升训练速度,最后在梯度更新阶段再使用FP16/BF16梯度更新FP32主权重。不同的浮点数据类型:float32、float16、bfloat16等,可以称之为精度,而模型大小 = 模型参数量x精度。

2024-01-03 19:03:26 1737

原创 【常用bsub指令介绍】使用bsub命令提交作业、开启交互式窗口,在集群服务器上用pdb进行代码调试

在一个服务器集群中,有很多的人要使用,却只有很少的GPU。LSF作业调度系统则是对每个用户提交的作业和需要使用的GPU进行调度。一般使用bsub命令来将待运行的作业提交到集群上。用bsub < run.sh提交了作业,一般是作业已经可以成功跑起来,提交了作业后直接等作业运行结束就行。但更多时候我们的代码可能会出现报错,需要进行调试。一般情况下,我们会用pychram/ vscode等软件对代码打断点,进行调试。但使用的是本地的CPU资源,而不是服务器上的GPU。

2023-12-27 05:51:10 3098

原创 【报错解决】cpu_adam.so: cannot open shared object file: No such file or directory

ps:如果是自己使用conda安装的cuda,会只在相关conda环境的文件夹下有一系列cuda相关的文件,但是没有专门的’cuda’子文件夹。我之前指定了conda环境的路径作为cuda路径,但是没有用,还是得公共服务器里安装的cuda。【解决方案】明确cuda路径,如我的是在服务器的公共文件夹中的’/nfsshare/apps/cuda-11.8/‘这个路径里。网上查到的解决方案是说从其他地方复制一个so文件,但又没有给出这个so文件。查了n多资料后,感觉可能是cuda的问题,环境变量没有配置好。

2023-12-25 01:30:31 1370 2

原创 【baichuan2模型部署经验】手把手教你在linux服务器上安装和使用baichuan2-7b-chat模型(模型下载+环境配置+报错分析)

因为需要测试baichuan2模型在给定数据集性能,因此开启了在Linux系统上部署baichuan2模型之旅。

2023-12-10 04:20:07 951 1

原创 【超简易安装】在linux集群服务器上使用conda安装高版本cuda(cuda-11.8)和pytorch2.0

由于项目代码要求pytorch2.0版本,而pytorch2.0版本需要cuda11.8,高于我之前的11.0的cuda版本。因此考虑使用conda新建一个虚拟环境,在里面使用高版本的cuda和pytorch。

2023-12-10 03:41:25 1737 3

原创 从服务器上直接下载huggingface模型,解决huggingface无法连接问题

在服务器上使用huggingface模型时,如果直接指定模型名称,用AutoTokenizer.from_pretrained(“model_name”),可能会由于网络原因会报错 Failed to connect to huggingface.co port 443 after 75018 ms: Operation time out因此我们需要下载模型到服务器上,得到模型本地的路径model_dir,再通过AutoTokenizer.from_pretrained(model_dir)方式来使用。

2023-12-08 21:49:26 7248 14

原创 【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

nvidia-smi报错command not found,如何在集群服务器上查看gpu信息

2023-07-19 02:00:54 7944 3

原创 【疑难杂症】pandas将dataframe导出为csv文件,用excel打开出现乱码字符/有多余列/行数不对

使用pandas导出csv文件后用excel打开,出现乱码,列数也增加了。但是在pandas中读取csv文件,dataframe中显示正常。

2023-06-20 00:29:45 1682

原创 【已解决】conda install报错 An HTTP error occurred when trying to retrieve this URL. 更换清华源也无效

如果添加清华源之后,conda install依然报网络问题,可以选择把默认源删除。

2023-04-25 21:02:01 1005

原创 Perplexity:深入理解语言模型评价指标——困惑度

对于困惑度指标的理解

2023-04-20 02:08:03 845

原创 【疑难杂症】overleaf公式显示异常并且被重复添加至正文内,正文内$符号消失,编译报错Missing $ inserted.inserted text。

overleaf公式编译失败就失败了,正文内容被修改,禁用latex实时渲染插件可解决。

2023-04-10 02:20:33 1371 10

原创 **Linux安装包下载磁盘空间不足[ERROR: Could not install packages due to an OSError: [Errno 28] No space left on

近日下载pytorch包,出现了[Errno 28] No space left on device]这个错误,照理来说就是磁盘空间不足需要清理。但是照网上说的其他方法,如在根目录里新建一个/tmp目录、更新pip等方法都不行。最后使用了查找各目录所占用的空间,再删除不需要的文件就可以了。du -sh * 查找当前目录下 各文件及文件夹占用大小rm -rf +文件夹/文件路径 删除文件或文件夹里的所有东西经查看发现后,大文件基本上都是所保存模型的checpoint。将其删除后就能成功下载安

2022-03-14 21:46:33 5403

原创 在服务器上git clone github项目的过程

在服务器上与本地clone项目对比还是有点区别的,主要在于git安装下载的权限不足,还有生成SSH key的步骤。一 安装git1.作为服务器上的非root用户,下载git安装包。(这里的版本是2.24.1,可以参考官网更换为更高版本号的git wget https://github.com/git/git/archive/v2.24.1.tar.gz -O git.tar.gz2.解压tar -zxvf git.tar.gz3.接着运行下面这些代码./configure cd gi

2021-12-30 02:22:58 5597 2

原创 在服务器上下载anaconda,配置pytorch的过程 [CUDA11.4],以及使用pychram连接服务器

服务器上anaconda下载及pytorch配置过程​ 本文介绍利用mobaXterm连接服务器,再下载anaconda,配置Pytorch的过程,下载过程中经常有报错,踩了一些坑。本文是回忆文,可能有些步骤忘记了,可以再看看。1. 登录服务器,下载anaconda先打开mobaXterm,打开session连接服务器。如果是第一次登录的话,可以点击左上角的session - SSH, 输入端口号,用户名,在命令行中输入密码。(1)下载anaconda先在[清华镜像源][https://mirr

2021-11-20 15:12:09 8171 10

原创 Anaconda下的pytorch环境配置及pycharm导入(win10+CPU)

Anaconda下的pytorch环境配置及pycharm导入(win10+CPU)首先下载Anaconda与pycharm两个软件,可移步至各教程。注意pycharm专业版的需要破解,否则无法远程连接服务器调试。1.创建Pytorch环境。我们首先使用anaconda来创建一个Pytorchd的工作环境。打开Anaconda Prompt命令行,切换到D盘的根目录下,使用以下语句来创建。环境名称为 pyTorchEnv ,其中Python版本根据自己电脑设置。conda create -n pyT

2021-11-01 14:31:24 2576

原创 [教程] typora + gitee + Picgo搭建图床

[最新教程] typora + gitee + Picgo搭建图床​ 在用typora写md文件的时候,图片地址是在本地的,如果将md上传到其他平台(如CSDN),图片就会加载不出来。解决方案为利用Picgo将在我们编写md的过程中的图片自动快速上传至Gitee,并获取图片 URL 链接,这样图片就不是保存在本地,而是保存在图床上了。复制md至别的平台时,图片也能显示了。具体步骤为:下载Picgo点击链接[Picgo官方教程][https://picgo.github.io/PicGo-Doc/

2021-10-30 10:22:38 152

原创 【傻瓜教程】jsp连接MySQL数据库,及连接过程中出现空指针的坑。[附java与Mysql驱动程序下载]

课程作业中的网站要实现后台,需要进行数据库连接。记录连接过程及掉进去的坑。在Eclips中新建一个动态网站,输入项目名称。File - New - Dynamic Web Project右击项目,新建一个jsp文件通过Workbench来新建数据库。首先打开workbench,进入默认的数据库连接中。在左侧nevigator导航栏中右击,新建一个Schema,输入数据库名称。我的数据库名称是program。双击建好的Schema,使其变黑,单击进入后选择table,右击新建表。我的表名

2021-04-21 22:43:11 883

原创 Mysql登录常见报错

mysql 8.0登录失败常见报错,保姆级登录教程。气死了,过了好久了,也都忘记自己的mysql怎么登录了。之前花了好长时间来找网上的教程但大多都很过时了,甚至想直接重装,但也不甘心。于是鼓捣半天终于登上了。常见报错:mysql 服务正在启动 .mysql 服务无法启动。服务没有报告任何错误。在命令行中切换到mysql的bin路径,输入net start mysql后显示服务无法启动。D:\mysql-8.0.20-winx64\bin>net start mysqlmysql 服务正

2021-04-02 14:45:48 759

原创 python爬取百度百科属性框

python爬取百度百科属性框记录由于构建知识图谱时需要爬取一些实体属性,故考虑爬取百度百科的属性框,如图:实体名称为马寅初,想根据以上的信息框爬取一些三元组关系,并保存到csv文件中,格式如下:实体关系属性马寅初中文名马寅初马寅初外文名马寅初马寅初国籍中国马寅初出生日期…一个两个实体可以考虑在网页上直接复制粘贴,但有很多个该怎么办呢?故考虑选用python爬虫来获取这些信息。分析页面结构在百科页面上右键-检查,观察网页结构,发现属性

2021-03-22 14:52:43 463

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除