自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(229)
  • 资源 (1)
  • 问答 (3)
  • 收藏
  • 关注

原创 算法工程师的docker命令

容器ID可以输入部分或者全部。

2023-08-29 18:44:09 175

原创 wegt | 批量下载url下的文件

wget --user user --password pass -r -np -nH -R index.html http://url/including/files/you/want/to/download/各个参数的含义:-r : 遍历所有子目录-np : 不到上一层子目录去-nH : 不要将文件保存到主机名文件夹-R index.html : 不下载 index.html 文件-user 用户名-password 密码这里是引用这里是引用...

2022-05-19 14:21:10 651

原创 AI&化学 | 逆合成分析软件Synbook

Synbook是一款免费的通过AI进行化学合成的软件,他可以进行多条路线设计,拥有反应条件查看等功能,还可以对当前路径进行修改,通过邮箱注册后使用。点击进入网站登录界面目标分子路线查看反应条件redo修改当前路径............

2022-05-15 00:25:37 3160 1

原创 pandas | 并行处理dataframe生成新csv

import csvimport pandas import processing_function1, processing_function2def get_writer(fname, header): fout = open(fname, 'w') writer = csv.writer(fout) writer.writerow(header) return fout, writerdef get_tuple(task): col1, col2,

2020-12-21 16:04:45 345

原创 pip&python | 下载速度慢亲测有效!!!

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple “你要下载的库名”

2020-09-14 21:24:15 238

原创 python | 将列表数据按行保存为txt格式并进行读取

with open("abc.txt", 'w') as f: for i in alist: f.write(i+'\n')f = open("abc.txt","r")lines = f.readlines()for line in lines: line=line.strip('\n')# 删除\n print(line)

2020-08-14 16:41:54 8715 3

原创 joblib&pandas | 多进程处理dataframe通过某一列计算新列

from multiprocessing import cpu_countfrom joblib import Parallel, delayedimport pandas as pdcores = cpu_count()def proc(): """ xxxxxxxxxxxxxxx """ return results def apply_parallel(df_grouped, func): results = Parallel(n_jobs = cores)(delayed(

2020-07-23 15:25:09 1945

原创 yolov5 v7.0打包exe文件,使用C++调用

cd到yolo5文件夹下。

2024-03-29 16:09:14 438

原创 使用python创建生成动态链接库dll

*python作为一种脚本语言,本身是不能直接编译生成动态库的。**为了生成动态库,我们借助cython,将python脚本变成c语言文件。具体过程,我们通过一个简单的例子来解释。

2024-03-26 17:45:09 146

原创 构建生物医学知识图谱from zero to hero (4):通过Neo4j构建知识图谱

图数据库是一种专门用于存储图形数据的 NoSQL 数据库。与传统的关系型数据库和其他 NoSQL 数据库不同,图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成,节点代表实体,边代表实体之间的关系。例如,在社交网络中,用户可以表示为节点,朋友关系可以表示为边。在沙盒中启动空白项目 https://sandbox.neo4j.com/?Neo4j使用图相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。

2024-02-23 19:08:39 260

原创 构建生物医学知识图谱from zero to hero (3):生物医学命名实体识别和链接

例如,我们不希望图中有单独的实体代表抗坏血酸和维生素C,因为领域专家可以告诉你这些是同一件事。第二个原因是,通过将概念映射到目标知识库,我们可以通过从目标知识库中获取有关映射概念的信息来丰富图形模型。如果我们再次使用抗坏血酸的例子,如果我们已经知道它的CHEBI id,我们可以很容易地从CHEBI数据库中获取更多信息。在这个例子中,NLP模型在文本中识别了基因、疾病、药物、物种、突变和途径。如前所述,这个过程被称为命名实体识别。例如,在生物医学领域,我们希望在文本中识别各种基因、药物、疾病和其他概念。

2024-02-23 18:18:25 57

原创 构建生物医学知识图谱from zero to hero (5):关系抽取

使用此模型,必须定义要在哪些实体对之间检测关系。将使用命名实体链接的结果作为关系提取过程的输入。首先,我找到所有提到两个或多个实体的句子,然后通过关系提取模型运行它们来提取任何连接。我还定义了一个阈值0.85,这意味着如果模型以低于0.85的概率预测实体之间的链接,将忽略该预测。现在将尝试提取医学概念之间的关系。如果不希望命名实体链接取得完美的结果,那么关系提取技术肯定会出现一些错误。使用zero-shot关系提取器,可以定义要检测的关系。我还尝试了更具体的关系类型,如治疗、原因和其他,但结果并不理想。

2024-02-23 18:10:38 61

原创 构建生物医学知识图谱from zero to hero (2):文献抽取

我们选取一篇文献,将文献PDF转换成图片,然后采用pytesseract 实现图片文字识别。接下来对文本进行处理。

2024-02-23 14:22:03 24

原创 构建生物医学知识图谱from zero to hero (1): 简介

首先,由于生物医学领域的复杂性和多样性,构建全面、准确的生物医学知识图谱需要耗费大量的时间和人力成本。最后,如何将生物医学知识图谱与其他领域的知识图谱进行融合,以实现跨领域的知识推理和应用,也是当前亟待解决的问题之一。此外,随着算法的发展和开源理念的普及,越来越多的生物医学知识图谱开始采用算法驱动的方法,通过自动或半自动的方式从大量生物医学文献中抽取信息,进而构建知识图谱。随着技术的不断发展和应用的不断拓展,相信生物医学知识图谱将在未来的生物医学领域中发挥更加重要的作用。

2024-02-23 11:53:02 32

原创 像素、分辨率、公差的概念

像素是指在由一个数字序列表示的图像中的一个最小单位。像素的多少表明相机所含有的感光元件的多少。所谓 200 万像素 CCD 就是一个由 200 万个光电二极管构成的集合体。一台100万像素的相机拍摄的照片洗成5寸比洗成六寸清晰点。80万 1024×768 5” (3.5×5英寸),130万 1280×960 6” (4×6英寸)

2024-02-05 16:02:43 1410

原创 stable-diffusion | v1-5-pruned.ckpt和v1-5-pruned-emaonly.ckpt的区别

对于日常生成,我们只要了解这样一个事实就行了:如果只是生成,EMA模型和标准模型的效果是一样的。如果你要做二次训练,并且显卡够好,选择带EMA的模型可能更好,因为所有数据都在;VAE模型:用于图像在像素空间和潜在空间的映射,生成图片时将图像从潜在空间转换为像素图片,目前大部分模型都自带VAE。标准模型:生成图片的核心模块,潜空间中的前向扩散和反向扩散就是通过它做的,对应到图中左侧的 U-Net。对于 1.5 模型,其中可能包括四部分:标准模型、文本编码器、VAE模型、EMA模型。

2024-02-04 18:17:31 1559

原创 huggingface模型无法下载

【代码】huggingface模型无法下载。

2024-01-16 13:41:01 433

原创 AI&大模型 | llama2微调手册查看ing

位于[INST]之后,/[INST]之前的文本,是用户在. 这一轮次(<s></s>包含的文本)对话中所输入的query,而/[INST]之后的文本,是模型针对这一query所作出的回答。Llama 2使用与 Llama 1 相同的分词器;在对话中的第一组单元,可以提供整个对话的背景信息,并以<<SYS>>和<</SYS>>作为特殊标记,位于它们之间的,是对话的背景信息,类似instruction。<s> ,<\s>,<<SYS>>,<</SYS>>,[INST],以及[/INST]是特殊token,

2023-12-22 21:39:18 313

原创 clinicaltables | 疾病转化为ICD-10编码

国际疾病分类(international Classification of diseases ,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。ICD使得疾病名称标准化、格式化。这是医学信息化、医院信息管理等临床信息系统的应用基础。

2023-12-19 19:41:29 85

原创 AI | 大模型推理参数解析(进行中)

(int, optional, defaults to 1) - 批次中每个元素独立计算的返回序列的数量。

2023-12-12 16:05:27 1114

原创 onnx导出报错 | IndexError: index_select(): Index is supposed to be a vector

在torch.onnx.export钟添加do_constant_folding=False,如下。

2023-11-23 21:21:27 261 1

原创 大模型多轮对话数据集构建

history”:[[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。水温多少”], [“95”, “上下水管温差怎么样啊?“history”: [[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。“response”:“那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!{“prompt”: “长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线”,{“prompt”: “是的。

2023-11-07 10:57:03 1131

原创 python&rdkit | 从相对原子质量推测元素

【代码】python&rdkit | 从相对原子质量推测元素。

2023-10-15 15:19:23 74

原创 化工&python | PID控制器优化算法

比例-积分-导数控制器(PID控制器)是一种采用反馈机制的工业控制系统,用于计算每一时间步k的误差值ek,并将其作为期望设定值(SP)与测量过程变量(PV)之间的差异。通过应用比例、积分和导数项(表示为P、I和D),进行校正调整,从而实现控制作用。传统上存在多种方法来优化这些参数,然而将问题视为黑盒优化问题是一种有效解决方法。ukKP​ekKI​i0∑ik​eiKD​Δtek−ek−1​其中KP​KI​KD​。

2023-10-15 15:08:11 155

原创 化工&python | CSTR连续搅拌反应器系统

绝热连续搅拌釜反应器 (CSTR) 是过程工业中常见的化学系统。容器中发生单个一级放热且不可逆的反应 A → B,假定容器始终完全混合。试剂 A 的入口流以恒定的体积速率进入罐。产物流B以相同的体积速率连续排出,液体密度恒定。因此,反应液体的体积是恒定的。,它们的变化可以由下面方程表示。的冷却套作为系统的输入。在反应器中发生的反应是。

2023-10-15 14:37:34 348

原创 多模态模型文本预处理方式

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。缺点:这种方式会丢失句子中细粒度的信息。将句子中的类别提取出来,结合成一个句子。

2023-10-15 13:26:35 580

原创 论文通过更改域代码同时引用多篇参考文献

【毕业论文中如何同时引用多篇参考文献?切换域代码后在最后添加。

2023-09-26 22:23:40 272

原创 timm模型无法联网下载采用本地读取

最新的timm版本(0.9.x)默认使用huggingface hub作为权重,优先于torch hub缓存,许多权重已经为模型更改重新映射,所以最好通过HF hub下载。Kaggle真的应该支持通过HF hub,或者至少正确地缓存它,但他们似乎没有兴趣让事情变得更简单,所以手动缓存数据集中的权重的疯狂继续…要覆盖预训练的位置,您可以从HF hub手动下载权重文件并尝试以下操作。

2023-09-26 17:09:04 1367

原创 解决shutil.copyfile常见错误:PermissionError: [Errno 13] Permission denied

亲测有效。

2023-09-26 16:03:10 141

原创 pyd包导入报ModuleNotFoundError: No module named

在windows环境下确保运行环境python版本与pyd版本一致。

2023-09-06 15:34:23 258

原创 TensorRT&C++ | INT8量化

实现Int8EntropyCalibrator类并继承自llnt8EntropyCalibrator2。

2023-08-29 11:35:13 269 2

原创 RuntimeError: One of the differentiated Tensors does not require grad

记录一个搞了很久的bug。

2023-07-25 14:37:50 478 1

原创 stable-diffusion 预训练模型汇总

目前各个github上各个库比较杂乱,故此做些整理方便查询。

2023-06-28 17:50:52 2546 2

原创 windows安装detectron2报错

关键错误 1.:UserWarning: Error checking compiler version for cl: [WinError 2] 系统找。

2023-04-27 10:58:57 245 1

原创 coco格式数据可视化

【代码】coco格式检测框、分割可视化。

2023-04-12 13:39:45 185

原创 biopython | 提前PDB文件中的配体

使用Bio.PDB 模块提取PDB文件中的配体并将每个单独保存。

2023-04-05 18:31:03 330

原创 mysql | 常用操作

显示数据表的属性,属性类型,主键信息 ,是否为 NULL,默认值等其他信息。列出 MySQL 数据库管理系统的数据库列表。返回数据表 runoob_tbl 的所有记录。返回数据表 runoob_tbl 的条目数量。use 命令来选择要操作的数据库。显示指定数据库的所有表。

2023-03-14 10:46:33 56

原创 安装gromacs

【代码】安装gromacs。

2023-02-01 16:38:07 239

原创 安装Amber22

【代码】安装Amber22。

2023-02-01 15:25:39 2074 1

原创 一个简单的onnx导出案例

【代码】onnx导出。

2022-12-31 19:26:01 159

半导体设备研究系列之明暗场缺陷检测设备

半导体量检测设备是第四大制程设备环节,诞生大公司 KLA。量检测设备的市场 规模小于刻蚀、薄膜沉积设备、光刻机,但大于清洗设备、CMP、离子注入、 Track、电镀等环节。2021 年,按销售额计,前道量检测设备全球市场规模 104 亿美元,占 WFE 市场的 11%,随着新能源汽车、光伏产业、工业控制等下游需 求不断扩张,半导体行业具有较大的发展空间,2021 年全球半导体设备市场增 速高达 44.10%,国内市场增速高达 58.23%。SEMI 预测,全球半导体设备市场 规模将在 2022 年达到 1175 亿美元,在 2023 年达到 1208 亿美元。前道量检测 设备是半导体设备市场的重要组成部分,按销售额计,缺陷检测设备在前道量检 测设备中占比约达 55%,更具体地,有图形晶圆检测设备占比约为 34%,缺陷 检测市场前景广阔。

2024-02-05

斯坦福大学深度生成模型cs236

斯坦福大学深度生成模型cs236 全部pdf课件

2023-02-16

化学元素周期表和对应化学性质

csv文件人工整理了包含了元素周期表的所有元素,以及每个元素对应的近30种性质

2021-01-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除