北京生信课堂-CSDN博客

原创生物信息之基因组，转录组，蛋白质组学全面教程（第1节课）：生物信息基础知识

数学统计学计算机纯生物学准备或者已经在学习生信硕士课程（包括海外各大学，非常推荐，优先推荐比利时，德国等国家。优点是几乎无学费，但需要学会德语及法语等小语种）。

2023-11-15 16:35:05 127

原创 MultiIndex has no single backing array. Use ‘MultiIndex.to_numpy()‘ to get a NumPy array of tuples.

这通常表示你在使用 Pandas 中的多重索引，而你希望将它转换为 NumPy 数组。多重索引是 Pandas 中的一种索引类型，允许你在同一个数据框中使用多个索引列。要获取元组的 NumPy 数组，请使用 ‘multiindex.to_numpy()’。要将多重索引转换为 NumPy 数组，你可以使用 ‘multiindex.to_numpy()’ 方法。如果你已经安装pandas，首先将其卸载，然后安装pandas版本1.2.4即可使用原先的代码，而不更改代码。

2023-09-20 14:42:09 131

原创 Annovar报错: `Argument “G“ isn‘t numeric in numeric eq (==) at ./annotate_variation.pl line 2583, ＜DB＞

当我们尝试使用Annovar软件（下载链接：https://annovar.openbioinformatics.org/en/latest/user-guide/download/）中提供的数据库如千人基因组1000genome（下载链接：http://www.openbioinformatics.org/annovar/download/hg19_1000g2012apr.zip。这里ex2为Annovar转换VCF格式后生成的文件。

2023-09-07 09:00:44 201

原创甲基化钟生物信息项目实战--通过450K，850K数据预测样本的甲基化年龄（R语言代码）

甲基化芯片（450K，850K数据）和全甲基化测序（WGBS）。在生物学领域，通过细胞的甲基化程度来衡量人类的年龄，则叫甲基化钟。通过450K，850K数据，运用生物信息手段，预测样本的甲基化年龄。这个过程几乎可以达到自动化，需要掌握基础的R语言技术（如dataframe，vector处理等），当然如果无法正常运行，私信即可解决。例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。该处使用的url网络请求的数据。

2023-03-07 15:27:09 546 1

原创 package ‘XXXX’ is not available (for R version 3.6.0) 解决R版本适配的问题

package ‘XXXX’ is not available (for R version 3.6.0) 解决R版本适配的问题

2022-09-07 15:02:47 9786

原创 replacement has 2 rows, data has 0, 解决R语言如何动态生成dataframe

replacement has 2 rows, data has 0, 解决R语言如何动态生成dataframe如何解决R语言bug：replacement has 2 rows, data has 0一个将ensemble id转换成gene名的python 脚本如何解决R语言bug：replacement has 2 rows, data has 0亲亲们好，我们使用R语言的时候，想动态生成一个dataframe，即列名称和列数据都是从文件中读取或者或者其他vector里实时获取的，所以，你可能想进

2022-06-12 14:45:45 1721

原创生物信息学之rnaseq转录组分析流程--转换文件中的ensemble id到gene名

生物信息学之rnaseq转录组分析--转换文件中的ensemble id到gene名如何解决转录组分析中count之后遇到ensemble id的问题一个将ensemble id转换成gene名的python 脚本如何解决转录组分析中count之后遇到ensemble id的问题亲亲们好，我们做生物信息转录组分析的时候，可以走如下流程鸭：1.获取fastq或者fasta原始文件：获得这些原始测序文件的途径还是挺多的哈，有的可能是你的老师直接放在网盘里；有的需要自己进行数据挖掘，到NCBI啦，GEO啦

2022-04-28 10:21:51 2750

原创 R语言bug biomaRt filter_没有适用于c(‘tbl_SQLiteConnection‘, ‘tbl_dbi‘, ‘tbl_sql‘, ‘tbl_lazy‘, ‘tbl‘)目标对象的方法

解决biomaRt filter_没有适用于c('tbl_SQLiteConnection', 'tbl_dbi', 'tbl_sql', 'tbl_lazy', 'tbl'目标对象的方法什么是biomaRtbiomaRt都有些什么？使用biomaRt会遇到哪些bug，怎么解决？1.Error in UseMethod("filter_") : "filter_"没有适用于"c('tbl_SQLiteConnection', 'tbl_dbi', 'tbl_sql', 'tbl_lazy', 'tbl')

2022-04-12 16:41:58 977

原创生物信息数据库开发之单细胞数据库scrna db（一）

单细胞数据库构建方法详解背景知识新的改变背景知识随着单细胞测序技术：dropseq，10x等普及，越来越多的单细胞数据被NCBI等国际数据库收录。单细胞数据格式与rnaseq类似，同样是表达矩阵，rownames都是gene，colnames的话单细胞是细胞barcode，rnaseq是样本名称。目前市面10x平台测序公司稳定能测到10000-20000个细胞，所以总矩阵维度单细胞要高很多。目前市面上有多种形式来存储单细胞数据，包括csv，seurat h5ad，h5文件等，所以自己建立单细胞数据库就需

2022-03-18 17:49:09 1166

原创生物信息流程开发之甲基化分析pipeline

甲基化分析pipeline开发步骤详解已完成的甲基化Gitee项目地址甲基化背景知识开发准备工作功能模块拆解项目详细解决方案展示部分分析结果Manhattan图heatmap图十等分切割基因位置统计图问题反馈与协助已完成的甲基化Gitee项目地址如果你只想获得一个现成的pipeline工具加到你的linux服务器上，可以直接到我的Gitee项目地址clone下去，并跳过下面的具体代码问题解决过程。项目代码仓库: 甲基化项目Gitee地址.甲基化背景知识甲基化是一种常见的基因修饰，研究人员对样本进行

2022-03-15 11:01:35 3330 2

原创启动R遇到Fatal error: 无法创建‘R_TempDir‘快速解决办法

linux环境下命令行启动R语言，报错Fatal error: 无法创建’R_TempDir’，原因是/dev/mapper/cl-root下面空间不足。使用如下命令查找占用空间较大的文件删除即可解决问题find / -xdev -size +100M -exec ls -l {} \;选择一些占空间大但却不重要的文件删除，作者删除了一个bismark比对所产生的中间文件/root/293FT_1.fq.gz_R1_pre_C_to_T.fastq，占用空间3个G,删除后命令行再次启动R，恢复正常

2021-10-27 14:14:17 4158

原创单细胞copykat分析文献Delineating copy number and clonal substructure中的Freeman Tukey算法

Freeman Tukey算法处理向量，从而stablize向量的varianceFreeman Tukey算法是1950年提出的，是为了处理向量数据，稳定向量的variance。文章链接添加链接描述文章目录Freeman Tukey算法处理向量，从而stablize向量的variance算法公式一、c语言实现代码二、python语言实现代码算法公式x\sqrt{x}x +x+1\sqrt{x+1}x+1x是向量中的每一个值以下是实现该算法的C语言代码和python代码一、c语言实现代

2021-10-26 17:50:26 352 1

原创从零开始用snakemake搭建完整的甲基化生信分析流程（第一章）基础篇

从零开始用snakemake搭建完整的甲基化生信分析流程阅读文章后的收获：专业的snakemake编程技能；甲基化分析pipeline作者生物信息学硕士，6年生信分析师从业经验，快速响应读者问题，提供技术支持，欢迎订阅专栏文章目录前言一、snakemake简介二、甲基化生物信息分析流程三、分布书写snakemake代码前言需求：在linux服务器上部署甲基化分析pipeline，并用snakemake管理分析流程，本篇为基础篇，之后会带来详细的专业流程搭建方法一、snakemake简介

2021-10-22 14:48:07 2422

原创 R语言readxl或者tidyverse安装报错undefined symbol libiconv

wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.14.tar.gzmake&&make install之后仍无法解决解决办法如下:withr::with_makevars(c(PKG_LIBS = “-liconv”), install.packages(“haven”), assignment = “+=”)withr::with_makevars(c(PKG_LIBS = “-liconv”), install.packag

2021-10-12 17:01:58 1493

原创 Autocad 2022版本插件开发基础1

不是建筑学出身，也看不太懂工程图，不过对开发插件还挺感兴趣的，这个教程送给龙猫小姐，希望能帮她解决工作上的一些问题。插件开发面对的是Autocad 2022最新版，旧版本是否兼容尚未测试。本篇先写最简单的一个在cad打印出一行字的dll插件。工具安装下载安装微软开发工具VisualStudio, 点击下载VisualStudio勾选NET桌面开发。安装完成后新建工程项目。选择class Library项目选择一个路径并记住，之后要到该路径下面找到自己开发的dll插件位置顺利的话软件会

2021-03-28 17:07:55 4229

原创 vuejs+Element ui初学练手项目

vuejs+Element ui初学练手项目简单的24分栏html页面1.CDN模式引入vue和element<script src="https://cdn.jsdelivr.net/npm/vue/dist/vue.js"></script><link rel="stylesheet" href="https://unpkg.com/element-ui/lib/theme-chalk/index.css"><script src="https://u

2021-03-21 19:36:01 571

原创一个sklearn和tensorflow的bug

一个sklearn和tensorflow的bugbug如下源代码bug原因及修复bug如下“/usr/local/lib/python3.8/site-packages/sklearn/__check_build/init.py”, line 44, in from ._check_build import check_build # noqaImportError: dlopen: cannot load any more object with static TLSDuring handli

2020-12-29 16:35:24 733

原创 windows环境下新安装vue报错提示无json.package或者如图错误解决办法之一

命令行输入npm install vue或者 @vue/cli报错，提示无json.package或者如图错误尝试 npm install -g --force @vue/cli在命令中加入force，会强制覆盖掉所有文件，包括错误的。...

2020-04-16 20:54:32 1644

原创 python web应用：Django教程（一）

Django算是最好的python网络框架，其他的如flask也不错。总体感觉应该还是比单纯使用html和php搭建系统些，当然使用框架的优缺点还得个人去体会。好了，下面来使用django快速搭建一个web应用。你应该已经安装django了，没安装的话pip install django就行了，安装成功后使用django-admin命令来验证下，成功会提示如下。一堆可以使用的副命令。以后会经...

2019-12-02 09:20:40 613

原创 BLAST Database error: No alias or index file found for nucleotide database [nt] in search path解决办法

Blast网页版做生物信息的应该都用过，输入你想比对的序列或者fasta文件提交网页就能出来结果。但如果你想用blast的命令行模式，用法会跟网页版非常不一样。新手会遇到很多问题，遇到频率最高的应该就是我这篇文章想说的问题BLAST Database error: No alias or index file found for nucleotide database [nt] in searc...

2019-11-14 14:28:34 31330 5

原创保存igv的信息，igvtools接口的使用：将igvtools查看bam文件的结果保存为txt文件，并提取信息

igvtools算是非常权威的bam文件查看器，市面上就这么一款软件，暂时没发现功能表现类似的。上面的图片通常是你打开bam文件的可视化结果，当你聚焦到某一个位置的时候，igvtools会告诉你这一列有多少A，T，C，G，N。现在你想保存这个信息到txt文件，什么，你想先找找软件有没这个功能？对不起，没有。通常你这里可以截个图就完成任务了。那么如果你想保存信息到txt文件其实是有办法的，不过需...

2019-11-11 16:39:41 3601 2

原创 python中有split将字符串分割成list，c++里你应该这么做

我们知道，python里想读取文件内容，然后安装分割符在分割成list很简单使用split或者re.split即可。但上面的过程在c++中就比较复杂了，有好几种方法，有使用stringstream的，有使用boost库的，但其实都挺复杂，同时对于需要正则分割的需求更不方便。这里推荐大家使用strtok这个来自于string.h的函数。代码如下。// An highlighted block ...

2019-10-30 15:56:09 1554

原创一款使用sklearn基础包机器学习糖尿病患者体内微生物含量数据的软件

微生物与人类共生，对人类的健康影响重大，人体内各类微生物的含量和状态应该保持稳态，除非人体患病。目前二大测序技术的广泛普及，从患者体内获取样本直接测宏基因组的含量变得非常可行。我获取了4400名健康和患糖尿病的数据，体内的微生物含量以及换算成百分比，加和比例接近1。使用sklearn机器学习包，为4400个样本建立模型，希望通过机器学习来区分健康与糖尿病患者，仅仅根据他们体内的微生物含量数据。...

2019-09-25 09:46:08 502 3

翻译 Learning from Data-A short course 我的中文翻译及练习题解答还有生物信息的实际应用2

第一章关于学习如果你给一个三岁的孩子看一张图片然后问他里面是否有一棵树，你非常可能得到正确的回答。如果你问一个三十岁的成年人树的定义是什么，你可能得到一个模糊的答案。我们认识树并不是通过树的数学定义公式，而是靠亲眼所见。换句话说，我们是从数据学习的。从数据学习的使用环境是我们没有解析式，但我们有很多数据可以用来得出经验性的解决。这个假定覆盖了很多领域，而且从数据学习确实在科学，工程，经济学等...

2019-09-23 21:23:57 714

原创一款使用欧拉回路算法模拟二代测序机器打碎后序列的拼装软件

DNA二代测序机器会生成很多碎片序列，如何将其快速拼装是值得研究的问题。本软件借鉴欧拉回路算法，欧拉算法最初是为了解决七桥问题设计的，即不重复的通过所有7座桥各一次。拼接DNA时将图中的ABCD等点替换成DNA kmer短序列，将所有节点通过一遍即获得拼接完成的序列。上代码：print('程序开始运行，使用欧拉回路算法组装测序后的碎片序列')#encoding: utf-8# co...

2019-09-23 14:44:12 231

原创一款使用分支界定算法计算DNA功能域的软件

DNA功能域是一段保守的有特定功能的一小段序列，在生物进化过程中保持保守，长度一般不超过520bp，通常和转录因子结合，以方便快速定位功能蛋白。DNA功能域能出现在基因的不同位置，出现的次数也不确定。本软件使用的是分支界定算法，即将DNA序列变为树状结构，每个节点下面有4个分支，分别为A，T，C，G。需要使用者输入想发现的DNA功能域长度，然后计算hammingDistance，使用通常的贪婪...

2019-09-23 10:22:25 302

翻译 Learning from Data-A short course 我的中文翻译及练习题解答还有生物信息的实际应用1

Learning from Data-A short course我的中文翻译及练习题解答还有生物信息的实际应用1前言本书目录我的中文翻译及练习题解答还有生物信息的实际应用1)前言本书是为了给机器学习的精短课程设计的，是精简的课程但不是急促的。从超过十年的使用本书教学的经验中，我们提炼了我们认为每个学生都应该知道的核心课题。我们选择了Learning from data这个可以诚挚的形容...

2019-09-22 20:25:22 1392

高端的博客