自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 Aspera和Aspera_cli软件的安装和使用

测序数据下载需要的用户和地址信息:[email protected]:/vol1/fastq/SRR885/002/SRR8858432/SRR8858432_subreads.fastq.gz。其他数据下载需要的用户和地址信息:[email protected]:/databases/Pfam/current_release/Pfam-A.hmm.gz。下载需要的用户和地址信息:[email protected]:/blast/db/FASTA/nr.gz。

2023-10-25 18:07:08 1390

原创 GCE的安装和使用

计算重复序列占比R=1-b[1/2]-b[1]=1-0.101873-0.279256=61.89%,杂合度H=[a[1/2]/(2-a[1/2])]/kmer_value=[0.270554/(2-0.270554)]/17=0.92%#若计算的杂合度H<0.5%,则表示该物种是纯合物种,那么重复序列占比R需要重新计算,使用文件17mer_shuxi.log中的信息。R=1-b[1]=1-0.431343=56.87%#依据genome_size、a[1/2]、a[1]、b[1/2]、b[1]值。

2023-10-24 15:08:32 305

原创 miRNA测序数据生信分析——第四讲,未知物种的生信分析实例

以上就是针对未知物种的miRNA分析。与已知物种的分析之间存在重叠,重点是两个预测软件miRanda和TargetScan的使用。上面步骤中涉及了很多脚本,但都是很简单的文件内容提取比对。

2023-10-13 21:53:52 763

原创 miRNA测序数据生信分析——第三讲,已知物种的生信分析实例

以上就是针对已知物种的miRNA分析。同时满足miRBase、miRTarBase和miRDB三个数据的物种,只有5种。因此针对未知的分析是重要的,而且在你时候的时候,可能会交叉使用。上面步骤中涉及了很多脚本,但都是很简单的文件内容提取比对。

2023-10-11 10:04:03 524 1

原创 miRNA测序数据生信分析——第二讲,数据库下载整理

一个非编码RNA的整合数据库,可用来识别鉴定各种类型的ncRNA。提供的是ncRNA在基因组上的基因序列,而非转录成熟ncRNA的序列。最新版:2022-11-02Rfam数据库中ncRNA类型分三大类:Cis-reg和Gene和Intron。这三大类又有子类。一个提供包括miRNA序列数据、注释、预测基因靶标等信息的全方位数据库,是存储miRNA信息最主要的公共数据库之一。最新版:2018-12-01。

2023-10-10 11:34:19 1043

原创 miRNA测序数据生信分析——第一讲,总结概述

这里的miRNA测序指转录水平的测序。这里每一个数据库都可以在线访问,但是如果要本地使用,都需要进行数据库文件下载,整理。

2023-10-09 20:53:23 855

原创 python学习——各种错误

缩进错误,python是严格的Tab缩进,仔细查看缩进。有时在linux下看不出来,你可以下载到windows下,用Notepad++打开查看。encode()函数:将str类型转为bytes类型(字节);decode()函数:将bytes类型转为str类型。例如:print (‘hello world’, array[2) 这里你少些了“]”,就会报这个错。通常是你的括号不完整,或者用if/for/def时,没有使用Tab缩进。这是两种数据类型间的转化,需要函数encode()和decode()。

2023-10-08 17:38:11 91

原创 python学习——各种模块argparse、os、sys、time、re、sched、函数体

python学习——各种模块默认有一定的python基础知识,如变量,自定义函数,正则表达式等1. argparse模块:用于命令行传参导入:import argparse主要有三个函数:使用:parser=argparse.ArgumentParser(),其中参数用于描述帮助文档。parser.add_argument(),具体每一个参数的具体的信息,包括名称,类型,是否必须等等信息。args=parser.parse_args(),将所有的参数添加到一起,后续使用args.参数名。pyt

2023-10-08 17:12:19 211

原创 python学习——各种基础知识

sorted(dict1.items(), key = lambda x:x[1], reverse=True) 降序,[(‘A’, ‘4’), (‘B’, ‘3’), (‘C’, ‘2’)]str3.split(" “),用单个空格进行切割,得到列表[‘he’, ‘’, ‘llo’, ‘w’, ‘o’, ‘’, ‘’, ‘’, ‘’, ‘’, ‘rld’]list1=re.findall(r’.{2}‘, str1) 表示list1为[“zh”,“ao”,“hu”,“iy”,“ao”]

2023-10-08 15:36:03 84

原创 perl语言——length.pl脚本(统计fasta文件序列长度)

这是perl模块没有在系统配置中,用perl -V查看。如果是下载的软件,这个文件会在lib/目录下,配置环境变量即可对于perl模块问题,另一篇博文https://blog.csdn.net/weixin_44616693/article/details/125160834,可以查看List item。

2023-10-07 20:00:04 560

原创 bash命令——linux command

scp [email protected]:/home/zhaohuiyao/.bashrc ./ #从服务器IP为11.11.1.1,账户为zhaohuiyao,文件为/home/zhaohuiyao/.bashrc,传输到当前服务器的当前目录下。按照运行规则,我们需要提供该命令的绝对路径,即/usr/bin/ls,但为什么我们不需要,这是因为在安装Liunx时,已经将/usr/bin设置为环境变量。lrwxrwxrwx :文件属性,共10个字符,第1个单独,后面9个,三个一组。

2023-10-07 19:55:55 525 1

原创 HIC测序数据生信分析——第四节,软件Juicerbox中进行手工修正,再使用3D-DNA软件拿到最终结果

结果文件.hic和.assembly是可以手动修改的,使用juicebox软件。手动修改后,再使用3D-DNA软件进行最终基因组序列的获得。官网:https://github.com/aidenlab/Juicebox/wiki/Download。输入3D-DNA软件的结果文件.hic和.assembly,修改后输出文件是新的.assembly文件。学习视频:B站上,官网上都有。可安装windows版本。拿到最终染色体序列文件。

2023-09-20 16:49:46 654

原创 HIC测序数据生信分析——第三节,HIC数据挂载

(取决于是否运行①prune模块,若①运行,则③运行;#HIC预处理后的比对文件Unknown_BM942-001H0001_1_val_1.Unknown_BM942-001H0001_2_val_2.hicup.bam 和contig基因组序列文件genome.fa。#HIC预处理后的比对文件Unknown_BM942-001H0001_1_val_1.Unknown_BM942-001H0001_2_val_2.hicup.bam 和contig基因组序列文件genome.fa。#这个方法简单一点。

2023-09-20 16:49:17 768

原创 HIC测序数据生信分析——第二节,预处理HIC数据

修改7:/home/zhaohuiyao/Genome_hic/baimaike/01Cleandata/Unknown_BM942-001H0001_1_val_1.fq和/home/zhaohuiyao/Genome_hic/baimaike/01Cleandata/Unknown_BM942-001H0001_2_val_2.fq。结果文件:Unknown_BM942-001H0001_1_val_1.fq和Unknown_BM942-001H0001_2_val_2.fq。

2023-09-20 16:48:55 845

原创 HIC测序数据生信分析——第一节,总体概述

HIC测序的目的的研究染色体交联情况。我测序目的是De novo基因组测序组装,将contig基因组序列挂在到人工染色体上。HIC测序的难点是建库,测序类型:二代双端测序。我的情况下,测序数据量是基因组大小的100倍左右。找公司测序,需要咨询清楚,我有两个公司,一个是建库后,先试测1~2G数据量,然后计算HIC有效率(Hicup软件),一般需要达到20%以上算合格,再测完整数据量。另一个直接测完整数据量,然后比较坑。

2023-09-20 16:48:31 489

原创 TrimGalore软件的安装使用

通常情况下,我们需要指定对应的adapter序列(参数–adapter),如果没有指定,trim_galore会自动查找以下3种类型的adapter:Illumina,Small RNA,Nextera。**–retain_unpaired:**对于双端测序结果,一对reads中,如果一个read达到标准,但是对应的另一个要被抛弃,达到标准的read会被单独保存为一个文件。**–paired:**对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。

2023-06-25 15:29:27 2906

原创 singularity和docker的安装使用

singularity与docker功能相似,但是相比与docker需要root权限,或者专门添加用户组,singularity在非root时也可使用,且轻量级,修改方便。#修改文件/etc/sudoers,chmod 775 /etc/sudoers & vim /etc/sudoers。#安装docker后,会自动生成docker用户组,若是没有,手动生成:sudo groupadd docker。#再次强调~/.bashrc文件对用户的重要性,进行备份,防止多次source,破坏文件。

2023-06-22 16:20:20 1465

原创 conda安装指定版本R

①确保miniconda3安装成功;②明确要安装的版本,且在miniconda中存在(conda search r-base )配置R的CRAN和Bioconducter。通过在指定位置创建文件Rprofile.site。若是想在非R4.1.2conda环境中使用这个R,使用alias。#配置完成,安装使用R即可。

2023-06-22 15:54:00 5175

原创 miniconda的安装使用

这时你会发现,在命令行前出现了(base),表示你已进入conda的base环境。#查找下载的软件在bioconda中是否有,你可以在官网查看(https://anaconda.org/),也可以用命令。#你先用conda安装mamba,然后在用mamba安装其他软件,似乎是快了一点,但也一定。conda安装软件最依赖的就是网速,若是网速比较慢,且不稳定,就会下载困难,这里有一个方法,可以稍微有所帮助。#这样如果出错,你只需要重新激活备份配置文件,回答修改之前的状态。#安装要求安装即可,不修改安装路径。

2023-06-22 15:43:24 243

原创 各类生信文件解读(fasta,fastq,bam,sam,bed,bg,wig,bdg,gff3,gtf等)

生信相关文件格式解读

2023-06-22 14:59:02 1976 6

原创 NCBI的NT库比对——blastn

Nt库比对

2022-10-06 10:45:21 5833 18

原创 使用SnakeMake搭建生信流程——02rule书写、config.yaml文件以及常见错误及解决方法

snakemake的rule书写、config.yaml以及常见错误

2022-07-07 16:34:26 4212

原创 使用SnakeMake搭建生信流程——03基因组survey的例子

基因组survey的snakemake搭建

2022-07-06 11:52:14 343

原创 使用SnakeMake搭建生信流程——01简单介绍(背景、安装、执行、书写要素等内容)

本次笔记是根据大佬孟浩巍老师的讲课内容总结,详细视频见https://www.bilibili.com/video/BV1jb411i76T?spm_id_from=333.337.search-card.all.click&vd_source=72e74f599269028a197f0bb23262c2e6周冉老师讲解Snakemake的视频地址https://www.bilibili.com/video/av15908415?vd_source=72e74f599269028a197f0bb23262

2022-06-25 21:38:51 1951

原创 perl模块的安装(以Bio::SeqIO为例)

perl模块安装

2022-06-07 10:41:10 5362 4

原创 在shell脚本中激活conda虚拟环境

这种情况,你只需要用source /home/zhaohuiyao/miniconda3/bin/activate ENV_NAME即可,再次运行shell脚本。dpkg-reconfigure dash,选择no,之后再次运行ls -l /bin/sh,就会是/bin/sh -> bash。但是如果你想在一个shell脚本中激活conda的env,有许多办法。我这里只提供了一种我使用的。查看自己shell解析器:grep zhaohuiyao /etc/passwd。当然如果你有root权,你可以,

2022-05-21 15:34:00 6639 3

原创 makefile流程搭建学习——一个生信小流程搭建Fasta_stat

makefile流程搭建学习——一个生信小流程搭建Fasta_stat建议有些Makefile文件编辑,python和perl知识,方便后面理解1. Fasta_stat确定目标输入文件:test.fa。完成三个目标:cutadapt(去除两端adapt序列),gc.py(统计GC含量),stat.pl(统计序列长度)输出文件:new_test.fa,stat文件(包括gc含量,和序列长度信息)设计目录这里提到的cutadapt安装和基本使用,gc,py,stat.pl,run.ini,以及

2022-05-05 21:49:29 541

原创 makefile流程搭建学习——基础知识和练习

Makefile流程搭建学习——第1讲1. Makefile 属于工程管理文件。一个工程,也就是一个可运行的软件,包括源文件、头文件、库文件、二进制文件以及工程管理文件。我使用Makefile是搭建生信分析流程,我以问题为导向,生成自己想要的makefile。确定目标输入文件:test.fa。完成三个目标:cutadapt(去除两端adapt序列),gc.py(统计GC含量),stat.pl(统计序列长度)输出文件:new_test.fa,stat文件(包括gc含量,和序列长度信息)设计目录

2022-04-23 15:59:48 1540

原创 自学shell编程——练习题

自学shell编程——练习题在学习了前面的教程后,再完成这些练习,帮助巩固知识点1. 生成一个标准的shell脚本的开头,以及修改该文件的执行权限#!/bin/bashif test $# -ne 1then echo "please input one argument as the shell script name."fitouch $1date="`date`"echo -e "#!/bin/bash\n\n\n">$1echo -e "#################

2022-04-19 10:11:03 623

原创 自学shell编程——补充知识点——键盘输入read,数学运算、书写注意、trap捕捉

自学shell编程——补充知识点——键盘输入、数学运算1. 在执行*.sh文件过程中键盘输入一个值,而不是命令行传参,使用read命令复习知识点:命令行参数在shell脚本中对应$1、$2、$3……,直接使用即可read如何使用,这里列举两种方式#!/bin/bash#出现一个提示语句,并将键盘输入的结果赋值到一个指定变量中echo "please input a number"read num1echo $num1read -p "please input a number:" num

2022-04-18 22:23:08 649

原创 自学shell编程——第5讲(正则表达式+grep、sed、awk的使用)

自学shell编程——第5讲(正则表达式+grep的使用)这是shell编程语言,python语言重点的部分。比较好理解,但是难应用,要多多练习,有时候会事半功倍。1. 正则表达式RERE本质上是特殊符号组成的一个式子,帮助你模糊查询可以用到RE的地方很多,常见的命令有grep。当然,在某些情况下也可以用。比如,你想删除这个目录下,所有以.sh结尾的文件。你可以使用rm *.sh。grep标准使用格式:** grep 正则表达式 寻找对象文件 参数 。这样查找的结果会直接输出到终端,你后面可以使

2022-04-18 22:21:21 192

原创 自学shell编程——第4讲(自定义函数)

自学shell编程——第4讲(自定义函数)1. 定义函数框架。函数名()-{-函数体-}。以下几点注意:shell函数不需要形参。在函数内部,使用$# 和 $* 分别表示函数内部的参数个数和参数内容。函数体内的参数命令与调用函数的名字不一定一致,或者你可以不使用变量传参,直接内容。(这里写个代码,方便大家理解)#!/bin/bashadd(){ echo "$num1 + $sum2 = `expr $num1 + $sum2 `"}$number1=3;$number2=4$num1

2022-04-17 17:51:36 1859

原创 自学shell编程——第3讲(for语句/while语句/until语句)/在while循环内设置的shell变量在其外部不可见

自学shell编程——第3讲(for语句/while语句/until语句)三种循环语句:for语句/while语句/until语句。1. for循环语句:for 循环变量 in 次数-do-循环体-done以一个例子作为练习,熟悉for循环语句。这里比较难的是次数(就是循环限制)的书写#在定义变量时定义属性declare -i num=2 #将变量nun直接定义为整数型,值为2num=$num*2;echo $num #输出4;

2022-04-17 14:54:59 546

原创 自学shell编程——第2讲(test测试语句/if语句/case语句)

自学shell编程——第2讲(if语句与test测试语句)shell中用到的分支语句:if-then-else-fi语句;case-esac语句。控制语句:for语句;while语句;until语句1. test测试语句,test相当于ls一类,属于shell命令根据测试对象,将test语句分为三大类。文件。可以判断是否存在(-e)、是否可读(-r)、是否可写(-w)、是否可执行(-x)、是否是目录(-d)、是否是普通文件(-f)、是否非空(-s)。两个字符串或单个字符串。可以判断是否相同(=)

2022-04-14 18:12:23 1120

原创 自学shell编程——第1讲(基础概念、变量、符号、字符串处理、列表)

shell编程1. 常见shell命令ls cd more less pwd mkdir clear touch vim chmod grep cp ln man ps -ef查看这些命令的帮助文档:man less或less --help2. shell编程和C语言编程的差距C语言:①文本编辑器编辑文件hello.c;②进行编译:gcc hello.c -o hello.o,则该目录下会生成一个可执行的hello.o文件;③执行:./hello.oshell编程:①文本编辑器编辑文件hell

2022-04-14 16:10:01 858

原创 NCBI下载nt/nr/swissprot库

NCBI下载nt/nr/swissprot库1. 确定你要下载文件的位置https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/2. 进行下载方法一:使用wget,nohup wget https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz 2>&1 &方法二:使用ascp,nohup /path/.aspera/connect/bin/ascp -v -QT -l 400m -k1 -i /path

2021-11-24 22:04:42 10758 1

原创 使用二代数据进行基因survey-01cleandata(持续更新中)

使用二代数据进行基因survey(持续更新中)这是本人自己测序的二代数据,公司提供的是rawdata。文库350bp。测序类型PE150。二代数据特点就是:短读长,低质量。因此第一步就是过滤数据,得到cleandata。本人的坑:不管是处理什么数据,第一步都是观察数据,了解数据的来源,构造,是否有菌污染等。通常菌污染是进行blast,与nt库进行比对(可查看本人的另一篇文章)。第一步:过滤数据(filter)指标:①过滤N碱基占比>10%的reads;②过滤低质量碱基(质量低于<5)占比

2021-11-24 20:13:15 1376

原创 使用Aspera下载NCBI和ENA数据库中的数据

NCBI储存的数据有nt/nr/swissprot/blast等,EBI储存的数据有pfam等#安装asprera(https://www.ibm.com/products/aspera/downloads)#下载并上传(安装包ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz)tar -zxvf ./ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz./ibm-aspera-connect-3.11

2021-11-24 09:50:33 4667 5

原创 SRA数据下载(通过EBI-ENA数据库,使用ASpera)

SRA数据下载(通过EBI-ENA数据库,使用ASpera)这是本人的第一篇文章,欢迎浏览提问,我会在最快时间内答复。谢谢大家。本文主要是针对新手下载SRA数据过程,我本人已亲自实践有效。按照本文下载SRA数据,需要提前安装Linux系统(常用CentOs或Ubuntu)。需要一定的Linux系统的操作命令认识以及生信知识(包括NCBI数据库检索等)。SRA简识SRA数据:一种储存高通量测序数据格式。高通量测序:即NGS和TGS,通常数据产出在几十到几百MB不等各种检索号PRJNA:study

2021-02-22 21:48:51 6069 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除