自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhu_si_tao的博客

计算机 生物

  • 博客(39)
  • 收藏
  • 关注

原创 生物信息中坐标文件到底是0-based 还是 1-based?

生物信息中坐标文件到底是0-based 还是 1-based?常见的坐标文件0-based1-based常见的坐标文件常见的坐标文件包括BAM,SAM,VCF, GFF, BED,等生物信息文件UCSC参考0-based0起始的坐标系统,表示序列的第一个碱基的坐标是0,这类坐标的区间特点是左闭右开,例如3rd 到7th表示为[3,7)。这类文件包括BAM (SAM), BCFv2, BED和PSL格式的文件。1-based1-based 坐标系统序列的第一个碱基编号为1,在这个坐标系统中,一个

2022-02-11 10:22:00 792

转载 sam文件学习1

1.FLAG说明 Each bit in the FLAG field is defined as:0x0001 p the read is paired in sequencing0x0002 P the read is mapped in a proper pair0x0004 u the query sequence itself is unmapped0x0008 U the

2017-10-30 12:45:37 561

原创 python,perl和R模块的安装

Python,Perl和R,作为生物信息的主要语言,应用十分广泛;主要原因就是这三种语言有丰富的包,这些包可以运用特定的方法,实现特定的功能!一.Pythonpython 是这三种的支持面向对象最好的语言,第三方包也是最多的。1.Python包安装方式一pip install package;pip是Python官方用来管理包的一个模块,在Python的官方版本中默认安装2.a

2017-09-04 13:13:10 5020

转载 SGE集群使用

一、基本用法SGE工作流程:接受用户投放的任务在任务运行以前,将任务放到一个存储区域发送任务到一个执行设备,并监控任务的运行运行结束写回结果并记录运行日志常用的SGE命令:1. 投递任务到指定队列all.q方法一: qsub -cwd -l vf=*G -q all.q *.sh方法二: qsub -cwd -S /bin/bash -l vf=*G -q al

2017-08-24 16:45:32 6335

原创 群体遗传学---admixture软件快速群体分群

群体遗传学中测的很多个个体,得到了最终的SNP vcf文件,需要将其分成群体,看那几个物种聚在一起,一般使用的软件就是STRUCTURE,但是STREUTURE运行速度极慢,后面frappe软件提升了速度,但是也不是很快;admixture凭借其运算速度,成为了主流的分析软件。admixture 软件一共分为5步:# step 1/USER/zhusitao/Software/vcft

2017-08-22 16:18:08 15055 6

转载 轻松看懂机器学习十大常用算法

通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。 以后有时间再对单个算法做深入地解析。今天的算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算法Adaboost 算法神经网络马尔可

2017-08-15 13:36:20 431

转载 用U盘安装Linux图解

一般如果需要安装Linux都是使用光盘安装,即将网上下载的ISO文件刻录到光盘中,然后设置BIOS用光盘引导即可;我们是否可以使用U盘进行Linux安装呢?答案是可以,我们可以使用UltraISO将ISO文件刻录到U盘中,然后利用U盘引导即可; 优点:不需要刻录光盘;  此处以Ubuntu 10.04 为例;步骤1:打开操作系统ISO文件

2017-08-15 13:32:54 293

转载 机器学习入门:线性回归及梯度下降

本文会讲到:(1)线性回归的定义(2)单变量线性回归(3)cost function:评价线性回归是否拟合训练集的方法(4)梯度下降:解决线性回归的方法之一(5)feature scaling:加快梯度下降执行速度的方法(6)多变量线性回归Linear Regression注意一句话:多变量线性回归之前必须要Feature Scaling!方

2017-08-15 13:07:54 309

原创 Scala定义函数的5种方式

大数据spark的源码是用Scala来开发的,因此学习Scala来开发spark会更加便捷。scala中第一函数的集中方式如下:1.规范化写法,scala 函数的返回值是最后一行代码;def addInt(a:Int,b:Int) : Int = {var total : Int = a + breturn total}//Unit,是Scala语言中数据类型的一种,表

2017-07-31 11:36:46 20812 3

原创 三台台式机组装成hadoop集群

目的:将三台普通的台式机组装成为,hadoop集群,供大数据开发测试。材料:三台台式机,centos7 安装包(利用USBWriter做一个安装镜像),Java,hadoop安装包步骤:1.集群规划主机名 ip                         安装的软件 进程master 172.22.23.234jdk、hadoop namenode ressourc

2017-07-17 17:52:56 1364

转载 Mac安装hadoop伪分布式

目录 一、 下载jdk 二、 配置Hadoop 三、 配置ssh,无密码登录 四、 启动hadoop 五、 环境配置一. 下载jdk 选择最新版本下载,地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 安装完成之后,打开终端,输入Java -version ,出现类似如下说

2017-07-11 13:02:39 429

转载 Annovar 软件注释流程

第一步:下载Annovar上Annovar官网下载(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),现在要邮件注册后才能下载。邮件注册后会给你最新版软件下载地址,下载后文件为annovar.latest.tar.gz。第二步:安装Annovarlinux系统下用该命令解压

2017-07-06 11:15:21 3316

原创 numpy中的常用函数

Python的numpy包用来进行矩阵计算,该包的几个主要函数如下(持续更新中):1.met()用来将数组转化为矩阵2.shape()用来读取矩阵的长度3.transpose()用来转置矩阵

2017-07-05 16:45:23 510

原创 群体遗传学--华伦德效应(Wahlund effect)

群体遗传学中,假定生物由一系列地方群体构成,每个地方群体都符合理想群体的条件,但是不同地方群体中等位基因的频率不同,如果将这些地方群体是为一个整体,那么整体中等位基因的频率等于各地方群体中等位基因频率的平均值;但是按照Hardy-Weinberg法则估算的整个群体中纯合体的频率比各地方群体中的纯合体频率的平均值要低。该现象叫Wahlund's effect 或者隔离断裂效应(isolate bre

2017-06-27 15:45:24 7821 1

原创 Windows中python机器学习numpy,scipy,matplotlib的安装

Python在数据处理方面有很多包,本文是在Python机器学习基本包的安装1.Python安装官网上下载相应机器的Python安装包,本文采用Python27https://www.python.org/ftp/python/2.7.13/python-2.7.13.amd64.msi2.pip安装安装Python是勾选pip安装即可3.numpy安装在网站htt

2017-05-11 15:06:37 627

原创 群体遗传学--Fst指数

群体遗传学中衡量群体间分化程度的指标有很多种,最常用的就是Fst指数。Fst指数,由F统计量演变而来。F统计量(FIS,FIF,FST)主要有三种。Fst是针对一对等位基因,如果基因座上存在复等位基因,则需要用Gst衡量,基因差异分化系数(gene differentiation coefficient,Gst)。假定有s个地方群体,第k个地方群体相对大小为wk,第k个地方群体

2017-05-10 00:08:52 38090 4

原创 群体遗传学--近交系数

群体遗传学中,经常提到群体间自由交配,但是实际中,群体间经常会发生近亲交配,特别上在植物群体中;因此,为了衡量群体的近交程度,近交系数诞生了。近交群体的近交程度,常用群体的平均近交系数度量。二倍体的平均近交系数是指:从群体中随机抽取一个体携带的两个等位基因是同源的概率。假定二倍体群体中等位基因A和a频率分别为p,q,平均近交系数为F,群体中任何个体携带的一对等位基因必然存在或同源,

2017-05-09 16:25:56 15718

原创 群体遗传学--哈温定律

群体遗传学中哈迪-温伯格定律的主要内容是指:在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。①种群足够大;②种群个体间随机交配;③没有突变;④没有选择;⑤没有迁移;⑥没有遗传漂变数学证明:假定群体数量很大:本次世代雄性三种基因型:AA Aa aa P(AA) = PmP(Aa) = QmP(aa) = Rm雌性

2017-05-09 16:11:38 5432 1

转载 群体遗传学瓶颈效应bottleneck effect

瓶颈是指生物世代交替的过程中,大群体发生奔溃crash,导致群体内个体数目和遗传变异严重丢失。由于群体经历了瓶颈作用,再扩展到原来大小时,群体中等位基因的频率发生波动,这种效应称为瓶颈效应bottleneck effect。群体经历瓶颈后可能快速重新扩张到原来群体的个体数目,但是群体遗传变异水平不可能恢复大原来的水平,直到通过基因突变或基因流,才能恢复到原来群体的遗传变异水平。当一个群体发生瓶颈效

2017-05-03 11:46:22 27256

转载 SOAP 比对解释

SOAP2是SOAP的升级版本,提高了短序列比对的运行速度和精度,同时SOAP2的一个重要改进是支持不同长度的读长。使用步骤:1.用2bwt-builder对fa文件建立索引使用方法:2bwt-builder <sequence file>2.将reads与序列进行比对SE:/Soap/soap2.21release/soap –a  <reads_a>  -D ...

2017-05-03 11:19:07 3826 2

原创 生物信息实用数据库与论坛

生物信息借助计算机的力量,发展的越来越快,生物数据指数级的增长,带来了大量数据库和论坛的诞生;本文介绍一些可用的数据库和生物信息论坛:一.实用论坛:提问解决困难的好地方1. SEQanswers http://seqanswers.com/2. BioStars  https://www.biostars.org/3. https://stackoverflow.com/

2017-05-02 15:55:25 1317

原创 shell中sed

sed:Stream EDitor流式编辑器,一次处理一行的内容。用法:sed [options] 'command' file(s)              sed [options] -f scriptfile file(s) 选项:-d 删除:cat test.file |sed ‘1,2‘ d ##删除文件的前两行,放在引号的里面和外面都可以sed '/^$/d' f

2017-05-02 12:30:51 484

转载 多重假设检验与Bonferroni校正、FDR校正

总结起来就三句话:(1)当同一个数据集有n次(n>=2)假设检验时,要做多重假设检验校正(2)对于Bonferroni校正,是将p-value的cutoff除以n做校正,这样差异基因筛选的p-value cutoff就更小了,从而使得结果更加严谨(3)BH校正是对每个p-value做校正,转换为q-value。q=p*n/rank,其中rank是指p-value从小到大排序后的次序。

2017-05-02 12:29:34 99840 10

转载 两列样本的差异基因筛选

两列样本数据的差异基因筛选方法:FoldChange法+FDR控制其中,FDR值的计算方法如下:1)对每个基因进行p-value的计算假设观测到基因A对应的reads数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(x)的分布服从泊松分布。已知样本一中唯一比对到基因组的总reads数为N1,样本二中唯一比对到基因组的总reads数为N2,样

2017-05-02 12:28:18 10336 1

原创 R studio常用命令行操作

R 语言的著名的开发应用Rstudio常用的命令行命令:1. 读取和改变目录dir():列出当前目录下的文件,相当于Linux下 ls 命令;getwd():显示当前目录,相当于Linux下 pwd 命令;setwd():改变目录,相当于Linux下的 cd 命令;2.对象管理ls() :列出当前R环境的所有对象;rm(objector 1):删除特定的对象;rm (l

2017-05-01 21:07:01 6730

原创 linux查找神器---find

Linux 查找命令是Linux系统中最重要和最常用的命令之一。查找用于根据与参数匹配的文件指定的条件来搜索和查找文件和目录列表的命令。查找可以在各种条件下使用,您可以通过权限,用户,组,文件类型,日期,大小等可能的条件查找文件。 第一部分:查找名称查找文件的基本查找命令第二部分:根据他们的权限查找文件第三部分:基于所有者和组的搜索文件第四部分:根据日期和时间查找文件和目录第五部分

2017-04-18 12:38:06 510

转载 写一个Perl包来负责流程调用软件

Perl流程中会涉及到很多软件的调用,如果直接把软件的路径写到主程序中,可以执行(my$blastall="/opt/blc/genome/bin/blastall"; );但是碰到复杂的流程时,其中的软件调用很多时,我们一个个写软件的路径也是可以执行的,但是如果软件的路径不存在了,或者软件更新了,那么麻烦就来了,要重头到尾找软件的路径并修改;现在有一个解决方法,就是将软件的路径写入到

2017-02-10 16:17:50 1051

原创 python 执行系统命令的方法

Python中与Linux交互的主要是os模块,subprocess模块和cammands模块. 1.os.system() # 仅仅在一个子终端运行系统命令,而不能获取命令执行后的返回信息;若在命令行下执行就返回结果至屏幕。 example: 2.os.popen() #能执行命令也能返回结果,结果以文件的形式返回,要读取可以使用文件的方法,f.readl

2016-12-22 10:05:19 489

转载 SGE作业基本用法

SGE简介:SGE(Sun Grid Engine),远程调度作业。网格,执行任务的计算资源的集合,用户将网格视作单个计算资源。SGE接受由用户提交的作业,并根据资源管理策略将作业安排在网格内适当的系统上执行,用户一次可以提交数千个作业,而不必考虑它们在何处运行。集群网格包括许多计算资源,SGE帮助我们合理的分配计算资源给用户。 SGE工作原理:SGE依据管理者制定的规则,检测...

2016-12-12 09:40:01 8267

原创 windows环境下Perl circos的安装与使用

1.Perl 中的circos软件包常常被用来画基因组图形,生成的结果文件有png和svg。由于在Linux环境下查看图形的不便,本文简要介绍在Windows环境下利用circos画图,便于查看和调试。2.软件的安装:1).Perl的安装:安装ActivePerlhttp://downloads.activestate.com/ActivePerl/releases/5.24.

2016-12-07 13:06:16 7847

原创 windows下Python matplotlib的安装

背景:利用Python画图,就需要用到matplotlib包,windows下安装的Python-2.7版本。依赖的包:1. numpy :http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/;下载其中的numpy-1.8.2-win32-superpack-python2.7;2. scipy:http://sourcefo

2016-12-07 10:43:08 912

转载 sam文件格式简介

简介文件后缀名:.sambwa、Bowtie2是现下最流行的短序列比对软件,SAM(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。SAM是一种序列比对格式标准,由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。不同的软件,

2016-12-02 16:48:31 23139

原创 shell中awk 使用

1.awk AWK 提供了极其强大的功能:可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。是shell中处理文本的三大利器之一。2.awk 初接触awk 是行处理器,对每行中按指定的分隔符分开的列进行相应的操作。awk [options] 'script' var=value file(s)2.1 $0 awk '{print $0,$1,$2

2016-11-28 15:34:43 930

转载 GATK流程

一、使用GATK前须知事项:(1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法。(2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,目前的版本是2.8.1(2014-02

2016-11-24 15:52:24 34613 5

原创 shell中grep:行过滤工具

在Linux中,往往需要对大量文本做处理,其中有效的文本处理工具主要有grep ,sed 和 awk,三者称为文本处理的三大利器。 grep :Globally search a Regular Expression and Print the line的缩写。表明grep是对文本中的行,逐行进行处理。使用:grep [options] pattern [file]或者grep [opti

2016-11-24 13:25:23 8230

转载 samtools 的使用

1,对fasta文件建立indexsamtools faidx ref.fasta注意,  如果你执行命令的地方和参考序列不在同一个目录,参考序列用全路径过相对路径,最后的index结果和参考序列在同一个目录里面,而不是执行命令的目录在fasta文件中,对于某一个序列,除了最后一行,其他行所含碱基数应该一样。不同序列每行所含base数可以不一样。但是对于同一个序列,必须遵循上面的规

2016-11-15 10:58:42 9616

转载 Blat The BLAST-Like Alignment Tool

blat database query [-ooc=11.ooc] output.psl    where:       database and query are each either a .fa , .nib or .2bit file,       or a list these files one file name per line.  

2016-11-09 10:42:10 1297

原创 选择区域的检验tajimD

1.中性学说(the neutral theory)又称 中性突变的遗传漂变理论。三个要点:a.生物发生的突变都是中性的;b.基因频率的变化都是由遗传漂变造成的;c.中性突变决定进化的速率。2.TajimD检验(受选择区域的检验)a.在群体处于中性选择的情况下:D的期望值=0b.Θw对低频突变更加敏感。所以当低频突变出现,Θw↑,意味着D值下降(小于0)

2016-10-27 14:43:41 1226

原创 种群遗传学的多态性衡量参数

1.影响群体遗传多样性的因素 :群体或称种群( population), 在进化过程中受各种因素的影响,反映在其遗传结构上就产生了复杂的遗传构成。 这些因素包括突变( mutation)、种群历史( demographic history)、 遗传漂变(genetic drift)、 自然选择(natural selection)、重组( recombination) 等等

2016-10-27 14:39:47 9001 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除