Hookee-CSDN博客

转载最小二乘法和最大似然法

对于最小二乘法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小。而对于最大似然法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然，这是从不同原理出发的两种参数估计方法。在最大似然法中，通过选择参数，使已知数据在某种意义下最有可能出现，而某种意义通常指

2014-09-27 08:58:59 1090

转载 BEDTools简介、安装与部分工具使用简介

简介1、概述BEDTools是可用于genomic features的比较，相关操作及进行注释的工具。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示，用UCSC Genome Browser进行可视化比较。2、与BEDTools使用相关的基本概念

2014-08-05 10:45:37 2960 1

转载 R学习-方差分析

单因素方差分析题解单因素四水平试验四种不同配方材料A1,A2,A3,A4生产出的原件，寿命如下表，问：四种不同配方下原件的使用寿命有无显著差异lampX=c(1600, 1610, 1650, 1680, 1700, 1700, 1780, 1500, 1640,1400, 1700, 1750, 1640, 1550, 1600, 1620, 1640, 1600,

2014-08-04 12:48:41 2460

转载从随机过程到马尔科夫链蒙特卡洛方法

1. Introduction第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling，当时因为要赶着做项目，虽然一头雾水，但是也没没有时间仔细看。趁目前比较清闲，把 machine learning 里面的 sampling methods 理

2014-05-21 10:18:04 1457

转载机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

2014-05-13 08:57:01 601

转载机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

2014-05-13 08:55:50 897

转载机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA)

2014-05-13 08:55:08 613

转载机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

2014-05-13 08:53:33 576

转载 limma包的使用技巧

limmar package是一个功能比较全的包，既含有cDNA芯片的RAW data输入、前处理（归一化）功能，同时也有差异化基因分析的“线性”算法（limma: Linear Models for Microarray Data），特别是对于“多因素实验（multifactor designed experiment）”。limmar包的可扩展性非常强，单通道（one channel）或者

2014-05-06 16:44:59 12218 1

转载多重比较校正中的一些概念

关于多重比较校正，虽然曾经查过很多东西，也大概记住一些，但最近发现没留下多少正确的印象。所以又温习了一遍，稍加整理，留备后用。当然，这些还是我自己的理解，如果有不对的地方，还请指出 :)主要内容均来自wikipedia以及这个网页.假设我们手上有一枚硬币，想通过抛10次硬币的方法检验它的金属分布是否均匀，结果发现扔10次，有9次国徽朝上。此时我们打算下结论说它的分布不均匀，恐怕被人

2014-03-24 16:58:06 13541

转载关联规则：R与SAS的比较

啤酒和尿布的故事是关联分析方法最经典的案例，而用于关联分析的Apriori算法更是十大数据挖掘算法之一（http://www.cs.uvm.edu/~icdm/algorithms/index.shtml，这个排名虽然是几年前的调查结果，但是其重要性仍可见一斑）。本文以《R and Data Mining》书中使用的泰坦尼克号人员的生存数据为例，介绍如何使用R和SAS的Apriori算法进行关

2014-03-24 09:08:55 2529

转载主成分分析在生命科学研究中的应用

主成分分析常常用于基因组全序列表达研究，但是，到底什么是主成分分析？如何将这种方法用于对高维度数据的分析中呢？生命科学研究中采用的一些测定方法，对每个样品所采集的数据的变量要多于所测定的样品数。例如，DNA芯片及质谱仪可以对上百个样品中数以千计的mRNAs或蛋白质水平进行测定。诸如此类的高维度测定使得样品的分析结果很难清晰便捷地进行判断，也限制了对数据进行简单分析的应用。

2014-03-13 11:32:13 2558

转载 [循证理论与实践] Meta分析系列之六：间接比较及网状 Meta 分析

在临床实践中，经常会碰到没有直接比较的证据或者需要从众多干预措施中选择对患者最佳措施的情况，此时，研究者往往会从随机对照试验（RCT）中寻找间接证据，这就形成了间接比较的Meta分析或多种干预措施比较的Meta分析（网状Meta分析）。1、间接比较Meta分析间接比较（indirect comparison）是指通过干预措施A vs. C和干预措施B vs. C的结果，

2014-03-11 12:41:56 3933

转载 [循证理论与实践] Meta分析系列之五：贝叶斯 Meta 分析与 WinBUGS 软件

贝叶斯Meta分析（Bayesian Meta-Analysis）是近年来基于贝叶斯统计发展起来的一种新型的Meta分析方法，主要采用“马尔科夫链—蒙特卡罗”（Markov chain Monte Carlo，MCMC）方法、使用WinBUGS软件进行。1、起源与发展英国数学家Bayes T于1763年在《论有关机遇问题的求解》中提出了贝叶斯公式和一种归纳推理的理论（但可能因其认

2014-03-11 12:41:14 3352

转载 [循证理论与实践] Meta分析系列之四：观察性研究的质量评价工具

观察性研究（observational study）又称非实验性研究(non-experimental study），是指没有加入研究人员的任何干预（试验的或其他方面）措施，允许事件自然发展的研究过程，与随机对照试验相比，观察性研究更容易受到偏倚风险影响，发生选择性偏倚的风险大于实验性研究。观察性研究的Meta分析具有重要意义①对观察性研究进行定量分析,以确定某因素是否为危险

2014-03-11 12:40:27 6984 1

转载 [循证理论与实践] meta分析系列之三: 随机对照试验的质量评价工具

meta分析是对原始研究的二次综合分析与评价，其质量受纳入原始研究质量"评价的方法"评价者的知识水平及观点的影响。若 meta分析纳入的原始研究质量低，且未对原始研究方法学质量进行正确评价，meta分析的结果和结论可能是不正确的，从而对临床实践造成误导，因此，对 meta分析纳入的原始研究质量进行严格的评价尤为重要。1、临床研究类型简介临床研究按照是否存在人为干预，分为实验

2014-03-11 12:39:23 4379 1

转载 [循证理论与实践] meta分析系列之二: meta分析的软件

1、编程软件（1）StataStata软件是基于C语言的一个功能强大而又小巧玲珑的统计分析软件，最初由美国计算机资源中心研制，现为stata公司的产品。(2) R软件R软件是基于S语言的一种免费开放式的统计编程环境，由auckland 大学 Ross Ihaka 和Robert Gentlemen 及其他志愿者开发，目前由R核心开发小组维护。 2

2014-03-11 12:37:49 2639

转载 [循证理论与实践] meta分析系列之一: meta分析的类型

证据是循证医学( Evidence-based medcine,EBM) 的核心，基于随机对照试验( RCT) 的系统评价/meta分析是当前公认的最高级别证据。meta分析在医学领域应用最为广泛，应用最多的是对干预性的随机对照试验的评价，在观察性研究和交叉对照研究中也得到推荐。1、单组率的meta分析单组率的 meta 分析，是一种只提供了一组人群的总人数和事件发生人

2014-03-11 12:36:04 5141 1

主成分分析（principal components analysis， PCA）是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够

2014-03-08 14:14:46 1720

转载马尔可夫入门概念

为了清楚整理马尔可夫相关概念，做了下笔记，首先抛出一些概念：1 【马尔可夫性质马尔可夫过程马尔可夫链】概念：其未来由现在决定的程度，使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下，“未来”与“过去”彼此独立的特性就被称为马尔可夫性，具有这种性质的随机过程就叫做马尔可夫过程，其最原始的模型就是马尔可夫链。实例1：用一个通俗的比喻来形容，

2014-03-06 09:37:43 1146 3

转载 Power Analysis

OverviewPower analysis is an important aspect of experimental design. It allows us to determine the sample size required to detect an effect of a given size with a given degree of confidence. Conv

2014-03-05 16:36:43 2711

转载 R语言多元分析系列之一：主成分分析

2014-03-05 13:19:50 1874

转载数据挖掘的R包和函数的集合

数据挖掘的R包和函数的集合1、聚类常用的包： fpc，cluster，pvclust，mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法:

2014-03-05 13:15:35 1360

转载从决策树学习谈到贝叶斯分类算法、EM、HMM

第一篇：从决策树学习谈到贝叶斯分类算法、EM、HMM （Machine Learning & Data Mining交流群：8986884）引言最近在面试中，除了基础 & 算法 & 项目之外，经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然，这完全不代表你将来的

2014-02-28 09:33:38 1467

转载基因芯片（Affymetrix）分析3：获取差异表达基因

芯片质量分析芯片数据预处理获取差异表达基因GO和KEGG分析聚类分析(本文于2013.09.04更新）“差异”是个统计学概念，获取差异表达基因就要用统计方法，R的统计功能很强大，适合做这样的事情。用前面的方法读取数据：library(affy)library(tcltk)filters matrix(c("CEL file", ".[Cc][Ee][Ll]",

2014-02-24 20:33:08 2234

转载基因芯片（Affymetrix）分析2：芯片数据预处理

芯片质量分析芯片数据预处理获取差异表达基因GO和KEGG分析聚类分析(本文于2013.09.04更新）基因芯片技术的特点是使用寡聚核苷酸探针检测基因。前一节使用ReadAffy函数读取CEL文件获得的数据是探针水平的（probe level），即杂交信号，而芯片数据预处理的目的是将杂交信号转成表达数据（即表达水平数据，expression level data）。存储探针水平数据的

2014-02-24 10:17:30 1908

转载偏相关系数

在多元相关分析中，简单相关系数可能不能够真实的反映出变量X和Y之间的相关性，因为变量之间的关系很复杂，它们可能受到不止一个变量的影响。这个时候偏相关系数是一个更好的选择。偏相关系数是在排除了其他变量的影响下计算变量间的相关系数。假设我们需要计算X和Y之间的相关性，Z代表其他所有的变量，X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之间的简单相关系数，

2014-02-19 09:24:22 8705

转载 R入门

基础ls()显示内存中的对象rm()删除内存中对象,rm(list=ls())删除全部?lm显示帮助help(lm)帮助getwd()获取当前工作目录setwd("C:/data")改变工作目录从外部文件中读取数据mydatascan()返回一个数值型向量read.fwf()用于读取固定宽度格式的数据存储数据

2014-02-12 10:50:25 748

转载 R语言编程入门--replicate()函数比较有意思!

I. 导论简单来讲，编程是借助计算机来解决某个问题。学习编程的就是训练我们解决问题的能力。有这样一种说法：在未来，不会编程的人即是文盲。1 为什么要学习R编程大部分情况下解决某些问题还需要依赖一些事实或数据，结合数据分析的框架和计算工具来帮助我们决策和判断。这时候R语言编程就会派上用场。例如从大的方面来看，投资方要决定在何处建立风力发电场，就需要采集天气数据加以建模分析

2014-02-12 10:49:44 13049

转载 R语言学习笔记(2)：数据类型和数据结构

R中的数据结构主要面向《线性代数》中的一些概念，如向量、矩阵等。值得注意的是，R中其实没有简单数据（数值型、逻辑型、字符型等），对于简单类型会自动看做长度为1的向量。比如：> b=5 > length(b) [1] 1 > typeof(b) [1] "double" > mode(b) [1] "numeric" R中最重要的数据结构是向量(vector)和矩阵(matrix)。

2014-01-22 10:35:57 1072

转载 R语言进阶之3：数据汇总/透视/提炼

一、行列求和、平均值和频度rowSums, colSums, rowMeans, colMeans 可以简单理解为按行或列求和或求均值，table把数字或字符当成因子统计频度，都相当简单：> a - array(rep(1:3, each=3), dim=c(3,3)) > a [,1] [,2] [,3] [1,] 1 2 3 [2,] 1 2

2014-01-22 10:34:36 1076

转载 [转载]蛋白质相互作用数据库

去，来，最终还是到蛋白质！PPI ：protein-protein interaction 1. DIP (database of interacting proteins) http://dip.doe-mbi.ucla.edu/dip/Main.cgi 在页面点击 Search by:[protein] [sequence] [motif] [arti

2014-01-10 09:21:42 4644 1

转载基因芯片筛选差异表达基因方法比较

摘要: 基因芯片筛选差异表达基因方法比较单文娟, 童春发, 施季森摘要: 使用计算机模拟数据和真实的芯片数据, 对8 种筛选差异表达基因的方法进行了比较分析, 旨在比较不同方法对基因芯片数据的筛选效果。模拟数据分析表 ...基因芯片筛选差异表达基因方法比较单文娟, 童春发, 施季森摘要: 使用计算机模拟数据和真实的芯片数据, 对8 种筛

2014-01-07 11:22:03 11863 1

转载生物信息学必读100篇论文

生物信息学：生物信息学时应用信息科学的知识和方法，搜集、整理、贮存、分析生命科学的一门新兴学科，是现代医学生物学研究和分析的必备工具。CMBI曾就当今网上的各种专业网站及专业数据库作过报道，具体请参阅生物信息网站评述。这次CMBI再从《Bioinformatics》这一国际上最为著名的专业杂志中摘编了两年来发表的最重要的一百多篇论文，供读者参考。总论 The Economic Value

2013-12-03 16:00:55 7317 2

转载用R和BioConductor进行基因芯片数据分析(三)：计算median

我们已经知道要分析的数据对每个基因有3个重复测定值，经过缺失值填充后，每个基因都有3个可用值。这一步很简单，就是取这3个值的中位数，即median。方法很多，在excel中可以用median函数;在R中以下代码进行操作：get_mediannum_vecmedian(num_vec) } #A simple function to calculate

2013-11-27 09:51:34 1394

转载用R和BioConductor进行基因芯片数据分析(五)：芯片间归一化

上次进行了芯片内的归一化，但是我们的数据来自于10张芯片，为了让这10张芯片之间有可比性，需要进行芯片间归一化。具体原理就不介绍了。这里用到Bioconductor的一个package，叫做limma，以及其中的函数normalizeBetweenArrays()由于normalizeBetweenArrays()需要log intensity或log ratio作为输入，

2013-11-27 09:50:24 6539

转载用R和BioConductor进行基因芯片数据分析(六)：差异表达基因

经过一系列的预处理，包括缺失值填充，中位数计算以及归一化，我们的数据终于可以用啦。下面我们就来分析一下new population和old population的个体是否有差异表达基因。判断一个基因是否差异表达有许多方法，最早使用的就是看log ratio的绝对值是否大于2,这种方法早已废弃。下一个想到的也许是t-test，诚然t-test可以统计地判断一个基因是否差异表达

2013-11-27 09:48:29 5111

转载用R和BioConductor进行基因芯片数据分析(四)：芯片内归一化

归一化是从normalization翻译过来的。归一化的目的是使各次/组测量或各种实验条件下的测量可以相互比较，消除测量间的非实验差异。非实验差异可能来源于样品制备，点样，杂交过程，杂交信号处理等。归一化的方法有很多，对于寡聚核苷酸芯片（单通道，以Affymetrix为代表）和cDNA芯片（双通道，红绿染料）也有所不同。以下讨论针对双通道芯片进行，当然也可能适用于单通道，请读者自辨。

2013-11-27 09:47:01 6083

转载用R和BioConductor进行基因芯片数据分析(二)：缺失值填充

以下分析用到的数据可以在这里(http://dl.getdropbox.com/u/308058/blog/raw_data_3_replicates.txt )下载，这个数据来自关于基因对蝴蝶迁移性的研究，样本是20个蝴蝶个体，其中10个是当地固有个体(old)，另外10个是新迁入的个体(new)，old和new个体两两随机配对，分别用不同颜色染料（波长分别为555和647nm）标记后，在同一张

2013-11-27 09:43:55 3818 1

ElasticSearch

ElasticSearch开发参考资料##

2018-12-02

R for Beginners

1 导导导言言言 1 2 基基基本本本原原原理理理与与与概概概念念念 3 2.1 基本原理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 对象的产生，排列及删除 . . . . . . . . . . . . . . . . . . . . . 5 2.3 在线帮助 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 R的的的数数数据据据操操操作作作 9 3.1 对象. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2 在文件中读写数据. . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3 存储数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.4 生成数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.4.1 规则序列. . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.4.2 随机序列. . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5 使用对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.5.1 创建对象. . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.5.2 对象的类型转换 . . . . . . . . . . . . . . . . . . . . . . 24 3.5.3 运算符. . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.5.4 访问一个对象的数值：下标系统 . . . . . . . . . . . . . 27 3.5.5 访问对象的名称 . . . . . . . . . . . . . . . . . . . . . . 30 3.5.6 数据编辑器. . . . . . . . . . . . . . . . . . . . . . . . . 32 3.5.7 数学运算和一些简单的函数. . . . . . . . . . . . . . . . 32 3.5.8 矩阵计算. . . . . . . . . . . . . . . . . . . . . . . . . . 34

2013-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人