自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 收藏
  • 关注

原创 生物信息数据存放类型之——FASTQ

FASTQ简介FASTQ用于保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。 其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发。 目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的实施标准。一、定义和示例FASTQ文件中每个序列通常有四行:第一行是序列标识以及相关的描述信息,以‘@’开头 第二行是序列第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加,但是“+”不能少。第四行,是质量信息,和第二行的序列相对应,每一

2020-06-02 20:10:39 7325 1

原创 GBT/Xgboost/Lightgbm

三大集成学习优秀博客汇总GBTXGboostLgbm

2019-08-03 20:29:44 2936

原创 神经网络训练结束后,重新指定输入输出进行预测keras

目录写在前面多输入输出模型重新定义输入输出进行预测完整代码写在前面这几年,深度学习推动了人工智能领域快速的向前发展,神经网络架构也是演变的越来越复杂,经常会有多输入,多输出的情况,然而,我们在使用训练后的模型进行预测的时候,有时并不需要进行和训练时一样的输入和输出,可能只需要模型的一部分,这时候我们可以怎么做呢?多输入输出模型以下是函数式 API 的一个很好的...

2019-03-13 12:21:21 7600

转载 深入理解过拟合与欠拟合

偏差是指我们忽略了多少数据,而方差是指我们的模型对数据的依赖程度。说你想学英语。你没有先前的语言知识,但你听说最伟大的英国作家是莎士比亚。一个自然的行动方式当然必须是将自己锁定在图书馆并记住他的作品。经过一年的学习,你从学业中走出来,前往纽约市,并向你看到的第一个人打招呼,“Good dawning to thee, friend!”(这种用法貌似只在莎士比亚作品出现过)作为回应,你...

2019-03-12 18:52:12 3418 1

转载 以XGBoost为代表的集成算法体现的哲学思想与数学技巧

目录哲学思想一:抓住主要矛盾为什么AdaBoost要增加前一次错分样本的权重?为什么lightGBM可以忽略梯度小的样本?哲学思想二:矛盾在一定条件下是可以相互转化的。为什么随机森林比单一决策树更好?为什么要用弱学习器?用偏差与方差理论解释:哲学思想三:如无必要、勿增实体数学技巧一:利用牛顿法优化数学技巧二:特征合并哲学思想一:抓住主要矛盾...

2019-03-12 18:49:26 3349

转载 奇异值分解SVD讲解

奇异值分解技术(简称SVD)具有长期且有些令人惊讶的历史。它开始于社会科学与智力测试。早期的情报研究人员指出,用于衡量智力的不同方面的测试,例如口头和空间,通常是密切相关的。因此,他们假设有一个共同的智力的一般衡量标准,他们称之为“g”,因为“一般情报”,现在通常被称为“智商”,所以他们着手解释构成的不同因素智力,以便拉出最重要的一个。今天,奇异值分解已经通过许多科学分支传播,特别是心理学...

2019-03-12 10:32:44 3449

转载 透彻理解深度学习背后的各种思想和思维

深度神经网络在2012年兴起,当时深度学习模型能够在传统机器学习问题,例如图像分类和语音识别,击败最先进的传统方法。这要归功于支撑深度学习的各种哲学思想和各种思维。抓住主要矛盾,忽略次要矛盾--池化神经网络中经过池化后,得到的是突出化的概括性特征。相比使用所有提取得到的特征,不仅具有低得多的维度,同时还可以防止过拟合。比如max_pooling:夜晚的地球俯瞰图,灯光耀眼的穿透性让人们...

2019-03-12 10:25:21 3640

转载 单样本学习(One shot learning)和孪生网络(Siamese Network)简介

背景传统观点一般认为深度神经网络通常比较擅长从高维数据中学习,例如图像或者语言,但这是建立在它们有大量标记的样本来训练的情况下。然而,人类却拥有单样本学习的能力--如果你找一个从来没有见过小铲刀的人,给它们一张小铲刀的图片,他们应该就能很成功的将它从其他厨房用具里面鉴别出来。(从来没有进过厨房?现在你有机会来测试一下你的单样本学习能力了!右边图像中,哪个是与左边大图片相同类别的?)...

2019-03-12 10:21:13 22264 1

原创 conda清理没用的安装包

conda clean -p //删除没有用的包conda clean -t //tar打包conda clean -y -all //删除所有的安装包及cache

2019-03-11 22:15:12 79744 10

原创 使用conda安装和卸载各种包

直接使用下面的命令安装conda install xxx //安装xxx包卸载conda uninstall xxx //卸载xxx包安装指定版本的包,以tensorflow-gpu1.4.0为例anaconda search -t conda tensorflow-gpu //搜索安装包运行后显示以下信息显示指定安装包的安装源anaconda ...

2019-03-11 22:12:20 209189 5

原创 conda环境管理

conda update -n base conda //update最新版本的condaconda create -n xxxx python=3.5 //创建python3.5的xxxx虚拟环境conda activate xxxx //开启xxxx环境conda deactivate //关闭环境con...

2019-03-11 21:57:45 3149

原创 anaconda卸载

anaconda windows版,直接在控制面板的程序与功能下卸载即可linux版,直接删除安装的文件夹即可,使用rm -rf file //ubuntu,file 为anaconda安装目录,例/home/anaconda3...

2019-03-11 21:53:07 5591 1

原创 conda升级命令-升级conda、anaconda及各种包

升级Anaconda需要先升级condaconda update condaconda update anacondaconda update anaconda-navigator //update最新版本的anaconda-navigatorconda update xxx #更新xxx文件包

2019-03-11 21:44:54 124236 3

原创 python的列表中存在两个冒号

有不少的人在刚接触python的时候,会遇到列表中存在两个冒号的问题,搞得一头雾水,今天为大家解释一下#创建一个列表lis=[0,1,2,3,4,5,6,7,8,9]lis=[i for i in range(10)]#取后4个数,下面两个结果是一样的,一个是按照倒叙的索引,一个是正序索引lis_=lis[-4:]lis_=lis[6:]#取3、5、7、9lis_=lis[3::...

2019-03-10 19:42:19 12915 1

转载 数据挖掘中的一些概率论知识

目录介绍随机变量概率分布函数期望值协方差预定义的概率分布分布混合(Distribution Mixtures)应用介绍为什么我们需要概率论基础才能理解机器/深度学习算法?上述问题的答案是本文背后的主要动机。机器学习/深度学习通常处理的时随机量,可以认为是非确定性的。这与在计算机科学领域产生的确定性量有很大不同。因此当希望能够在不确定的环境中进行推理...

2019-03-10 09:49:23 3831

转载 深度学习中八大类型卷积

本文为大家形象的介绍一下单通道卷积、多通道卷积、3D卷积、1 x 1卷积、转置卷积、扩张卷积、可分离卷积、分组卷积。目录单通道卷积多通道卷积3D卷积1 x 1卷积转置卷积(解卷积、反卷积)扩张卷积可分离卷积空间可分卷积深度可分卷积分组卷积单通道卷积单通道卷积在深度学习中,卷积是元素先乘法后加法。对于具有1个通道的图像,卷积如下图...

2019-03-09 11:34:01 4003

转载 最新ncRNA数据库大全(含TCGA、ceRNA、exosome等)

一、TCGA相关数据库 数据库名 网址 备注 TCGA-GDC https://portal.gdc.cancer.gov/ TCGA官网 GEPIA http://gepia.cancer-pku.cn/ 北大Zhang lab-Zefang Ta...

2019-01-04 10:27:24 20883 2

原创 中文姓名按照拼音排序-python

写在前面在做文档排版的时候经常会遇到姓名的排序问题,当人名很多的时候,我们是不可能人工的一个一个比较排序,那么有什么办法快速解决这一问题吗?答案可定是有,今天为大家介绍一种。程序from xpinyin import Pinyindef my_function(lis): #输入一个名字的列表 pin=Pinyin() result=[]...

2018-11-25 11:32:59 14250 2

原创 关于L1和L2正则化的一些理解

目录零、简介一、数学基础1. 范数2.拉普拉斯分布3.高斯分布二、正则化的理论基础1.基于约束条件的最优化2.最大后验概率估计三、正则化的直观理解1.L1正则化和特征选择2.L2正则化和过拟合3.正则化参数λ参考零、简介机器学习监督算法的基本思路是 让拟合的模型尽量接近真实数据, 换句更通俗的话, 要让我们的模型尽量简单又能很好的反...

2018-11-20 19:26:26 6604 2

原创 python异常处理

目录Python 异常处理python标准异常什么是异常?异常处理实例实例使用except而不带任何异常类型 使用except而带多种异常类型try-finally 语句实例异常的参数实例触发异常实例实例用户自定义异常经验案例传递异常 re-raise ExceptionException 和 BaseExceptio...

2018-11-15 19:23:27 5679

原创 python的map()函数的使用方法

目录描述语法参数返回值示例描述map() 会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。语法map() 函数语法:map(function, iterable, ...)参数function -- 函数 iterabl...

2018-11-15 19:09:57 6184 1

原创 python实现文件(夹)的创建、重命名、复制、移动等操作

 最近,我要经常生成一些名字非常相近的文件(夹),但是手动的创建实在是太费时费力了,创建的人都不太好了,然后我就想到了python,这个简单易学的编程语言,让它帮我实现这些琐碎的事情,通过一些时间的学习,找到了两个在文件操作上常用额工具包os和shutilos模块 os.access(path, mode) 检验权限模式 os.chdir(path) ...

2018-11-13 20:29:18 10605

原创 牛客网在线编程(22):混合颜料-python

题目描述你就是一个画家!你现在想绘制一幅画,但是你现在没有足够颜色的颜料。为了让问题简单,我们用正整数表示不同颜色的颜料。你知道这幅画需要的n种颜色的颜料,你现在可以去商店购买一些颜料,但是商店不能保证能供应所有颜色的颜料,所以你需要自己混合一些颜料。混合两种不一样的颜色A和颜色B颜料可以产生(A XOR B)这种颜色的颜料(新产生的颜料也可以用作继续混合产生新的颜色,XOR表示异或操作)。本...

2018-11-11 21:32:27 5713

原创 牛客网在线编程(21):连续最大和-python

序言这是2017年滴滴的一道题目,但是2018年出现了它的变种题目,我会同时为大家提供出本题和变种后题目的代码题目描述一个数组有 N 个元素,求连续子数组的最大和。 例如:[-1,2,1],和最大的连续子数组为[2,1],其和为 3输入描述:输入为两行。 第一行一个整数n(1 <= n <= 100000),表示一共有n个元素 第二行为n个数,即每个元素,每个整数...

2018-11-11 19:11:27 5793

原创 牛客网在线编程(20):最大奇约数-python

题目描述小易是一个数论爱好者,并且对于一个数的奇数约数十分感兴趣。一天小易遇到这样一个问题: 定义函数f(x)为x最大的奇数约数,x为正整数。 例如:f(44) = 11.现在给出一个N,需要求出 f(1) + f(2) + f(3).......f(N)例如: N = 7 f(1) + f(2) + f(3) + f(4) + f(5) + f(6) + f(7) = 1 + 1 + ...

2018-11-11 11:09:30 5746

原创 牛客网在线编程(19):暗黑字符串-python

题目描述一个只包含'A'、'B'和'C'的字符串,如果存在某一段长度为3的连续子串中恰好'A'、'B'和'C'各有一个,那么这个字符串就是纯净的,否则这个字符串就是暗黑的。例如:BAACAACCBAAA 连续子串"CBA"中包含了'A','B','C'各一个,所以是纯净的字符串AABBCCAABB 不存在一个长度为3的连续子串包含'A','B','C',所以是暗黑的字符串你的任务就是计算...

2018-11-11 10:36:42 5823

原创 牛客网在线编程(18):回文序列-python

题目描述如果一个数字序列逆置之后跟原序列是一样的就称这样的数字序列为回文序列。例如:{1, 2, 1}, {15, 78, 78, 15} , {112} 是回文序列, {1, 2, 2}, {15, 78, 87, 51} ,{112, 2, 11} 不是回文序列。现在给出一个数字序列,允许使用一种转换操作:选择任意两个相邻的数,然后从序列移除这两个数,并用这两个数字的和插入到这两个...

2018-11-10 19:31:08 5944

原创 牛客网在线编程(17):不要二-python

题目描述二货小易有一个W*H的网格盒子,网格的行编号为0~H-1,网格的列编号为0~W-1。每个格子至多可以放一块蛋糕,任意两块蛋糕的欧几里得距离不能等于2。对于两个格子坐标(x1,y1),(x2,y2)的欧几里得距离为:( (x1-x2) * (x1-x2) + (y1-y2) * (y1-y2) ) 的算术平方根小易想知道最多可以放多少块蛋糕在网格盒子里。输入描述:每组数组...

2018-11-10 19:27:30 5609

原创 牛客网在线编程(16):数字游戏-python

题目描述小易邀请你玩一个数字游戏,小易给你一系列的整数。你们俩使用这些整数玩游戏。每次小易会任意说一个数字出来,然后你需要从这一系列数字中选取一部分出来让它们的和等于小易所说的数字。 例如: 如果{2,1,2,7}是你有的一系列数,小易说的数字是11.你可以得到方案2+2+7 = 11.如果顽皮的小易想坑你,他说的数字是6,那么你没有办法拼凑出和为6 现在小易给你n个数,让你找出无法从n个数中...

2018-11-10 15:55:18 5654

原创 牛客网在线编程(15):数列还原-python

题目描述牛牛的作业薄上有一个长度为 n 的排列 A,这个排列包含了从1到n的n个数,但是因为一些原因,其中有一些位置(不超过 10 个)看不清了,但是牛牛记得这个数列顺序对的数量是 k,顺序对是指满足 i < j 且 A[i] < A[j] 的对数,请帮助牛牛计算出,符合这个要求的合法排列的数目。输入描述:每个输入包含一个测试用例。每个测试用例的第一行包含两个整数 n 和...

2018-11-10 11:19:04 5652

原创 牛客网在线编程(14):小易喜欢的单词

题目描述小易喜欢的单词具有以下特性:1.单词每个字母都是大写字母2.单词没有连续相等的字母3.单词没有形如“xyxy”(这里的x,y指的都是字母,并且可以相同)这样的子序列,子序列可能不连续。例如:小易不喜欢"ABBA",因为这里有两个连续的'B'小易不喜欢"THETXH",因为这里包含子序列"THTH"小易不喜欢"ABACADA",因为这里包含子序列"AAAA"小易喜欢"A&q

2018-11-08 18:29:36 5593

原创 牛客网在线编程(13):两种排序方法-python

题目描述考拉有n个字符串字符串,任意两个字符串长度都是不同的。考拉最近学习到有两种字符串的排序方法: 1.根据字符串的字典序排序。例如:"car" < "carriage" < "cats" < "doggies < "koala"2.根据字符串的长度排序。例如:"car" < "cats" &amp

2018-11-08 16:26:42 5735

原创 牛客网在线编程(12):编码-python

假定一种编码的编码范围是a ~ y的25个字母,从1位到4位的编码,如果我们把该编码按字典序排序,形成一个数组如下: a, aa, aaa, aaaa, aaab, aaac, … …, b, ba, baa, baaa, baab, baac … …, yyyw, yyyx, yyyy 其中a的Index为0,aa的Index为1,aaa的Index为2,以此类推。 编写一个函数,输入是任意一个...

2018-11-08 16:24:33 5914

原创 牛客网在线编程(11):字典序-python

题目描述给定整数n和m, 将1到n的这n个整数按字典序排列之后, 求其中的第m个数。对于n=11, m=4, 按字典序排列依次为1, 10, 11, 2, 3, 4, 5, 6, 7, 8, 9, 因此第4个数是2. 对于n=200, m=25, 按字典序排列依次为1 10 100 101 102 103 104 105 106 107 108 109 11 110 111 112 113...

2018-11-08 11:17:40 5763

转载 python文件读写指南(二)

我们知道当文件不存在的时候,open()方法的写模式与追加模式都会新建文件,但是对文件进行判断的场景还有很多,比如,在爬虫下载图片的时候,可能需要判断文件是否存在,以免重复下载;又比如,创建新文件的时候,可能需要判断文件是否存在,存在就先做个备份......所以,学习判断文件是否存在,还是很有必要的。学习是循序渐进的过程,若能建立知识点间的联系,进行系统性的学习,那将更有助于效果。阅读这篇文章...

2018-11-07 18:03:07 5536

转载 python文件读写指南(一)

目录 如何将列表数据写入文件?如何从文件中读取内容?多样需求的读写任务从with语句到上下文管理器如何将列表数据写入文件?首先,我们来看看下面这段代码,并思考:这段代码有没有问题,如果有问题的话,要怎么改?li = ['python',' is',' a',' cat']with open('test.txt','w') as f:    f.write(li...

2018-11-07 17:20:29 5599

转载 详解Python拼接字符串的七种方式

几乎任何一种编程语言,都把字符串列为最基础和不可或缺的数据类型。而拼接字符串是必备的一种技能。今天,我跟大家一起来学习Python拼接字符串的七种方式。1、来自C语言的%方式print('%s %s' % ('Hello', 'world'))>>> Hello world%号格式化字符串的方式继承自古老的C语言,这在很多编程语言都有类似的实现。上例的%s是一个...

2018-11-07 17:15:08 6533

转载 四大机器学习编程语言对比:R、Python、MATLAB、Octave

图源:Pixabay.comGitHub 地址:https://github.com/mjbahmani/10-steps-to-become-a-data-scientist R 语言R 是一种用于统计计算和图的语言及环境。它是一个 GNU 项目,与贝尔实验室的 John Chambers 及其同事开发的 S 语言及环境类似。R 可以视为 S 的一种不同实现。二者存在一些重要差异...

2018-11-07 17:07:46 9253 1

转载 如何达到Kaggle竞赛top 2%?这里有一篇特征探索经验帖

在数值数据上构建任意监督学习模型的一个重要方面是理解特征。查看模型的部分依赖图可帮助理解任意特征对模型输出的影响。图源:http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html但是,部分依赖图存在一个问题,即它们是使用训练好的模型创建的。如果我们可以从训练数据中直接创建部分依赖图...

2018-11-07 17:05:44 6536 2

原创 教程 | 如何用cd-hit去除冗余序列?

0.简介 生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集、分析样品间的相似程度等等,cd-hit这款软件就可以用较短的时间解决此类问题,可以对单个数据集进行去冗余,包括DNA/RNA序列和蛋白序列,也可以对两个数据集进行比较。其工作原理可概述为:将所有序列按照参数设定进行聚类,并将每一组聚类中的最长序列作为代表序列进行输出,同时给出每组聚类下的每个序列名可供相似度分...

2018-11-07 15:50:01 39376 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除