sunchengquan-CSDN博客

原创机器学习数据预处理

文章目录Preparing data is time-consumingData in the real world is dirtyPreprocessing data to avoid "garbage in, garbage out"Preprocessing data - Clean your dataPreprocessing data - Data normalizationPrepr...

2020-03-04 22:17:50 1943

原创生物信息数据格式：fastq格式

文章目录格式说明实例演练判断fastq序列编码是Phred33(Illumina1.8+) or Phred64(Illumina1.3+)fastq转换fasta格式Linux 操作fastq获取数据统计reads_1.fq文件中共有多少条序列信息输出reads_1.fq文件中的标识符（即以@开头的那一行）输出reads_1.fq文件中所有序列的信息（即每个序列的第二行）输出reads_1.fq...

2020-03-05 09:14:41 32124 1

转载 markdown公式指导手册

文章目录一、公式使用参考1．如何插入公式2．如何输入上下标3．如何输入括号和分隔符4．如何输入分数5．如何输入开方6．如何输入省略号7．如何输入矢量8．如何输入积分9．如何输入极限运算10．如何输入累加、累乘运算11．如何输入希腊字母12．如何输入其它特殊字符(1)．关系运算符(2)．集合运算符(3)．对数运算符(4)．三角运算符(5)．微积分运算符(6)．逻辑运算符(7)．戴帽符号(8)．连线符...

2020-03-04 21:48:33 596

翻译 Impala的可扩展性注意事项

本节介绍了群集大小和数据量如何影响Impala表的SQL性能和架构设计。通常，添加更多群集容量可减少由于内存限制或磁盘吞吐量引起的问题。另一方面，较大的集群更可能具有其他类型的可扩展性问题，例如导致查询性能问题的单个慢节点。与可扩展性和性能调优相关的一个很好的技巧来源是Impala Cookbook演示。随着新功能的出现和新基准的执行，这些幻灯片会定期更新。许多表或分区对Impala目录...

2019-06-19 18:47:36 1651

翻译 Impala性能调优

以下部分介绍了影响Impala功能性能的因素，以及调整，监视和基准测试Impala查询和其他SQL操作的过程。本节还介绍了最大化Impala可扩展性的技术。可扩展性与性能相关：它意味着随着系统工作负载的增加，性能仍然很高。例如，减少执行的磁盘I / O.通过查询可以加速单个查询，同时通过使同时运行更多查询变得切实可行来提高可扩展性。有时，优化技术比性能更能提高扩展性。例如，减少查询的内...

2019-06-19 18:46:26 10170

翻译 Impala教程

本节包括演示如何在安装软件后开始使用Impala的教程场景。它侧重于加载数据的技术，因为一旦您在表中有一些数据并且可以查询该数据，您就可以快速进入更高级的Impala功能。注意：在可行的情况下，教程将您从“零接地”带到拥有所需的Impala表和数据。在某些情况下，您可能需要从外部源下载其他文件，设置其他软件组件，修改命令或脚本以适合您自己的配置，或者替换您自己的示例数据。在尝试这些教程课程之...

2019-06-19 18:45:00 1820

翻译第四章：Hbase Shell--Apache HBase TM Reference Guide

Apache HBase Shell是（J）Ruby的IRB，添加了一些HBase特定命令。你可以在IRB中做任何事情，你应该可以在HBase Shell中做。要运行HBase shell，请执行以下操作：$ ./bin/hbase shell键入help，然后键入以查看shell命令和选项的列表。至少浏览帮助输出末尾的段落，了解如何将变量和命令参数输入HBase shell; 特别...

2019-06-09 10:23:08 352

翻译第三章：Hbase升级--Apache HBase TM Reference Guide

升级时无法跳过主要版本。如果要从版本0.98.x升级到2.x，则必须先从0.98.x升级到1.2.x，然后再从1.2.x升级到2.x.查看Apache HBase配置，特别是Hadoop。熟悉支持和测试期望。Hbase版本及其兼容性Aspirational Semantic Versioning从1.0.0版本开始，HBase正在为其发布版本进行语义版本控制。综上所述：给定版本号...

2019-06-06 10:51:07 1652

翻译第二章：Hbase配置--Apache HBase TM Reference Guide

本章对“入门”一章进行了扩展，以进一步说明Apache HBase的配置。请仔细阅读本章，特别是基本先决条件，以确保您的HBase测试和部署顺利进行。熟悉支持和测试期望。配置文件Apache HBase使用与Apache Hadoop相同的配置系统。所有配置文件都位于conf /目录中，需要为群集中的每个节点保持同步。HBase配置文件描述backup-masters默认情况下不...

2019-06-05 09:23:42 585

翻译第一章：开始进入Hbase--Apache HBase TM Reference Guide

介绍HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般...

2019-06-03 10:24:01 402

翻译第14章数据分析案例--Python for Data Analysis 2nd

本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.gov或.mi...

2019-05-31 09:20:06 1669

翻译第13章 Python建模库介绍--Python for Data Analysis 2nd

本书中，我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间，这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决，比如普通的最小二乘回归，其它问题可能需要复杂的机器学习方法。幸运的是，Python已经成为了运用这些分析方法的语言之一，因此读完此书，你可以探索许多工具。本章中，我会回顾一些pandas的特...

2019-05-31 09:15:58 963 1

翻译第12章 pandas高级应用--Python for Data Analysis 2nd

前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展，pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。分类数据这一节介绍的是pandas的分类类型。我会向你展示通过使用它，提高性能和内存的使用率。我还会介绍一些在统计和机器学习中使用分类数据的工具。背景和目的表中的一列通常会有重复的包含不同值的小集合的情况。我们已...

2019-05-31 09:14:58 244

翻译第11章时间序列--Python for Data Analysis 2nd

时间序列（time series）数据是一种重要的结构化数据形式，应用于多个领域，包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的（比如每15秒、每5分钟、每月出现一次）。时间序列也可以是不定期的，没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景，...

2019-05-31 09:12:54 569

翻译第10章数据聚合与分组运算--Python for Data Analysis 2nd

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（Structured Query Language，结构化查询语言）能够如此流行的原因之一就是其能够方便...

2019-05-31 08:56:47 323

翻译第09章绘图和可视化--Python for Data Analysis 2nd

信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http://matplotlib.org/）和基于它的库。matplotlib是一个用于创建出版质量图表的桌...

2019-05-31 08:56:28 524

翻译第08章数据规整：聚合、合并和重塑--Python for Data Analysis 2nd

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先，我会介绍pandas的层次化索引，它广泛用于以上操作。然后，我深入介绍了一些特殊的数据操作。在第14章，你可以看到这些工具的多种应用。层次化索引层次化索引（hierarchical indexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别...

2019-05-30 16:20:23 268

翻译第07章数据清洗和准备--Python for Data Analysis 2nd

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速...

2019-05-30 16:18:54 299

翻译第06章数据加载、存储与文件格式--Python for Data Analysis 2nd

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出，虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用Web API操作网络资源。读写文本格式的数据pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结，其中read_csv和rea...

2019-05-30 16:17:11 504

翻译第05章 pandas入门--Python for Data Analysis 2nd

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风...

2019-05-30 16:15:48 337 1

翻译第04章 NumPy基础：数组和矢量计算--Python for Data Analysis 2nd

NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下：ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及...

2019-05-30 16:13:41 511

翻译第03章 Python的数据结构、函数和文件--Python for Data Analysis 2nd

本章讨论Python的内置功能，这些功能本书会用到很多。虽然扩展库，比如pandas和Numpy，使处理大数据集很方便，但它们是和Python的内置数据处理工具一同使用的。我们会从Python最基础的数据结构开始：元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后，会学习Python的文件对象，以及如何与本地硬盘交互。数据结构和序列Python的数据结构简单而...

2019-05-30 16:01:24 232

翻译第02章 Python语法基础，IPython和Jupyter Notebooks--Python for Data Analysis 2nd

当我在2011年和2012年写作本书的第一版时，可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题：我们现在使用的库，比如pandas、scikit-learn和statsmodels，那时相对来说并不成熟。2017年，数据科学、数据分析和机器学习的资源已经很多，原来通用的科学计算拓展到了计算机科学家、物理学家和其它研究领域的工作人员。学习Python和成为软件工程师的优秀书籍也...

2019-05-30 15:59:55 403

翻译第01章准备工作 --Python for Data Analysis 2nd

下载本书：http://www.jianshu.com/p/fad9e41c1a42GitHub（欢迎提pull request，GitHub上的md文件可以用来自制电子书，pdf、mobi、epub格式的都行）：https://github.com/iamseancheney/python_for_data_analysis_2nd_chinese_versionGitBook（有锚点功能...

2019-05-30 15:56:28 557

翻译第十四章：Cassandra部署与整合--Cassandra：The Definitive Guide 2nd Edition

在这个，我们的最后一章，是时候分享一些最后的建议，因为你正在努力在生产中部署Cassandra。我们将讨论在规划部署时要考虑的选项，并探讨在各种云环境中部署Cassandra的选项。我们将关注一些与Cassandra相得益彰的技术。规划群集部署Cassandra的成功部署始于良好的规划。您将需要考虑群集将容纳的数据量，将部署群集的网络环境以及运行实例的计算资源（无论是物理还是虚拟）。调整群集...

2019-05-30 15:52:15 467

翻译第十三章：Cassandra安全--Cassandra：The Definitive Guide 2nd Edition

使数据可访问一直是大数据运动的关键原则之一，在数据分析方面取得了巨大进步，并为企业，学术界和公众带来了实实在在的好处。与此同时，随着安全性和隐私需求的增长，这种数据可访问性也处于紧张状态。互联网规模系统暴露于不断变化的攻击集合中，这些系统保存的数据是最常见的目标。我们都知道多次引人注目的违规行为导致数据严重损失，包括个人数据，支付信息，军事情报和公司商业机密。而这些只是导致这一消息的漏洞。这种威...

2019-05-30 15:10:40 924

翻译第十二章：Cassandra性能调优--Cassandra：The Definitive Guide 2nd Edition

在本章中，我们将介绍如何调整Cassandra以提高性能。配置文件和各个表中有各种设置。虽然默认设置适用于许多用例，但在某些情况下您可能需要更改它们。在本章中，我们将介绍如何以及为何进行这些更改。我们还了解了如何使用Cassandra附带的cassandra-stress测试工具来生成对Cassandra的负载，并快速了解它在压力测试环境下的行为。然后我们可以适当调整Cassandra，并确信我...

2019-05-29 17:24:45 3139

翻译第十一章：Cassandra维护--Cassandra：The Definitive Guide 2nd Edition

在本章中，我们将介绍一些可以保持Cassandra集群健康的方法。我们的目标是提供可用的各种维护任务的概述。由于这些任务的具体过程在发行版之间略有变化，因此您需要确保查阅DataStax文档以了解您正在使用的版本，以确保您不会遗漏任何新步骤。让我们开始操作hats 吧！健康检查您需要寻找一些基本的东西来确保群集中的节点是健康的：使用nodetool status确保所有节点都已启动并报...

2019-05-29 14:06:11 1276

翻译第十章：Cassandra监控--Cassandra：The Definitive Guide 2nd Edition

在本章中，您将学习如何使用各种工具来监视和了解Cassandra集群生命周期中的重要事件。我们将看一些简单的方法来查看正在发生的事情，例如更改日志记录级别和了解输出。Cassandra还具有对Java Management Extensions（JMX）的内置支持，它提供了一种丰富的方式来监视您的Cassandra节点及其底层Java环境。通过JMX，我们可以看到数据库的健康状况和正在进行的事件...

2019-05-29 11:12:01 1467

翻译第九章：Cassandra读写数据--Cassandra：The Definitive Guide 2nd Edition

与前一章一样，我们使用DataStax Java驱动程序包含了代码示例，以帮助说明这些概念在实践中如何工作。写让我们首先注意向Cassandra写入数据的一些基本属性。首先，在Cassandra中写入数据非常快，因为它的设计不需要执行磁盘读取或搜索。 memtables和SSTables使Cassandra不必在写入时执行这些操作，从而减慢了许多数据库的速度。 Cassandra中的所有写入都...

2019-05-26 17:22:13 2333

翻译第八章：Cassandra客户端--Cassandra：The Definitive Guide 2nd Edition

我们习惯使用驱动程序连接到关系数据库。例如，在Java中，JDBC是一种API，它抽象关系数据库的供应商实现，以呈现使用语句，PreparedStatements，ResultSet等存储和检索数据的一致方法。要与数据库进行交互，您将获得一个与您正在使用的特定数据库一起使用的驱动程序，例如Oracle，SQL Server或MySQL;这种交互的实现细节对开发人员是隐藏的。通常为各种编程语言提供驱...

2019-05-26 13:55:37 1968

翻译第七章：Cassandra配置--Cassandra：The Definitive Guide 2nd Edition

在本章中，我们将构建第一个集群，并查看配置Cassandra的可用选项。开箱即用，Cassandra完全没有配置;您可以简单地下载和解压缩，然后执行程序以使用其默认配置启动服务器。然而，使Cassandra成为如此强大的技术的一个原因是它强调可配置性和定制。与此同时，选项的数量一开始可能会让人感到困惑。我们将关注影响集群中节点行为的Cassandra方面以及分区，故障和复制等元操作。性能调优和安...

2019-05-25 18:05:30 751

翻译第六章： Cassandra架构--Cassandra：The Definitive Guide 2nd Edition

在本章中，我们将研究Cassandra架构的几个方面，以了解它如何完成其工作。我们将解释集群的拓扑结构，以及节点如何在对等设计中进行交互，以使用诸如八卦，反熵和暗示切换等技术来维护集群的健康状况并交换数据。查看节点的设计，我们检查Cassandra用于支持读取，写入和删除数据的架构技术，并检查这些选择如何影响架构考虑因素，如可伸缩性，持久性，可用性，可管理性等。我们还讨论了Cassandra...

2019-05-25 17:21:56 1310

翻译第五章：Cassandra数据建模--Cassandra：The Definitive Guide 2nd Edition

在本章中，您将学习如何为Cassandra设计数据模型，包括数据建模过程和符号。为了应用这些知识，我们将为示例应用程序设计数据模型，我们将在接下来的几章中构建它。这将有助于显示所有部件如何组合在一起。在此过程中，我们将使用一个工具来帮助我们管理CQL脚本。概念数据建模首先，让我们创建一个在关系世界中易于理解的简单域模型，然后看看我们如何将它从关系映射到Cassandra中的分布式哈希表模...

2019-05-25 12:38:42 667

翻译第四章：Cassandra查询语言--Cassandra：The Definitive Guide 2nd Edition

在本章中，您将了解Cassandra的数据模型以及Cassandra查询语言（CQL）如何实现该数据模型。我们将展示CQL如何支持Cassandra的设计目标并查看一些一般行为特征。对于来自关系世界的开发人员和管理员来说，Cassandra数据模型最初很难理解。一些术语，例如“键空间”，是全新的，有些术语，例如“列”，存在于两个世界中，但含义略有不同。 CQL的语法在很多方面类似于SQL，但有一...

2019-05-25 12:24:21 1454

翻译第三章：Cassandra安装--Cassandra：The Definitive Guide 2nd Edition

对于那些喜欢即时满足的人，我们首先要安装Cassandra。因为Cassandra引入了许多新词汇，所以我们可能会有一些不熟悉的术语。没关系;这里的想法是在一个简单的配置中快速设置，以确保一切正常运行。这将作为一个方向。然后，我们将退后一步，了解Cassandra在更大的背景下。安装Apache DistributionCassandra可从网站http://cassandra.apache....

2019-05-25 10:01:08 824

翻译第二章：Cassandra介绍--Cassandra：The Definitive Guide 2nd Edition

在上一章中，我们讨论了非关系数据库技术的出现，以满足现代Web规模应用不断增长的需求。在本章中，我们将重点介绍Cassandra的价值主张和关键原则，以展示它如何应对挑战。您还将了解Cassandra的历史以及如何参与维护Cassandra的开源社区。Cassandra 的主要特点经常建议好莱坞编剧和软件初创公司准备好“Elevator Pitch”。这是对他们的产品究竟是什么的简要概述...

2019-05-25 08:39:35 585

翻译第一章：Cassandra超越关系数据库--Cassandra：The Definitive Guide 2nd Edition

欢迎来到Cassandra：The Definitive Guide。本书的目的是帮助开发人员和数据库管理员了解这一重要的数据库技术。在本书的过程中，我们将探讨Cassandra如何与传统的关系数据库管理系统进行比较，并帮助您将其用于您自己的环境中。关系数据库有什么问题？我们要求你考虑一个数据模型，由一个拥有数千名员工的公司的小团队发明。它可以通过TCP / IP接口访问，并且可以从各种...

2019-05-25 08:35:02 547 1

原创 vcftools用法详解

vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具参考：vcftools使用手册输入参数–vcf &lt; input_filename &gt; 支持v4.0、v4.1或者v4.2版本的VCF文件–gzvcf &lt; input_filename &gt; 通过gzipped压缩过的VCF文件–bcf &lt; input_filename &gt; B

2019-01-28 15:03:19 25587 4

原创生物信息数据格式：vcf格式

格式说明VCF格式，Variant Call Format 变异判读文件格式分为两部分内容：以“#”开头的注释部分；没有“#”开头的主体部分先讲VCF文件主题部分的结构CHROM ：表示变异位点是在哪个contig里call出来的，如果是人类全基因组的话那就是chr1…chr22，chrX,Y,M了POS：变异位点相对于参考基因组所在的位置，如果是indel，就是第一个碱基所在的位置...

2019-01-28 15:01:47 4077

空空如也

空空如也