greensea669-CSDN博客

原创 Python数据处理系列汇总

Python数据处理系列主要是<量化投资：以python为工具>一书的学习笔记，精简记录了Python在数据处理相关模块和函数，主要用于自己的复习和功能速查，本系列主要包括Numpy，Pandas，Matplotlib三部分内容。拆分成以下文章： Numpy库与多维数组 Pandas与数据处理之Series Pandas与数据处理之DataFrame(1)：创...

2019-03-09 06:46:50 1095

原创 Druid.IO系列介绍汇总

Druid是一个开源的分布式OLAP系统，Druid通过了以下技术，实现了在数十亿甚至百亿数量级的数据库中提供亚秒级的查询支持的能力：分布式架构根据时间将数据分组数据导入时进行适当的数据聚合列式存储倒排索引 RoaringBitmap/CONCISE等位图压缩技术。本文汇总了所翻译的Druid.IO介绍。Druid.IO简介系列英文原文：http://druid.i...

2019-03-08 04:53:40 768

Druid按时间分区以后，将索引信息存储在segment文件里面。在基础的配置安装里，每个segment对应一个时间区间（时间区间定义参考granularitySpec中的segmentGranularity参数：url链接）。为了在高负载的情况下提供良好的响应性能，强烈推荐segment的大小限制在推荐值区间（300mb-700mb），如果你的segment文件大小超过这个区间，可以考虑改变时...

2019-03-15 09:36:59 1745

翻译 Druid.IO系列简介之五：外部依赖组件

Deep stroageDruid只是将Deep storage作为数据备份存储以及后台Druid进程间数据传输的途径。在处理请求时，Historical 进程并不直接访问Deep storage，而是只访问已经预先从deep storage加载到本地磁盘的segment。也就是说，为了提高查询的性能，Druid从来都不会在处理查询请求期间从Deep storage访问数据，这也意味着你的Hi...

2019-03-09 07:18:42 413

原创 Pandas与数据处理之DataFrame：创建、查看与访问

DataFrame是一个表格型的数据结构，每一列代表一个变量，每一行则是一条记录，DataFrame是一个共享index的Series的集合。创建和加载import pandas as pdimport numpy as np创建函数：df = pd.DataFrame(np.random.randn(6, 4), index = pd.to_datetime(['2016-01-...

2019-03-08 09:32:58 2347

翻译 Druid.IO系列简介之四：查询处理流程

Broker负责接收查询请求，请求处理过程如下：Broker首先会检查哪些segment拥有可以用于处理该查询的数据，这时候会通过查询时间以及datasource的其他partition信息来裁剪掉没有用的segment； Broker会检查哪些Historical和MiddleManager进程拥有这些segment，并将子查询请求发送个这些相应的进程； Historical/Middl...

2019-03-08 04:45:21 604

翻译 Druid.IO简介系列之三：Datasource和segments

Druid的数据被保存在datasource里面， DataSource类似于关系型数据库中的table。所有的DataSource是按照时间来分片的，必要时也可以额外加上其他字段来分片。每个时间区间范围被称为一个chunk（比如当你的DataSource是按天来分片的，一天就是一个chunk）。在chunk内部，数据被进一步分片成一个或多个segment。所有的segment是一个单独的文件，通...

2019-03-07 09:39:54 805

原创 Pandas与数据处理之Series

Pandas是python的第三方库，Pandas是建立在Numpy的基础上，其最大特色在于提供灵活的数据结构来处理关联数据和有标签的数据。Pandas提供了两大类型的数据结构：一维结构Series类型数据和二维结构的DataFrame数据。这两大数据结构都有数据标签这一独特性。数据标签能够将不同的数据按照相同的数据标签进行汇总。Pandas广泛应用于金融，统计以及社会科学领域的数据处理。本文...

2019-03-06 23:29:57 783

翻译 Druid.IO简介系列之二：Druid系统架构

Druid采用多进程，分布式的架构；其架构易于运维及部署，便于部署在云环境中。每个Druid进程都可以被独立地配置和横向扩展，这种设计一方面赋予了Druid集群最大的灵活性和可扩展性，另一方面以提供了更高的容错性：避免了个别组件的失效影响了系统的其他模块。Druid进程类型包括：Historical进程：Historical进程用于处理历史数据的存储和查询（历史数据包括所以已经被commi...

2019-03-06 09:39:53 530

原创 Numpy库与多维数组

Python中Numpy库的核心是高维数组，Numpy中的ndarray对象支持多维数组。数组类型的对象本身具有大小固定，数组内元素数据类型相同等特性。Numpy也提供了大量数值运算函数，能够直接有效的进行向量，矩阵运算。创建数组核心函数：numpy.array([n1, n2, n3])：创建一维数组；numpy.array([[n1, n2],[n3, n4]])：创建二维或多...

2019-03-05 09:09:38 430

翻译 Druid.IO简介系列之一：Druid核心功能及其应用场景

本文翻译自：http://druid.io/docs/latest/design/Druid是可以在大数据集上面进行交叉分析的高性能OLAP系统。Druid通常作为强大的分析交互系统的后端存储组件，或者为高并发API提供快速的聚合的能力。druid的典型应用场景如下：点击流分析（Clickstream analytics）网络流分析（Network flow analytics）存储服务...

2019-03-04 23:28:50 1365

原创如何判断MySql是否可用

在一主一从或一主多从的mysql架构中，当主库不可用时，需要及时切换到从库，那么，如何判断主库是否可用？通过select 1来判断方案在sql中执行"select 1"，如果失败，则认为sql服务不可用。优点简单，速度快缺点只能检测sql服务器进程是否存在，并不能真正识别服务的可用性。比如，当innodb_thread_concurrency设置过小时（比如=1），大部分查询可能因...

2019-03-02 16:13:15 2579

原创 MySQL读写分离之主从一致性

MySQL一主多从时如何保证从库读到的数据是最新的？等主库位点方案主库事务更新后，马上执行show master status得到当前主库执行的File和position；选定一个从库执行查询操作；在从库上执行 select master_pos_wait(File, position, 1);其中1是timeout1s；该命令返回的是一个正整数，超时返回-1，错误返回NULL。...

2019-03-02 13:04:40 2000

greensea669的博客