自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(90)
  • 资源 (1)
  • 收藏
  • 关注

原创 闭关一年的干货与朋友们分享 先预告一下

闭关一年,即将出关,到时与朋友分享 先预告一下一、Pivotal HDB实战二、BI展示工具Metabase与Superset对比三、Elasticsearch在高速公路收费稽查中的应用四、Grafana在高速公路收费稽查中的应用五、OD分析的地图展示六、NoFS图片系统在高速行业中的应用前景分析

2017-08-16 20:55:24 2301 5

转载 彪悍开源的分析数据库-ClickHouse

Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大事。更让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件,例如Vertica。如果你没有听过Vertica,那你一定听过 Michael Stonebraker,2014年图灵奖的获得者,PostgreSQL和Ingres发明者(Sybase和SQL Server都是继承 Ingres而来的), Paradigm4和SciDB的创办者。Michael Stonebr

2016-09-28 09:25:34 29761 4

原创 论big data 3.0取代SAP HANA的可行性

论big data 3.0取代SAP HANA的可行性 简言之,big data 3.0就是要实现SQL on big data,而且要兼顾性能、易用性和可扩展性。目前是“搜索引擎+大数据+SQL“这样一个融合为一体的趋势。本人参加过HANA培训,了解过SAP HANA实施项目,目睹了企业所经历的一个个坑,也很不认同SAP惟利是图的商业模式。但HANA的确是个好东西,就易用性来说就需要开源的大数据好好学习。HANA虽好,但太贵,开放性不好,扩展性是个大问题,不适合处理大数据;开源大数据,覆盖了80%HA

2016-06-14 14:05:47 1627

原创 基于Calcite Elasticsearch实现的SQL ON ES方案设想

Elasticsearch是搜索的王者,其强大的DSL不让SQL,但缺少SQL的关键特性,如Join。ES的策略是紧紧拥抱Hadoop/Hive,Spark,有个ES-hadoop方案。Hadoop本身就很笨重,这和轻快的ES是背道而驰的。ES的主要方向目前还在搜索上,SQL也不是它的主要关注点。所以,可预见的一段时间内,SQL on ES只能通过开发或集成第三方软件来完成,如通过Presto或Drill的插件来实现。我们已经测试了Presto Elasticsearch Connector。我们认为,基于

2016-04-13 10:48:35 10480 5

转载 ElasticSearch 2 - 深入搜索系列

对ElasticSearch 2的详细中文介绍,想深入研究ES的值得收藏。感谢作者:Richaaaard转自:http://www.cnblogs.com/richaaaard/default.html?page=1

2016-03-06 11:32:10 1128

原创 Bigdata 3.0:Presto+Elasticsearch研发进展

Bigdata 3.0:Presto+Elasticsearch研发进展

2016-03-06 11:20:27 3913 3

转载 Spark的下一代引擎-Project Tungsten启示录:兼Presto、impala、spark性能根本比较

在过去的一年之中,我们一直在利用Spark做实时交互式分析系统方面的尝试,有兴趣的同学可以看一下我们之前分享的博客《基于Spark的用户分析系统》。我们在不断受到Spark启发的同时,也不得不忍受尚处于青春期的Spark性格中的叛逆。特别是在不断优化系统性能过程中,发现我们实际上是在做与Project Tungsten同样的工作。不知道是该庆幸选对了方向,还是该忧伤重复发明了轮子。尤其是在对比了Project Tungsten与我们自己的实现,心中五味杂陈。不过也正是由于重复发明轮子的过程,也让我们对Pro

2016-02-25 13:23:45 5983

原创 融合了大数据、搜索引擎及SQL的敏捷大数据方案bigdata 3.0:Presto+Elasticsearch

在bigdata 1.0时代,以hadoop为代表的大数据技术在企业数据仓库架构中起到的只是配角作用,只是完成数据批处理,处理好的数据还是放入传统的RDBMS中,由BI完成展示。这称为混合架构。对即时的数据流,提供了kafka+Storm的解决方案。既无法实现BI和bigdata的无缝对接,也无法进行流数据和大数据关联分析。这应该是一种不得已而为之的方案。 当很多用户刚开始对bigdata 1.0有所了解的时候,bigdata 2.0已经迅速到来。bigdata 2.0主要就是实现了SQL on bi

2016-02-11 21:08:58 10770 1

原创 2015年大数据年终工作总结

2015年大数据年终工作总结 今天是2016年第7天,现在来回顾下过去的2015年在大数据研发上的点点滴滴,总结如下三个方面:一、大数据研发技术路线 2015年大数据技术依旧是乱花渐欲迷人眼。笨重的hadoop依旧是主力,以性能著称的Elasticsearch依旧没顾得上SQL,以SQL on Bigdata标榜自己的Presto JDBC驱动缺陷依旧,号称融合了bidata+Elasticsearch+DB的Crate依旧不成熟。我们Presto+Elasticsearch方案

2016-01-07 14:03:53 6156

原创 中小企业的大数据技术路线选择(二)-Cassandra+Presto方案

我前面曾经写过:中小企业的大数据技术路线选择 和 低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI 。前面用两个月的时间验证了Presto JDBC驱动、Prestogres和SHIB三种方案。Prestogres,可以使用PostgreSQL 客户端和JDBC驱动,支持SpagoBI等BI工具。但这种方式架构复杂,可能有性能瓶颈,无法发挥该方案的优势。SHIB现在代码量较小,在Team中有报表开发经验的成员即可上手。如果时间和人力允许,开发一个轻量级的Bi

2015-03-16 14:21:49 3777 2

转载 盘点SQL on Hadoop中用到的主要技术

盘点SQL on Hadoop中用到的主要技术发表于1小时前|165次阅读| 来源github|0 条评论| 作者肥男爱肉转载自:http://www.csdn.net/article/2015-01-06/2823450HadoopSQL大数据架构摘要:自打Hive出现之后,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文不是要去

2015-01-07 12:46:59 3734

转载 Presto实现原理和美团的使用实践

Presto实现原理和美团的使用实践     转载自:http://tech.meituan.com/presto.html木叶丸 本文已发表在《程序员》2014.6月刊2014-06-16 10:45Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师

2015-01-05 14:09:32 1728

原创 一次惊心动魄的Percona XTRADB Cluster数据修复过程【MySQL】

一次惊心动魄的Percona XTRA Cluster DB数据修复过程 看后,让你不再担心MySQL难以修复。当然,最好提前做好MySQL HA方案。

2014-12-31 16:24:42 3881

原创 2014年大数据年终工作总结

今天是圣诞节,2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴,总结如下三个方面:一、大数据研发技术路线 目前,存在太多的大数据技术,商业软件,如Teradata、Oracle、SAP、IBM等。开源的,如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域,Hadoop呈一支独大势。经过这段时间的学习和了解,发现Hadoop技术复杂,架构复杂,社区版成熟度可能也就80%左右。要想把Hadoop玩转起来,可能需要投入巨大的成本来完善。Cloudera的CDH也仅

2014-12-25 10:20:35 7686

翻译 Spark发布1.2.0 - 支持Netty NIO / SQL增强

Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。

2014-12-20 13:57:36 2655

转载 星环科技CTO孙元浩:统一、廉价、实时、融合,2015大数据趋势

星环科技CTO孙元浩:统一、廉价、实时、融合,2015大数据趋势摘要:星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间,他分享了Spark的一个数据:全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本。【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,

2014-12-15 12:56:28 1993

翻译 重大新闻:Hadoop 2.6.0发布 - 支持硬盘、SSD、内存分层存储

发布Apache Hadoop 2.6.0——异构存储,长时间运行的服务与滚动升级支持我很高兴地宣布,在Apache的Hadoop社区已经发布的Apache Hadoop的2.6.0:http://markmail.org/message/gv75qf3orlimn6kt!特别是,我们很高兴在此版本中相关的三个主要片:异构存储在HDFS使用SSD和内存层,支持长时间运行在YAR

2014-12-15 11:45:06 4545

翻译 Facebook Bigdata - Presto 0.82 版本说明

Facebook Bigdata - Presto 0.82 版本说明

2014-11-10 13:33:50 1027

翻译 Facebook Bigdata - Presto 0.81 版本说明

Facebook Bigdata - Presto 0.81 版本说明 http://prestodb.io/docs/current/release/release-0.81.html

2014-11-10 13:21:45 1073

原创 基于PostgreSQL的可扩展的开源大数据集群数据库:Postgres-XL

Postgres的-XL是一个基于PostgreSQL数据库的横向扩展开源SQL数据库集群,具有足够的灵活性来处理不同的数据库工作负载: OLTP 写频繁的业务 需要MPP并行性商业智能 操作数据存储 Key-value 存储 GIS的地理空间 混合业务工作环境 多租户服务提供商托管环境

2014-11-07 13:56:38 10534 1

原创 Facebook Bigdata - Presto 0.80 版本说明

Facebook Bigdata - Presto升级到0.80。本次升级主要是支持Hive ORC读取器,提供了Cassandra 2.1.0驱动支持,还提供了对大数据查询的试验性支持。

2014-11-05 14:16:59 1769

原创 中小企业的大数据技术路线选择

目前,大数据主要应用在互联网、电商领域,电信、电力行业也在逐步使用。对广大的中小企业来说,大数据也听得太多了。然而,大数据的技术门槛还是很高的。从技术路线上来说,选择大公司使用的技术方案可能是不能承受之重。 笔者所在的公司,选择的是行业通用的Hadoop方案。历经一年之久,前后三拨人员,一个Demo版还没出来。大数据真的让人望眼欲穿啊。 对中小企业而言,要选择适合自己的大数据技术路线。跟着大公司,人云亦云,还真玩不起。那么,有没有适合中小企业的大数据方案呢?笔者用心收集了几个

2014-11-04 10:14:45 4720 2

翻译 Trafodion:Transactional SQL on HBase

HBase的SQL能力一直不足。Phoenix缺乏Join能力,eBay提出的kylin还不够简洁,facebook Presto的HBase连接器还没公开。那么,Trafodion来了。它在HBase上提供了标准SQL功能,并支持事务OLTP。Trafodion是HP的开源举措,培养在惠普实验室和HP-IT开发一个企业级的SQL上的HBase解决方案。惠普拥有超过20年的积累,针对大数据的事务或业务工作负载,已经开发事务的SQL技术进入数据库technologyand解决方案。 Trafodion给Had

2014-10-24 14:44:02 6924 1

原创 Ubuntu: GlusterFS+HBase安装教程

HBase通常安装在Hadoop HDFS上,但也可以安装在其他实现了Hadoop文件接口的分布式文件系统上,如KFS。glusterfs是一个集群文件系统可扩展到几peta-bytes。它集合了各种存储在infiniband rdma或互连成一个大型并行网络文件系统。存储可以由任何商品等硬件x86_64服务器和sata-ii和infiniband HBA。GlusterFS比Hadoop HDFS可以提供更高的性能,HBase也因此可以获得更高的性能。将HBase安装在GlusterFS上,是可行的。该方

2014-10-19 21:51:54 2202

原创 搭建独立大数据实验室的设想

南京第一家开放大数据实验室

2014-10-17 12:57:06 1776

原创 低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI

“Ad-hoc analysis over Cassandra data with Facebook Presto”一文,对Cassandra+Presto结合实现大数据即席分析进行了介绍。Presto是为满足交互式即席查询需求而优化的分布式SQL查询引擎。它支持标准ANSI SQL,包括复杂查询,聚合,连接和窗口函数。Cassandra以前缺少交互式即席查询功能,甚至在CQL中不支持聚合函数。因为这个原因,Cassandra在作为数据库使用时经常被混淆。分析Cassandra中的数据有下边两个框架:

2014-10-10 18:40:22 8562 1

原创 Mysql上的RAC:Percona XtraDB Cluster负载均衡集群安装部署手册

Keepalived LVS mysql集群 Percona xtradb cluster 负载均衡

2014-07-03 21:32:10 6366 5

原创 移动基于Percona XTRADB Cluster的大数据解决方案

最近因为“棱镜门”事件的曝光,引起了国家对信息安全问题的注意,各大行业也开展起来去“IOE”的行动。对移动而言, 一方面是对信息安全的担心,另一方面是对降低成本的考量,对开源体系架构的引入也成为一种现实的方案。 在互联网行业,MySQL的使用成为主流,但随着Oracle对Sun的收购,MySQL的控制权落入Oracle手中,对MySQL可能闭源的风险也成为业界的共识。 由此,产生了各种MySQL的分支。本文主要对其中的PerconaXtraDB进行了分析。

2014-05-16 16:38:04 10845 2

原创 percona XTRADB Cluster 5.6在ubuntu安装

Percona XTRADB Cluster 5.6在Ubuntu Server 14.04上的安装文档,参考了官方安装文档和国外网友的安装记录才安装成功。确保可以安装成功。

2014-05-09 20:46:50 2726

原创 perconaXTRADB Cluster在Redhat Linux上的安装

installing-percona XTRADB Cluster 5.6For Redhat 6.4一、 服务器版本查看Root# cat /etc/redhat-release Red Hat Enterprise Linux Server release 6.4 (Santiago)二、 新建目录:Root#mkdir -p /softwares三、 下载RPM包1、下载XTRADB Cluster包2、下载XTRABACKUP包四、 安装依赖包1、 安装包准备2、 安

2014-05-09 20:38:09 2974

转载 笨兔兔的故事——带你了解Ubuntu,了解Linux

【内容导航】第1页:开端第2页:醒来第3页:工作第4页:历史第5页:也是历史第6页:还是历史第7页:串门第8页:碎片第9页:邻居第10页:人才第11页:来头第12页:本事第13页:开源第14页:故事第15页:minix第16页:(16) linux第17页:F

2014-04-29 15:40:34 1289

原创 WebScaleSQL从源代码安装

WebScaleSQL开源了,看到这个消息,加上项目有实际更换数据库的需求,我立即安装测试了下。发现,在RedHat上按源码编译安装难度很大。后在google上看到ubuntu上git然后编译安装成功。步骤如下:要求的包生成WebScaleSQL几乎和MySQL相同,这是因为WebScaleSQL是建立在MySQL 5.6的基础上。在开始编译之前,需要一些包:

2014-04-03 17:24:17 2273 1

转载 BI路上请慎重

转自:http://www.ciotimes.com/bi/bzjgd/201008021612.htmlBI路上请慎重2010-08-02 15:47:19摘要: 很多用户看到BI应用成功的案例屈指可数,于是就对BI应用失去了信心。其实,一些误区的存在是导致BI项目失败或达不到预期效果的原因所在,也正因为这些误区我们对用户建设BI系统提出 关键词: 业务驱

2013-09-04 14:14:24 1153 1

转载 Cloud Edge:2013年国际“云先锋”系列报道

出处:http://www.csdn.net/article/2013-08-22/2816670-birstCloud Edge:2013年国际“云先锋”系列报道序号公司名称成立时间CEO/CTO风险投资公司产品/方向1.HStreaming2011年Jana Uhlig

2013-08-27 13:12:04 20485

转载 浅谈伪分布式数据库架构

转自:http://www.uml.org.cn/zjjs/201207312.asp作者:Eugene ,发布于2012-7-31 大家上午好!很多公司都在开发自己的分布式数据库架构,且不少公司都可能使用上了,也有很多人在讲分布式数据库架构,这些是真正意义上的分布式数据库吗?若要我加一个词的话, 我一般说伪分

2013-08-13 14:18:13 1779

翻译 实时数据分析平台、大数据分析、MPP数据仓库 - vertica (三)高级库内分析

Vertica的提供了一个强大和不断增长的先进的数据库内分析功能,客户可以进行数据紧密的分析计算,并可以从一个地方立即得到答案,而不需要把信息抽取到一个单独的环境。把数据保持在数据库中是特别关键的,因为数据集的大小从TB到PB级及以后的变化。        更重要的是,Vertica的原生解析函数和UDF还专门设计可以充分利用我们独特的MPP并行机制,列存储和执行,比其他任何平台上执行得更

2012-10-21 21:54:27 3479

翻译 实时数据分析平台、大数据分析、MPP数据仓库 - vertica (二)实时加载 & 查询

今天,世界各地的信息是连续产生的。因此,隔夜批量加载数据已经成为奢侈的过去。组织必须能够不停顿地加载到信息到他们的分析平台,同时允许进行数据丰富的分析。       信息的时间价值是非常重要的,在数据产生后,用户越早处理就越有价值。对于零售商来说,这可能意味着即时的促销和库存的摆放。对于金融公司,这会影响到及时的交易决策。对于网络游戏公司,这提供了更加个性化和引人入胜的游戏体验。这个最小延迟的

2012-10-12 20:16:26 5069

翻译 实时数据分析平台、大数据分析、MPP数据仓库 - vertica (一)分析平台

数据分析平台分析平台实时加载 & 查询高级库内分析数据设计 & 管理工具列式存储 & 执行强劲的数据压缩扩展的MPP架构自动的高可用性优化器, 执行引擎 & 负载管理内在的 BI, ETL, & Hadoop/MapReduce 集成    Vertica的分析平台为特定目的建造的,以使公司从他们的数据中提取价值,他们需要在今天的经济环境中茁壮成长的速度和规模。

2012-10-12 11:47:35 6124

转载 智能物流刻不容缓 动态数据仓库举足轻重

转自:http://www.csdn.net/article/2012-09-26/2810358智能物流刻不容缓 动态数据仓库举足轻重作者郭雪梅摘要:对于现代物流业而言,快启动信息化系统整合,释放多年积累的数据能量,构建商业智能新平台,为物流企业增长觅求新的动能已经刻不容缓。这其中,构建动态数据仓库,实现商业智能是举足轻重的一步。最近几年来,物流业突飞猛进式发展难掩信息化

2012-09-27 09:04:47 1615

转载 苏宁易购全面开放平台或遭技术瓶颈

转自:http://www.dbc-soft.com/html/DBCNEWS/1274.html苏宁易购全面开放平台或遭技术瓶颈【同心圆软件网讯】苏宁易购终于要向年终目标发起最后的冲刺了。据苏宁易购执行副总裁李斌透露,苏宁易购将于7月初全面启动开放平台战略,届时将在南京召开千人供应商大会,面向全国招商。这比之前苏宁易购执行总裁任峻对外宣称的针对供应商的开放平台上线时间晚了

2012-08-31 22:05:03 4958

CDH5.15.1离线安装文档

本文档是离线安装文档,经过实际项目验证。请放心使用。

2018-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除