滴滴出行实时计算系统架构及实践
滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。
滴滴大数据实时监控系统服务于滴滴各个业务线,对关键业务指标的变化进行实时监控。研发、产品、运营人员可以据此及时了解业务现状,发现系统问题、调整业务决策。
演讲主要包括以下话题:
1. 实时计算的挑战及解决方案:
(1)可扩展性
(2)有状态的实时计算
(3)数据被重复处理
(4)高可用
(5)实时数据流与外部系统或服务关联计算
2. OLAP系统架构选型:KV store与column store 哪种存储更适合OLAP应用?
3. 简要介绍Kafka的特性,阐述为何Kafka是实时计算系统中理想的数据存储方案
4. 详细介绍Druid的架构设计及原理,阐述Druid作为OLAP解决方案的优点
5. 详细介绍Samza的架构设计及原理,阐述如何通过Samza解决实时计算中的各种挑战
6. 介绍Lambda architecture,阐述如何将离线计算和实时计算统一起来,通过离线计算来修正实时计算
从TDW-Hive到TDW-Spark-SQL_ 腾讯TDW数据引擎演进之路
腾讯TDW平台的介绍与应用。
数据引擎由TDW-Hive切换到TDW-Spark-SQL的实践。
TDW-Spark-SQL的功能完善,高可用和稳定性加强,性能和成本优化经验分享。
Spark实时计算的开发平台RCS_ 阿里流式分析实战
Spark开发者会将自己的代码完成开发并提交到YARN集群,之后任务的监控、报警、性能优化等都依赖于开发者本身;为此我们为Spark开发者提供一套可以完成任务提交、数据接入、任务监控、任务报警、错误日志查看的一体化实时计算的开发平台real-time computing service。通过我们的平台可以:
自助本地提交任务;jar包版本维护在HDFS上
数据接入覆盖主流中间件:Kafka、MetaQ、TT和SLS
任务的监控、报警、日志处理
Spark任务容灾
Spark集群容灾
基于Apache Spark的金融欺诈检测
整体系统架构和软件栈,怎样利用和改进Spark来形成最终方案。
如何搭建快速强大的特征衍生,选择和转化流程(Pipeline)。我们会在细节方面展示真实数据所带来的挑战和我们开发的采样,填充,缩放和其他领域专用的特征转换模块。我们正在将其中的许多内容贡献给Spark社区。
深入分析我们使用的算法怎样解决数据的不平衡性及与其他算法的对比结果。
在实现过程中累积的其他开发经验
Apache HBase开发者教程
Apache HBase开发者教程 100多页PPT
2016 strata+Hadoop大会资料
MongoDB在58同城的应用实践
MongoDB在58同城的应用实践
Baidu基于Spark SQL构建即席查询平台
Baidu基于Spark SQL构建即席查询平台
Presto在优步:千万亿字节规模的交互式查询
Presto在优步:千万亿字节规模的交互式查询
基于Hadoop 平台的数据分析方案的设计
面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分
布式计算的应用成为必然的趋势。其中Hadoop 是应用较多的分布式存储和计算框架之一。
本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分
析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设
计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设计、有
效提高程序性能
基于Hadoop 的海量日志数据处理
在处理海量数据的时候,传统的单机方法面临着数据存储和计算的瓶颈。本文提出了
利用开源框架Hadoop 处理海量数据方法,以弥补传统方法在这方面的缺陷与不足.
51job数据库系统架构实践
最终方案3+1
主机层
三台主机,一台备机.
数据库层
两台Primary库,一个standby库,采用DG
优势
--结构简单可靠
--不存在单点
--DG可快速切换
基于SSH技术移动账务系统管控平台的设计
以移动账务运维管控平台的开发为例,通过需求分析,设计了账务运维管控平台的组
织结构,进行了架构设计,并基于SSH(Struts2+Spring+Hibernate)技术,将javaScript 与
Spring 中的依赖注入技术运用于平台设计中。
Android微博客户端的研究
本文介绍了微博与Android 系统平台的流行趋势,以及开发Android 微博客户端的必
要性,同时对Android 微博客户端开发中所涉及到的技术进行了介绍,提出了Android 微博
客户端的的设计结构
基于ZooKeeper的配置信息存储方案的设计与实现
本文提出了一种基于ZooKeeper 的配置信息存储方案。首先介绍了ZooKeeper
的架构和ZooKeeper 的相关概念,然后分析了当前配置信息存储方案的不足;最后重点介绍
基于ZooKeeper 的配置信息存储方案,包括架构和实现方案
基于MySQL数据库存储的Redis议实现
基于MySQL数据库存储的Redis议实现
基于MySQL实现云数据库服务与实现
在本文中,Daas 平台采用MySQL 数据库作为基础,即DaaS 向用户提供标准的MySQL 数据库
访问接口。在部署上,采用分享数据的方式实现数据隔离,采用单机多MySQL 实例的方法实
15 现数据库性能隔离,保证良好的用户体验和较高的安全性。在系统架构上,DaaS 系统采用
分层的结构,在MySQL 客户端和服务器之间引入了代理层
基于MongoDB实现云数据库服务的设计与实现
,如何存储访问并分析处理已经成为研究的热
点,而云数据库提出将数据库放入云中,利用云的高可用性、高可扩展性等优势提供数据库
服务,已经受到业界的普遍关注。本文将介绍如何使用NoSQL 数据库中的代表MongoDB 来实
现云数据库服务。
基于ESB的统一身份认证系统设计与实现
:异构的信息系统由于具有各自独立的身份认证和用户管理模块,存在着用户身份不一致、信息重复,应
用系统无法整合、安全性差等问题。为此提出了一种基于统一的数据交换标准和接口标准,将不同的用户管理模块
和认证模块进行集成的方法,设计了系统模型、交互流程和认证协议,实现了基于企业服务总线(ESB) 的统一身份认
证系统
基于HttpClient与HTMLParser 的网页正文提取
本文研究了
HttpClient、HTMLParser 等技术,提出并实现了一种基于HttpClient 与HTMLParser 的网
页抓取解析方法,该方法能够快速有效对HTML 页面进行抓取解析
Java动态代理在AOP中的应用
本文首先介绍了AOP 的基本思想,然后针对它在JAVA 语言
中的实现,具体介绍了JAVA 的动态代理来怎样实现一个简单的AOP 容器
一种基于Hadoop 的云计算平台搭建与性能
随着互联网技术的飞速发展和应用的推广,云计算正作为当前计算机技术的热点被越
来越多的企业和科研机构研究和使用。Hadoop 作为一个开源的分布式平台是当前最为流行
的云计算平台实现之一。Hadoop 平台的实现原理源自Google 提出的Map-Reduce 编程模型
和GFS 分布式存储系统,在海量的非结构化数据的处理方面有着其他平台难以匹敌的优势。
10 本文在介绍了如何使用Hadoop搭建云计算平台的同时介绍了如何对Hadoop的各个参数进行
性能调优,使云计算各方面性能最优化,大大提升云计算平台的计算效率和速
基于Hadoop的大规模数据交换的研究
随着“大数据”的持续增长和信息货币化越来越重要,越来越多的企业加入到构建数
据仓库和寻求数据分析解决方案的队伍中来。Hadoop 由于其出色的非结构话和半结构话数
据的分析能力,以及其廉价的大规模集群解决方案使其成为了大多数企业青睐的对象。然而
另一方面,关系数据库对于结构化数据的快速查询的能力却是Hadoop 没有的。因此,企业
的数据总是存储于关系型数据库中,以满足快速查询的需要。尽管同时使用Hadoop 和关系
10 数据库可以弥补彼此的不足。然而令人无奈的是,当使用一方作为数据源时,我们无法从另
一方自由地进行查询。终于在Hadoop 0.19 版本时,新增的DBInputFormat 组件可以轻松地
在Hadoop 与许多关系型数据库之间导入导出数据。与此同时,许多第三方的数据交换工具
如雨后春笋般出现在人们的视野中。本文将着重阐述几种数据交换工具间的差异和不足,进
而分析优化的方式,最后从性能上比较上述几种数据交换工具