自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 Spark解析十年的大数据工程师在美团的实践

美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎为MapR...

2018-09-27 19:24:09 651

转载 搭建spark遇到问题的解决

一.经验1.Spark Streaming包含三种计算模式:nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的log.dirs不要设置成/tmp下的目录,貌似tmp目录有文件...

2018-09-27 19:14:05 1715

转载 spark性能优化指南

如何定位导致数据倾斜的代码数据倾斜只会发生在shuffle过程中。这里给大家罗列一些常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时,可能就是你的代码中使用了这些算子中的某一个所导致的。某个task执行特别慢的情况首先要看的,就是数据倾...

2018-09-26 17:45:34 146

转载 spark性能优化指南

原则六:使用高性能的算子除了shuffle相关的算子有优化原则之外,其他的算子也都有着相应的优化原则。使用reduceByKey/aggregateByKey替代groupByKey详情见“原则五:使用map-side预聚合的shuffle操作”。使用mapPartitions替代普通mapmapPartitions类的算子,一次函数调用会处理一个partition所有的数据,而不是一次...

2018-09-26 15:48:05 124

转载 spark性能优化指南

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能...

2018-09-26 15:46:59 239

转载 0基础搭建Hadoop大数据处理-编程

Hadoop的编程可以是在Linux环境或Winows环境中,在此以Windows环境为示例,以Eclipse工具为主(也可以用IDEA)。网上也有很多开发的文章,在此也参考他们的内容只作简单的介绍和要点总结。Hadoop是一个强大的并行框架,它允许任务在其分布式集群上并行处理。但是编写、调试Hadoop程序都有很大难度。正因为如此,Hadoop的开发者开发出了Hadoop Eclipse插件,...

2018-09-25 21:23:02 153

转载 Hadoop原理与集群搭建笔记

一、理论部分知识1、HDFS :Hadoop DIstributed File System简写。易于扩展的分布式文件系统运行在大量普通廉价机器上(成本低) ,提供容错的机制(可靠性高)2、HDFS优点:高容错性适合大数据批处理(移动计算不移动数据、数据位置暴露给计算框架、存储量大、百万规模以上的文件数量、10k节点规模)流式文件访问(一次写入,多次读取,保证数据一致性)构建成本低...

2018-09-25 15:18:31 463

原创 一篇文章让你读懂SQL数据库和Hadoop

SQL(结构化查询语言)是针对结构化数据设计的,而Hadoop最初的许多应用针对的是文本这种非结构化数据。主要区别如下:用向外扩展代替向上扩展Hadoop集群就是增加更多的机器。一个Hadoop集群的标配是十至数百台计算机。而不是专注于提高单台服务器的性能用键/值对代替关系表SQL 针对结构化查询语句 是结构化数据,hadoop针对的是非结构化数据,文本形式关系数据...

2018-09-03 17:26:08 3260

转载 一篇文章让你读懂,分布式系统与Hadoop

HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞...

2018-09-03 17:04:35 635

原创 看看中国计算机学会理事浅谈ACID、BASE和CAP的关系

1.ACIDACID,是指在数据库管理系统(DBMS)中,事务(transaction)所具有的四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation,又称独立性)、持久性(Durability)。在数据库系统中,一个事务是指:由一系列数据库操作组成的一个完整的逻辑过程。例如银行转帐,从原账户扣除金额,以及向目标账户添加金额,这两个数据库操作的...

2018-09-03 16:21:35 323

原创 ETL的详细解释定义

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为DW的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大...

2018-09-03 15:44:03 2343

原创 从关系型数据库看NoSQL的四大特点

我们提到NoSQL数据库,总是会提到它的一个重要特性——性能好,但为什么呢?关系型数据库经过几十年的发展,各种 优化工作已经做得很深了,NoSQL系统一般都是吸收关系型数据库的技术,那么,到底是什么因素束缚了关系型数据库的 性能呢?NoSQL数据库到底有哪些优势?我们从系统设计的角度来了解一下NoSQL数据库的四大特点。索引支持关系型数据库创立之初没有想到今天的互联网应用对可扩展性提出...

2018-09-03 15:29:25 2071

转载 常用的NoSQL数据库

NoSQL数据库发展迅猛,据说现在已经有上百种NoSQL数据库了,下面来了解下常见的一些NoSQL数据库先来看张表,了解下典型的NoSQL数据库的分类临时性键值存储永久性键值存储面向文档的数据库面向列的数据库常用的NoSQL数据库 Memcached挥发性(临时性)的键值存储 一般作为关系型数据库的缓存来使用 具有非常快的处理速度 由于存在数据丢失的可能,所以一般用来处理不...

2018-09-01 17:13:57 553

原创 Spark与Hadoop MR兄弟两的不同

在大数据相关的面试中,经常会遇到了一个经典的问题:请说说Spark与Hadoop MR的异同?虽然你有可能过关了,但是由于现场发挥的原因,看了这篇文章你还可以答得更好,就在这里总结一下这个问题。首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷,但是二者也有不少的差异具体如下:1、spark把运算的中间数据存...

2018-09-01 09:55:09 595

转载 零基础小白入手hadoop学习路线和教程分享

这里写图片描述Hadoop技术本身并不是新技术,而是互联网时代成就了它,互联网产生了大量的数据,传统的服务器解决方案成本太高,Hadoop分布式处理技术可以解决这个问题,随着BAT等知名公司的成功案例,越来越多互联网公司也都开始使用。Hadoop是云计算的基础。而绝大部分的云计算中的分布式存储和计算都是使用hadoop的。云计算在国家十二五规划中也有重要章节讨论,云计算已经被提高到国家中长期发展战...

2018-08-31 17:32:43 465

原创 2018国内最常用的大数据业务监控项目方案流程解析

根据监控对象的不同,监控系统可以分为系统监控、应用监控和业务监控。“实时交易监控系统”属于业务监控,主要用于监控客户的购买行为及订单情况,一般用于支持公司的日常运营决策和重大营销活动,如“双11”、“双12”及“双旦”等,对数据的实时性要求较高。“实时交易监控系统”对数据的一般处理流程:实时捕获数据库中交易数据的变更、实时计算订单各维度的指标、再实时推送指标到浏览器大屏。通过采集、计算、展示三个阶...

2018-08-29 14:48:32 13818 1

原创 如何从普通程序员之中脱颖而出

现在的社会中想成为老板的人很多,做老板的人也很多,成功的老板却是很少?有很多人问了自己也问了别人怎么才能成为老板啊,怎么做好一个老板啊?做好一个老板简不简单?我的回答是简单1.学会控制情绪 现在存在一个普遍的现象,也是人性的表现 。现在员工作为一个老板你对他百般的好他不记得,但你骂他一次他刻苦铭心。作为一个老板你骂他有什么用呢,骂了他不干了你还得从新找个人干,比如一个几十万的项目没了,没...

2018-08-28 19:43:55 341

转载 从4.5K到40K,我的大数据开发生涯,都经历了什么。。。

不知不觉已经从事大数据开发四年了,从刚刚带着雄心壮志硬生生闯入社会的少年,到现在心态平稳,处事不惊的奔三大叔,四年时间教会了我很多很多。本篇 Chat 分享了我五年(含大四)中,从 6k 到 25k 的职业经历,供大家借鉴参考自己的职业规划,主要涉及到以下内容:是否选择学校合作的培训机构? 从前端转型到大数据,经历了哪些挫折和困难? 快速转型是否要选择培训机构? 初入公司要学会遵守哪...

2018-08-21 17:42:30 429

原创 大数据开发薪资水平到底怎样

大数据时代来临,如此火爆的职业,吸引了大批有志青年的加入,再加入之前,你对大数据都了解吗?他的行业前景如何?薪资水平如何?1. 大数据行业分析作为中国官方重点扶持的战略性新兴产业,大数据产业已逐步从概念走向落地“大数据”和“虚拟化”两大热门领域得到了广泛关注和重视,90%企业都在实用大数据。财政大数据包括:公安大数据、质检大数据、食品安全大数据、卫生大数据、共商大数据、民政大数据;...

2018-08-18 09:41:01 2767

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除