立喆-CSDN博客

原创 hadoop2.0集群版本在线升级方法

HDFS Rolling Upgrade介绍HDFS 滚动升级允许单个的hdfs节点（守护进程）进行升级。例如，datanodes 节点可以单独升级不影响namenodes。反之亦然。升级在hadoop2.0版本，hdfs 支持 name services的ha功能，并且是强一致性的。这两个特性可以让我们有机会实现升级hdfs集群而不需要关闭hdfs服务。只有做了HA的集群才可以滚动升级。如果在

2016-05-13 15:37:34 3134 1

原创如何在不影响hadoop集群正常运行的情况下迁移主控节点[namenode]

目前大部分使用的hadoop集群都是2.x版本的了，这个版本比 hadoop 1.0 添加了namenode 的HA ，解决了namenode单点的问题。但是还是会有紧急情况发生【比如两个互为主备的namenode 节点中的某一个节点硬件损坏了】本文描述的过程就是如何把一个datanode节点变成namenode节点在不关掉集群的情况下。【eplacing a name node in an e

2015-12-18 10:21:40 1924

原创如何打jar包（并添加依赖jar包）技术详解

[TOC] 在打jar的时候经常会遇见怎么处理依赖的jar的问题，用maven的话会很方便的处理这样的问题以下我介绍三种打jar依赖的方式 1. 用assembly plugin 可以把所有的依赖打成一个jar 一个可运行的jar org.apache.maven.plugins maven-compiler-plu

2015-12-17 22:09:01 3450 2

原创 Failed to connect to Sentry service Config key

INFO : Concurrency mode is disabled, not creating a lock managerINFO : Executing command(queryId=hadoop_20180713115353_a988c429-17a0-4b95-abce-458a9ffcc004): drop table if exists tmp.fbi_loan_deta...

2018-07-17 11:53:24 991

转载 Sentry Beeline

环境Ubuntu STL 16.0.4Hadoop 2.7.4Hive 2.1.1sentry 1.7.0maven 3.5.0//注：伪分布式环境1234567安装maven1.apache maven官网下载maven，用于编译sentry源码。 2.修改～／.bashrc文件，添加maven路径。export MAVEN_HOME=/etc/usr/local/maven...

2018-07-13 15:11:14 724

IntroductionGoogle Chubby的作者Mike Burrows说过这个世界上只有一种一致性算法，那就是Paxos，其它的算法都是残次品。PAXOS可以用来解决分布式环境下，选举（或设置）某一个值的问题（比如更新数据库中某个user的age是多少）。分布式系统中有多个节点就会存在节点间通信的问题，存在着两种节点通讯模型：共享内存（Shared memory）、消息传递（Messag...

2018-05-07 13:50:24 1955

转载 Presto 原理

Presto查询引擎是一个Master-Slave的架构，由一个Coordinator节点，一个Discovery Server节点，多个Worker节点组成，Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句，生成执行计划，分发执行任务给Worker节点执行。Worker节点负责实际执行查询任务。Worker节点启动后向Discove...

2018-05-02 16:22:17 1352

转载不错的linux下通用的java程序启动脚本（转载）

不错的linux下通用的java程序启动脚本（转载）虽然写起动shell的频率非常不高。。。但是每次要写都要对付一大堆的jar文件路径，新加jar包也必须要修改起动shell。在网上找到一个挺好的通用shell脚本。只需要修改一些配置变量，就可以用来做起动脚本了。并且除了能起动、还支持关闭、重启、查看是否正在运行的功能。原文地址：http://www.tudaxia.com/archives/10...

2018-03-23 15:27:23 236

原创 presto 的web ui

1、AirPal（推荐）AirPal是AirBnb开源的查询Presto的WebUI。项目特性：可选的用户访问控制SQL语法高亮查询结果导出到CSV文件，或者存到Hive表中可查看SQL查询的历史记录可保存查询根据表名搜索对应的表可查看表结构，并预览前1000行数据项目地址 https://github.com/airbnb/airpal2、ShibShib是Treasure Data员工TAG...

2018-03-14 17:02:18 4917

转载 Presto查询优化

Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询，总结了一些优化措施。一、数据存储合理设置分区与Hive类似，Presto会根据元信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能。使用列式存储 Presto对ORC文件读取做了特定优化，因此在Hive中创...

2018-03-14 16:32:57 1022

转载特征工程

应用机器学习像是把你当一个伟大的工程师，而非伟大的机器学习专家。 ---google 当在做数据挖掘和数据分析时，数据是所有问题的基础，并且会影响整个工程的流程。相比一些复杂的算法，如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。一、什么是特征工程简单的说，特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢？因为好的特征工程很好的混合了专业...

2018-03-12 11:32:32 285

转载人工智能学习该读哪些书

人工智能相关岗位中，涉及到的内容包含：算法、深度学习、机器学习、自然语言处理、数据结构、Tensorflow、Python 、数据挖掘、搜索开发、神经网络、视觉度量、图像识别、语音识别、推荐系统、系统算法、图像算法、数据分析、概率编程、计算机数学、数据仓库、建模等关键词，基本涵盖了现阶段人工智能细分领域的人才结构。将上面的岗位涉及到的知识和技术划类，就形成了今天的五份书单：1人工智能科普类：人工智...

2018-03-12 10:54:27 1525

转载爬虫架构

前言：在爬虫的开发过程中，有些业务场景需要同时抓取几百个甚至上千个网站，此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点：代码复用，功能模块化。如果针对每个网站都写一个完整的爬虫，那其中必定包含了许多重复的工作，不仅开发效率不高，而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架，这最直观的需求就是方便扩展，新增一个待爬的目标网站，我只需要写少量必要的内容（

2018-01-15 16:25:18 1282

转载 HDFS NameNode内存预估

前言《HDFS NameNode内存全景》中，我们从NameNode内部数据结构的视角，对它的内存全景及几个关键数据结构进行了简单解读，并结合实际场景介绍了NameNode可能遇到的问题，还有业界进行横向扩展方面的多种可借鉴解决方案。事实上，对NameNode实施横向扩展前，会面临常驻内存随数据规模持续增长的情况，为此需要经历不断调整NameNode内存的堆空间大小的过程，期间会遇到几

2018-01-09 16:37:02 643

原创彻底删除Kafka中的topic

1、删除kafka存储目录（server.properties文件log.dirs配置，默认为"/tmp/kafka-logs"）相关topic目录2、Kafka 删除topic的命令是： ./bin/kafka-topics --delete --zookeeper 【zookeeper server】 --topic 【topic name】如

2017-12-25 16:30:30 233

转载 kafka broker 配置说明

The essential configurations are the following:基本配置如下:broker.idlog.dirszookeeper.connectTopic-level configurations and defaults are discussed in more detail below.下文将详细论述了主题级别配置和默认值。

2017-12-25 16:18:01 827

转载 Spark SQL 之 Join 实现

Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spark中是如何组织运行的。SparkSQL总体流程介绍在阐述Join实现之前，我们首先简单介绍SparkSQL的总体流程，一般地，我们有两种方式使用Spar

2017-12-08 16:22:36 383

转载 Spark Streaming 流计算优化记录(6)-GC优化与shuffle service

11.Spark应用的GC调优说到GC, 可能很多人都倾向于使用新潮的G1垃圾收集器, 特别是intel的那几个兄弟在databrick发表了篇用G1调优Spark应用的博文后, 就更多人热衷于尝试G1了.但其实我们再去年就对G1和老牌的CMS+NewPar进行过对比测试, 发现G1根本没有比CMS好, 有时候还会导致更多的FullGC, 而实际上连Oracle官方都觉得G1还没有pr

2017-12-01 11:48:02 500 1

转载 Spark Streaming 流计算优化记录(5)-分区与内存的优化

8.不一定非得每秒处理一次由于Spark Streaming的原理是micro batch, 因此当batch积累到一定数量时再发放到集群中计算, 这样的数据吞吐量会更大些. 这需要在StreamingContext中设置Duration参数. 我们试着把Duration调成两秒, 这样Spark就会在接收Kafka的模块中积累了2秒的数据后, 在调度作业到集群中计算.结合上述做过的优

2017-12-01 11:47:23 1462

转载 Spark Streaming 流计算优化记录(4)-时间都去哪儿了,关于调度与空转

6.时间都去where了,青春不能等,调度也是除了上述优化, 我们还注意到一个奇怪的现象: 怎么回事, 即使接收不到消息都要花掉5秒?!! 虽然Spark Streaming空转依然会产生空task, 这些空task依然会消耗序列化, 压缩, 调度等时间, 但也不至于那么多吧!!!我们拿一个Stage看看, 就拿处理Kafka消息的那个Stage作例子吧: Kafka没

2017-12-01 11:46:58 445

转载 Spark Streaming 流计算优化记录(3)-控制流量与join的地点

4.流量控制好像之前说过”一下子从Kafka拉取几十万条消息进行处理”的事情, 其实酱紫是不对滴, 饭要一口一口吃, 一下子吃太多, 会导致还没吃成胖子就已经被撑死的. 所以我们要对为了做压力测试而早已在Kafka中囤积多时的几十万条消息分批次进行处理, 毕竟实际跑起的时候每秒拥入我们知道, Spark Streaming进行流处理的原理是micro batch, 即把每秒或每几秒

2017-12-01 11:40:33 1274

转载 Spark Streaming 流计算优化记录(2)-不同时间片数据流的Join

1. 不同时间片数据流的Join 初体验之后, 看了一下Spark WebUi 的日志, 发现由于Spark Streaming需要每秒跑一次, 以实时计算数据, 所以程序不得不每秒都读一次HDFS去获取数据进行inner join. 本来SparkStreaming会对其进行处理的数据进行缓存, 以减少IO和提高计算速度的, 但由于现在我们的场景是

2017-12-01 11:38:20 550

转载 Spark Streaming 流计算优化记录(1)-背景介绍

1.背景概述业务上有一定的需求, 希望能实时地对从中间件进来的数据已经已有的维度表进行inner join, 以便后续的统计. 维表十分巨大, 有近3千万记录,约3G数据, 而集群的资源也较紧张, 因此希望尽可能压榨Spark Streaming的性能和吞吐量.技术架构大致上如下述: 数据从Kafka流入, SparkStreaming 会从HDFS中拿到维度表的数据, 与流入的消

2017-12-01 11:35:12 368

转载 yarn使用cgroup隔离cpu资源

yarn默认只管理内存资源,虽然也可以申请cpu资源,但是在没有cpu资源隔离的情况下效果并不是太好.在集群规模大,任务多时资源竞争的问题尤为严重.还好yarn提供的LinuxContainerExecutor可以通过cgroup来隔离cpu资源cgroupcgroup是系统提供的资源隔离功能,可以隔离系统的多种类型的资源,yarn只用来隔离cpu资源安装cgroup默认系统已

2017-09-05 11:20:11 3954

转载 Compile and build specific Hadoop source code branch using Azure VM

Sometimes you may want to test a Hadoop feature that is available in a specific branch that is not available as a binary release. For example, in my case, I want to try accessing Azure Data Lake Store

2017-07-27 23:35:44 504

原创 Compile Hadoop in Docker container

https://github.com/kiwenlau/compile-hadooFROM ubuntu:14.04 MAINTAINER kiwenlau # install dependencies for compiling hadoop RU

2017-07-27 23:32:25 228

转载国内连接maven官方的仓库

国内连接maven官方的仓库更新依赖库，网速一般很慢，收集一些国内快速的maven仓库镜像以备用。最新更新：2016年11月11日 18:05:40 阿里云提供Maven私服，我把配置文件贴一下，自己放在maven的conf下就行，setting.xmlhttps://github.com/ae6623/Zebra/blob/master/maven-repo-settings-a

2017-07-27 14:41:53 3169 1

转载 cenos 7 mac U 盘

Centos7 下载地址：http://101.110.118.47/isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1611.iso1. 挂载U盘第一步，先插入U盘，打开终端使用下面的命令查看U盘是否已经mount到系统，这时在Finder下也能看到U盘。$ diskutil list11

2017-07-24 14:58:41 194

转载 spark shuffle mapreduce shuffle

Background在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的逻辑，本文就深入研究Spark的shuffle是如何实现的，有什么优缺点，与Hadoop Ma

2017-07-11 12:00:23 273

转载数据工程的崛起

2011的时候年我以商业智能工程师的身份加入脸书（Facebook），但在13年离开时我的职位却是数据工程师。这期间我并没有升职也没有被调到一个新职位上，我只是意识到我们的工作已经超越了传统商业智能的范畴，并且我们为自己创造的这个角色属于一个全新的领域。由于我的团队处在这种转变的最前沿，我们正在培养新的技能、新的做事风格、开发新工具，并基本放弃了旧有的方法。我们是这个领域的开拓者。我们是数

2017-07-07 11:33:02 297

转载我所经历的大数据平台发展史（三）：互联网时代 • 上篇

本文是松子（李博源）的大数据平台发展史系列文章的第二篇（共四篇），本系列以独特的视角，比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆，对非互联网、互联网，从数据平台的用户角度、数据架构演进、模型等进行了阐述。前言，本篇幅将进入大家熟知的互联网时代，数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆，在这一篇章中将引用部分互联网数据

2017-07-07 11:30:49 661

转载我所经历的大数据平台发展史（二）：非互联网时代 • 下篇

本文是松子（李博源）的大数据平台发展史系列文章的第二篇（共四篇），本系列以独特的视角，比较了非互联网和互联网两个时代以及传统与非传统两个行业。是对数据平台发展的一个回忆，对非互联网、互联网，从数据平台的用户角度、数据架构演进、模型等进行了阐述。前言，”数据模型“ 这个词只要是跟数据沾边就会出现的一个词，在数据库设计、数据仓库、数据挖掘上、业务里都存在，聚焦一下，这里提到的是数据平台中的”数

2017-07-07 11:29:42 342

转载 Linux 的 IO 隔离

跟内存管理那部分复杂度类似， IO 的资源隔离要讲清楚也是比较麻烦的。这部分内容都是这样，配置起来简单，但是要理解清楚确没那么简单。这次是跟 Linux 内核的 IO 实现有关系。对于 IO 的速度限制，实现思路跟 CPU 和内存都不一样。 CPU 是针对进程占用时间的比例限制，内存是空间限制，而当我们讨论 IO 资源隔离的时候，实际上有两个资源需要考虑，一个是空间，另一个是速度。对于空间来说，这

2017-07-04 13:35:32 1791

转载 ETCD是什么

1. ETCD是什么ETCD是用于共享配置和服务发现的分布式，一致性的KV存储系统。该项目目前最新稳定版本为2.3.0. 具体信息请参考[项目首页]和[Github]。ETCD是CoreOS公司发起的一个开源项目，授权协议为Apache。提供配置共享和服务发现的系统比较多，其中最为大家熟知的是[Zookeeper]（后文简称ZK），而ETCD可以算得上是后起之秀了。在项目实

2017-07-03 17:03:55 2492

转载数据中心的Yarn on Docker集群方案

数据中心中的应用一般独立部署，为了保证环境隔离与方便管理，保证应用最大资源数据中心中普遍存在如下问题：主机资源利用率低部署和扩展复杂资源隔离无法动态调整无法快速响应业务方案选型Yarn on Docker有哪些特点？彻底隔离队列为了合理利用Hadoop yarn的资源，队列间会互相抢占计算资源，造成重要任务阻塞根据部门申请的机器数

2017-07-03 16:37:06 634

转载 Kubernetes

Kubernetes是一个开源平台，用于跨主机群集自动部署，扩展和操作应用程序容器，提供以容器为中心的基础架构。使用Kubernetes，您可以快速高效地响应客户需求：快速，可预测地部署应用程序。在运行中扩展应用程序。无缝推出新功能。仅使用您需要的资源来优化硬件的使用。我们的目标是建立一个组件和工具的生态系统，以减轻在公共云和私有云中运行应用程序的负担。Kubern

2017-07-03 16:14:56 350

转载 Lambda vs Kappa

Lambda 架构 Lambda 架构由Storm的作者Nathan Marz提出，其设计目的在于提供一个能满足大数据系统关键特性的架构，包括高容错、低延迟、可扩展等。其整合离线计算与实时计算，融合不可变性、读写分离和复杂性隔离等原则，可集成Hadoop, Kafka, Spark，Storm等各类大数据组件。 Lambda 架构可分解为三层Layer，即Batch Lay

2017-07-02 12:02:08 460

转载 hadoop(三):hdfs 机架感知

client 向 Active NN 发送写请求时，NN为这些数据分配DN地址，HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非优化的副本放置策略是，把副本分别放在不同机架，甚至不同IDC，这样可以防止整个机架、甚至整个IDC崩溃带来的错误，但是这样文件写必须在多个机架之间、甚至IDC之间传输，增加了副本写的代价，是否有较优的方案来解决这个问题呢？目录：

2017-06-29 15:45:44 576

转载 hadoop(二):hdfs HA原理

早期的hadoop版本，NN是HDFS集群的单点故障点，每一个集群只有一个NN,如果这个机器或进程不可用，整个集群就无法使用。为了解决这个问题，出现了一堆针对HDFS HA的解决方案（如：Linux HA, VMware FT, shared NAS+NFS, BookKeeper, QJM/Quorum Journal Manager, BackupNode等）; 在HA具体实现方法不同的情况下

2017-06-29 15:43:46 442

转载 hadoop(一):深度剖析hdfs原理

在配置hbase集群将 hdfs 挂接到其它镜像盘时，有不少困惑的地方，结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable，其中GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生，Bigtable催生了NoSQL这个崭新的数据库领域，由于map-Reduce处理框架高延时的缺陷

2017-06-29 15:42:18 602

maven+jenkins

空空如也