自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

onlyForCloud的专栏

导航页标签,分类知识专栏。

  • 博客(487)
  • 收藏
  • 关注

原创 ranger控制数据访问权限

ranger的特点就是,自己可以帮你去干你不能干的事情。比如你这个用户没有hdfs某个目录下某个文件的读权限,但是你在ranger里面配了可以访问这个文件,你访问时ranger就帮你拿回来给你 一,hbase权限 (OK)【前置】Ranger上配置了HBase的所有表都只能由hbase用户和ambari-qa用户来访问 【实际】1、我们使用hive用户执行h

2017-04-05 15:30:35 10989

转载 关于制作rpm包的patch的方法

原文链接 http://blkart.blog.51cto.com/1142352/1542533(1)准备工作:    安装rpm-build软件包(2)生成rpmbuild目录    以root用户登陆,执行命令:    # rpmbuild -ba abc.spec    命令会提示错误,不必关心    此时,再/root目录下会自动生成名为rpmbu

2016-12-20 16:45:42 1778

转载 在Hive中使用Avro

http://www.iteblog.com/archives/1007为了解析Avro格式的数据,我们可以在Hive建表的时候用下面语句:01hive> CREATE EXTERNAL TABLE tweets02    > COMMENT "A table backed by A

2015-12-04 15:10:50 2750

转载 用Hadoop AVRO进行大量小文件的处理

http://blog.csdn.net/zuochanxiaoheshang/article/details/9123273使用 使用使用 使用 HDFS 保存大量小文件的缺点:1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计,每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力

2015-12-04 14:40:47 1025

转载 RPC框架系列——Avro

http://blog.csdn.net/neutrojan/article/details/9816159RPC框架系列——AvroPosted on 2011/09/09by Jeoyginin 网络, 计算机技术浏览次数:5,0671.下载与安装  官方网站:http://avro.apache.org/  下载地址:http://labs

2015-12-04 14:18:50 601

转载 Apache Avro使用入门指南

http://www.iteblog.com/archives/1008 Avro有C, C++, C#, Java, PHP, Python, and Ruby等语言的实现,本文只简单介绍如何在Java中使用Avro进行数据的序列化(data serialization)。本文使用的是Avro 1.7.4,这是写这篇文章时最新版的Avro。读完本文,你将会学到如何使用Avro

2015-12-04 13:54:36 1646

转载 Linux NTP配置详解 (Network Time Protocol)

http://blog.csdn.net/iloli/article/details/6431757Network Time Protocol (NTP) 也是RHCE新增的考试要求. 学习的时候也顺便复习了一下如何设置Linux的时间,现在拿出来和大家分享设置NTP服务器不难但是NTP本身是一个很复杂的协议. 这里只是简要地介绍一下实践方法和上次一样,下面的实验都在RHE

2015-12-01 13:48:07 562

转载 一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

http://www.36dsj.com/archives/25042一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等 诺蓝 2015-03-12 9:40:22 大数据工具 评论(0)作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。接上一部分:一共81个

2015-11-27 15:38:50 9326

转载 一共81个,开源大数据处理工具汇总(上)

http://www.36dsj.com/archives/24852一共81个,开源大数据处理工具汇总(上) Optimus Prime 2015-03-11 12:01:28 大数据工具 评论(0)作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。本文一共分为上下两部分。我们将针对大

2015-11-27 15:37:36 1902

原创 eclipse编译调试tomcat7.0.65

一,编译下载JDK1.6 (本版本的tomcat只支持1.6。1.7及以后会报错)tomcat7.0.65源码安装  apache-tomcat-7.0.65-src/build.properties.default 重命名为 build.properties。修改build.properties的base.path=d:\tomca

2015-11-23 20:22:01 640 1

原创 cdh5.4.7 sqoop使用

sqoop导入hive1,为了连接mysql,    首先在10.0.4.24 (CDH001)上 sudo apt-get install libmysql-java    2,sqoop list-databases --connectjdbc:mysql://10.0.3.218:3306/ --username directory --password

2015-11-11 15:33:54 646

原创 hbase整合hive

用途HBase属于Nosql不能使用HQL来进行查询,整合hive后,便于操作。基本过程参考原文链接 HBaseIntegration与已存在的HBase的‘test’表建立整合关系:

2015-11-11 10:28:18 506

原创 cdh5.4.7 flume使用

一,如何使用flumeflume的原理和使用二,关于配置文件可以知道, cloudera-monitor.properties里配置agent_name来使用。flume.conf里面设置具体的agent信息。

2015-11-06 09:31:36 3046

原创 安装Windows下 CDH5开发环境

一,clouderahttp://archive-primary.cloudera.com/cdh5/二,下载源码包http://archive-primary.cloudera.com/cdh5/cdh/5/我在此页面下下载了hadoop-2.6.0-cdh5.4.7-src.tar.gz 与运行环境的版本匹配。三,

2015-11-04 20:32:00 2329

转载 跨语言通信方案的比较—Thrift、Protobuf和Avro

http://www.bubuko.com/infodetail-605556.html常用的跨语言通信方案:基于SOAP消息格式的WebService基于JSON消息格式的RESTful 服务以上两种方案的弊端:XML体积太大,解析性能极差JSON体积相对较小,解析相对较快,但表达能力较弱现在比较流行的跨语言通信方案:Google protob

2015-11-02 17:10:11 1230

转载 Kafka+Spark Streaming+Redis实时计算整合实践

x

2015-10-30 16:42:02 1348 1

转载 ZooKeeper典型应用场景一览

http://www.coder4.com/archives/3856这篇文章写的非常贴近实际,比官方好!ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的

2015-10-30 11:34:30 502

原创 hadoop生态系统组件目前的理解(先记录,有些地方理解不正确,后面修改)

一,yarnResourceManager、Nodemanager、App Master。ResourceManager拿到任务后,根据掌握的各个NodeManager的资源情况,决定在哪些主机上创建App Master。各个App Master与本机的NodeManager申请Container后,在本机运行启动多个map和reduce。二,hdfs

2015-10-30 11:20:21 910

转载 window下连接hadoop集群基础超详细版

http://blog.csdn.net/lifuxiangcaohui/article/details/395001311、Hadoop开发环境简介1.1 Hadoop集群简介  Java版本:jdk-6u31-linux-i586.bin  Linux系统:CentOS6.0  Hadoop版本:hadoop-1.0.0.tar.gz1.

2015-10-29 15:32:12 1486

转载 Windows下使用Hadoop2.6.0-eclipse-plugin插件

http://my.oschina.net/muou/blog/408543摘要 经历过痛苦的过程,在windows下终于可以使用eclipse的hadoop2.6.0插件进行远程调试Mapreduce了,本文大部分内容是摘自其余的博客,但是后续也有补充完整自己在整个过程中遇到的其余问题,希望本文能够比较完善的解决hadoop2.6.0在eclipse运行的问题。本人没有经过重新编译,

2015-10-26 19:15:02 1592

原创 安装ubuntu14.04.2集群环境下的cloudera5.4.7+CDH5

一,虚拟机1,vsphere安装在服务器上裸装vSphere6.0.0,在本机windows安装vSphere Client2,ubuntu14.04单节点安装在vSphere上新建1台虚拟机。之后安装ubuntu14.04完成后,注意将光驱配置修改为“客户端”配置,之后按enter继续完成ubuntu的安装。进入系统后,修改/etc/network/inter

2015-10-21 19:49:26 6874

转载 Cloudera Manager5之安装部署CDH5.X

http://blog.csdn.net/freedomboy319/article/details/44804721本文章介绍Cloudera Manager的安装以及部署CDH5.X。主要分如下章节介绍。1,安装准备 2,安装Clouder Manager 3,部署CDH5.X1,安装准备 1.1 安装物理部署图  物理机硬件信息 2台HP

2015-10-20 16:58:50 2413

转载 从输入 URL 到页面加载完成的过程中都发生了什么事情?

http://web.jobbole.com/83720/原文出处: 百度FEX/吴多益(@吴多益)   欢迎分享原创到伯乐头条背景  本文来自于之前我发的一篇微博:不过写这篇文章并不是为了帮大家准备面试,而是想借这道题来介绍计算机和互联网的基础知识,让读者了解它们之间是如何关联起来的。为了便于理解,我将整个过程分为了六个问题来展开。第一个问

2015-10-09 10:47:55 1224

转载 验证最小化可行产品 (MVP) 的 15 种方法

http://36kr.com/p/217020.html验证最小化可行产品 (MVP) 的 15 种方法Yves-YAN • 2014/12/01 17:30硅谷创业家 Eric Rise 在其著作 《精益创业》 一书中提出了 “精益创业”(Lean Startup)的理念,其核心思想是,开发产品时先做出一个简单的原型——最小化可行产品(Minimum Viabl

2015-10-08 10:08:36 1903

转载 10 种机器学习算法的要点(附 Python 和 R 代码)

http://blog.jobbole.com/92021/本文由 伯乐在线 - Agatha 翻译,唐尤华 校稿。未经许可,禁止转载!英文出处:SUNIL RAY。欢迎加入翻译组。前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。也许我们生活在人

2015-10-08 09:53:36 5190 1

转载 基于 Spark 和 Flask 的一个可伸缩的电影推荐系统

http://python.jobbole.com/82207/本文由 伯乐在线 - fzr 翻译,唐尤华 校稿。未经许可,禁止转载!英文出处:Jose A. Dianes。欢迎加入翻译组。这份Apache Spark教程可以指导你逐步了解如何使用MovieLens数据集,基于协同过滤建立一个电影推荐系统。协同过滤使用Spark的交替最小方差(ALS)算法。

2015-09-29 09:04:37 2510

转载 分布式中使用 Redis 实现 Session 共享(下)

http://blog.jobbole.com/91877/原文出处: 焰尾迭   欢迎分享原创到伯乐头条上一篇使用Redis实现Session共享方式虽然可行,但是实际操作起来却很麻烦,现有代码已经是这个样子了,总不可能全部换掉吧!好吧,这是个很实际的问题,那么能不能实现无侵入式的分布式Session共享方案呢?mode=”InProc”这是web.config里面使

2015-09-25 11:30:26 1339

转载 分布式中使用 Redis 实现 Session 共享(中)

http://blog.jobbole.com/91874/原文出处: 焰尾迭   欢迎分享原创到伯乐头条上一篇介绍了一些redis的安装及使用步骤,本篇开始将介绍redis的实际应用场景,先从最常见的session开始,刚好也重新学习一遍session的实现原理。在阅读之前假设你已经会使用nginx+iis实现负载均衡搭建负载均衡站点了,这里我们会搭建两个站点来验证r

2015-09-25 11:28:43 1148

转载 分布式中使用 Redis 实现 Session 共享(上)

http://blog.jobbole.com/91870/原文出处: 焰尾迭   欢迎分享原创到伯乐头条上一篇介绍了如何使用nginx+iis部署一个简单的分布式系统,文章结尾留下了几个问题,其中一个是”如何解决多站点下Session共享”。这篇文章将会介绍如何使用Redis,下一篇在此基础上实现Session。这里特别说明一下,其实没有必要使用Redis来解决Ses

2015-09-25 11:27:28 1716

转载 高并发Web服务的演变:节约系统内存和CPU

http://blog.jobbole.com/91749/本文作者: 伯乐在线 - 徐汉彬 。未经作者许可,禁止转载!欢迎加入伯乐在线作者团队。一、越来越多的并发连接数现在的Web系统面对的并发连接数在近几年呈现指数增长,高并发成为了一种常态,给Web系统带来不小的挑战。以最简单粗暴的方式解决,就是增加Web系统的机器和升级硬件配置。虽然现在的硬件越来越便宜,

2015-09-25 11:24:07 529

转载 The Log-Structured Merge-Tree(译):下

http://duanple.blog.163.com/blog/static/7097176720123202219903/4.Concurrency and Recovery in the LSM-tree本节我们来研究下用于LSM-tree并发访问和恢复的技术。为此,我们需要更深入地描述出rolling merge过程。我们将该并发访问和恢复算法正确性的形式化证明作为

2015-09-24 15:48:40 1082

转载 The Log-Structured Merge-Tree(译):中

http://duanple.blog.163.com/blog/static/7097176720123202125771/3.3 Multi-Component LSM-Trees对于给定的LSM-tree,参数M代表了rolling merge过程中插入到每个C1树的叶子节点中的C0树的平均记录数。在merge到C1树的节点中之前,这些新记录会首先在C0中积累一段时间

2015-09-24 15:44:12 800

转载 The Log-Structured Merge-Tree(译):上

http://duanple.blog.163.com/blog/static/7097176720120391321283/说明:转载请保留全部信息作者:Patrick O’Neil &Edward Cheng etc. 1996原文:http://www.springerlink.com/content/rfkpd5yej9v5chrp/译者:phylips

2015-09-24 15:42:10 719

转载 Linux 内存管理: Kmalloc

http://blog.jobbole.com/91820/原文出处: linuxDOS   欢迎分享原创到伯乐头条这里只说物理内存管理 linux内核的,看了很多讲解的内存的东西,但是自己总结的时候总感觉无从下手,这里就从实际物理内存分配接口开始吧。Kmalloc 它分配连续的物理内存空间 ,它不负责把分配的内存空间清零,它能分配多大的呢?并且它只能分配ZONE_

2015-09-24 11:26:51 1405

转载 Linux 内核同步机制

http://blog.jobbole.com/91784/原文出处: linuxDOS   欢迎分享原创到伯乐头条Linux内核同步机制,挺复杂的一个东西,常用的有自旋锁,信号量,互斥体,原子操作,顺序锁,RCU,内存屏障等。这里就说说它们的特点和基本用法。自旋锁 :通用的 和读写的特点:1. 处理的时间很短。2. 尝试获取锁时,不能睡眠,但是有t

2015-09-24 11:25:06 476

转载 TCP/IP 协议详解内容总结

http://blog.jobbole.com/91841/原文出处: Emotiona1106   欢迎分享原创到伯乐头条TCP/IP协议TCP/IP不是一个协议,而是一个协议族的统称。里面包括IP协议、IMCP协议、TCP协议。TCP/IP分层:这里有几个需要注意的知识点:互联网地址:也就是IP地址,一般为网络号+子网号+主机号域

2015-09-24 11:23:32 462

转载 Nginx + IIS 实现负载均衡

http://blog.jobbole.com/91852/原文出处: 焰尾迭   欢迎分享原创到伯乐头条最近在研究分布式系统架构方面的知识,包括负载均衡,数据库读写分离,分布式缓存redis等。本篇先从负载均衡服务架构入手,关于负载均衡百度百科的定义如下:负载均衡,英文名称为Load Balance,其意思就是分摊到多个操作单元上进行执行,例如Web服务器、FTP服务器、

2015-09-24 11:20:41 443

转载 Linux内存管理:Vmalloc

http://blog.jobbole.com/91885/原文出处: linuxDOS   欢迎分享原创到伯乐头条在前面我们讲解了kmalloc申请连续物理内存的操作,以及原理和基础cache . 在内核中还有另外一个接口函数那就是vmalloc,申请一片连续的虚拟地址空间,但不保证物理空间连续,实际上我们会想到用户空间的malloc,malloc它是标准的glibc封装

2015-09-24 11:18:29 1333

转载 深入 HBase 架构解析(2)

http://blog.jobbole.com/91916/原文出处: DLevin(@雪地脚印_)   欢迎分享原创到伯乐头条前言这是《深入HBase架构解析(1)》的续,不多废话,继续。。。。 HBase读的实现通过前文的描述,我们知道在HBase写时,相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起

2015-09-24 11:15:15 694 1

转载 深入HBase架构解析(1)

http://blog.jobbole.com/91913/原文出处: DLevin(@雪地脚印_)   欢迎分享原创到伯乐头条前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,

2015-09-24 11:14:21 550

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除