yanhan_huang-CSDN博客

原创 eclipse里面添加hive maven相关依赖报错

首先贴我的hive 相关依赖 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 com.crxy.hive hive 0.0.1-SNAPSHOT jar hive

2016-05-30 23:16:26 4993

原创 eclipse创建maven工程报错 Could not resolve archetype org.apache.maven.archetypes 解决

eclipse创建maven工程报错 Could not resolve archetype org.apache.maven.archetypes 解决错误：Could not resolve archetype org.apache.maven.archetypes:maven-archetype-quickstart:RELEASE from any of the con

2016-05-19 16:38:14 692

原创 VMware中centos6.7中设置静态IP

之前一直使用NAT+自动获取hdcp模式，理论上这样虚拟机就可以连外网，并且IP是固定的，并这样使用了一段时间。但是后来发现IP还是会改变，使用起来不方便。下面就使用NAT+设置静态IP模式来配置我们的虚拟机。1.首先在我们的window上配置我们的VMnet8网卡，设置成如下： 2.Edit->Virtual Network Editor 选择VMne

2016-05-06 20:37:31 1831

翻译 Scala--基础入门

这是Scala系列的第一篇博客，后面会持续更新Scala系列以及Spark等。本篇博客主要讲解Scala的简介和安装，还有scala的变量定义、变量类型，以及扩展在Intellij IDEA上安装Scala插件。简介/安装Scala，是一门运行在JVM上的函数式面向对象语言，可以很好的兼容java。函数式面向对象语言，也就是说既有像java面向对象语言的特性又有类似于Pyt

2016-04-24 22:24:22 1154

转载 Spark读写和Lost Excutor错误的分析和解决过程

Spark读写和Lost Excutor错误的分析和解决过程http://www.aboutyun.com/thread-15842-1-1.html问题导读1.大规模数据往HDFS中写时候，报了HDFS读写超时,本文是如何分析的？2.大规模数据往HDFS中写时候，报了超时如何解决？3.总结你遇到问题，是如何解决的？一、概

2015-11-02 10:23:08 2016

转载使用HBase EndPoint（coprocessor）进行计算

问题导读：1、统计总行数，理想的方式应该是怎样？2、什么是Endpoint，怎样去实现它？3、有哪几种方式去部署？http://www.aboutyun.com/thread-7839-1-2.html前言：如果要统对hbase中的数据，进行某种统计，比如统计某个字段最大值，统计满足某种条件的记录数，统计各种记录特点，并按照记录特点分类（类似于sql的group

2015-08-07 17:44:10 1501 1

转载 MapReduce: 提高MapReduce性能的建议(1)

MapReduce: 提高MapReduce性能的建议(1)http://www.aboutyun.com/thread-5749-1-1.html请教一个问题：在集群上运行Mapreduce V2程序，每次处理大约100G-400G的数据，但是程序运行后，NodeManager机器的CPU会达到100%，直到任务结束，内存使用正常。在NodeManager机器上，使用jps命令，

2015-07-21 13:40:00 369

转载 hadoop MapReduce - 从作业、任务（task）、管理员角度调优

hadoop MapReduce - 从作业、任务（task）、管理员角度调优http://www.aboutyun.com/thread-10557-1-1.html问题导读1.Combiner的作用是什么？2.作业级别参数如何调优？3.任务及管理员级别有哪些可以调优？Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使

2015-07-21 10:36:03 570

转载 MapReduce之计数器及实例

MapReduce之计数器及实例http://www.aboutyun.com/thread-13745-1-1.html感兴趣的直接点上面链接，会有更详细的解析问题导读1.hadoop有哪些内置计数器？2.job.getCounters()可以得到什么？3.MapReduce是否允许用户自定义计数器？简述：Hadoop计数器：可以让开发人员以全局的

2015-07-20 13:59:34 1204

转载 [Hadoop源码详解]之一MapReduce篇之InputFormat

小站博文地址：[Hadoop源码详解]之一MapReduce篇之InputFormat1. 概述我们在设置MapReduce输入格式的时候，会调用这样一条语句：1job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句

2015-07-15 09:56:22 620

转载 MapReduce中的分区方法Partitioner

问题导读：1.Partitioner分区类的作用是什么？2.getPartition()三个参数分别是什么？3.numReduceTasks指的是设置的Reducer任务数量，默认值是是多少？扩展：如果不同类型的数据被分配到了同一个分区，输出的数据是否还是有序的？在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需

2015-07-14 10:45:09 635 1

转载从程序角度分析mapreduce原理与代码

1.描述mapper处理的过程？2.调用一次map方法会输出多少键值对？3.对于输出的键值对，默认分区标准是什么？4.分区与reducer任务之间的关系是什么？5.是什么规约？规约的目的是什么？规约是否必须的？6.键相等的键值对调用几次reduce方法？MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法

2015-07-13 17:55:27 426

原创 java的toString

为什么我在类中重写他，当输出该类对象的时候却能显示里面的结果？例如：我输出的是一个对象，却调用到了toString方法public class TTT {private String id;private String name;public void setId(String id) {this.id = id;}public void setName(String

2015-07-13 14:31:47 390

转载彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题

本文合适和对mapreduce有一定了解，并且产生各种问题的同学，算是一个解惑篇。如果刚接触的话，这篇文章很有可能看不下去。建议先了解Hadoop简介(1):什么是Map/ReduceMapReduce 编程模型概述mapreduce是hadoop的核心之一，mapreduce经常让我们产生各种困惑，我们只是知道什么是map，什么是renduce，甚至我们已经熟悉了mapred

2015-07-13 13:49:45 358

转载 Hive性能调校

1. 设置hive.map.aggr=true，提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。缺点：该设置会消耗更多的内存。注：顶层的聚合操作（top-levelaggregation operation）,是指在group by语句之前执行的聚合操作。例如，

2015-07-08 17:46:22 486

转载深入浅出数据仓库中SQL性能优化之Hive篇

深入浅出数据仓库中SQL性能优化之Hive篇http://www.aboutyun.com/thread-11349-1-1.html问题导读1、如何理解数据仓库中SQL之Hive整体优化？2、怎样对Job整体优化？3、如何减少Job数？摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，

2015-07-08 16:07:23 736

翻译让你真正明白什么是hive

导读：对于一个事物的认识，存在几种情况1.没有接触，不知道这个事物是什么，所以不会产生任何问题。2.接触了，但是不知道他是什么，反正我每天都在用。3.有一定的了解，不够透彻。那么hive，1.我们对它了解多少？2.它到底是什么？3.hive和hadoop是什么关系？扩展：hbase和hive是什么关系？Hive最初是应Facebook每天产生

2015-07-08 13:17:00 504

转载让你彻底明白hive数据存储各种模式

问题导读1.hive数据分为那两种类型？2.什么表数据？3.什么是元数据？4.Hive表里面导入数据的本质什么？5.表、分区、桶之间之间的关系是什么？6.外部表和表的区别是什么？Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目

2015-07-08 11:34:52 1721

转载 hive内部表与外部表区别详细介绍

问题导读：1.创建内部表与外部表的区别是什么？2.external关键字的作用是什么？3.外部表与内部表的区别是什么？4.删除表的时候，内部表与外部表有什么区别？5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的？6.磁盘，hdfs,hive表他们之间的过程是什么样子的？

2015-07-08 10:31:30 1184

转载 Mapper过程中Combiner的作用

我们可以带着下面问题来阅读为什么需要在Mapper端进行归约处理？为什么可以在Mapper端进行归约处理？既然在Mapper端可以进行归约处理，为什么在Reducer端还要处理？我们知道，MapReduce是分为Mapper任务和Reducer任务，Mapper任务的输出，通过网络传输到Reducer任务端，作为输入。在Reduc

2015-07-03 11:37:25 655

转载用 Ganglia 监控基于 Biginsights 的 HBase 集群性能

问题导读1.BigInsights和HBase的区别有哪些？2.Ganglia如何部署？序言随着数据爆发式增长时代的来临，各种云计算平台也不断的被推广出来。IBM 开发了 BigInsights 云计算平台，该平台包括 Hadoop 和 HBase 等底层开源项目，它可以帮助企业从大量的数据中挖掘出隐藏的商业价值。BigInsight

2015-07-02 13:47:32 620

翻译 mapreduce任务执行过程详细分析--源码级分析

本人适合对mapreduce有一定经验人来阅读，对于新手来讲，只是阅读前面会有收获不少，但是到了后面就会有些看不懂，可以简单了解。如果对mapreduce有了半年的编程经验并且善于思考，或许这是一篇不错的文章。问题导读：1.mapreduce是一个分布式编程，那么他的输入参数是什么？2.mapreduce的起初key与value的来源是什么？3.map函数中key与valu

2015-07-01 14:25:26 4037 1

转载多面编程语言Scala

摘要：Scala把近二十年间大行其道的面向对象编程与旧而有之的函数式编程有机结合起来，形成其独特的魔力。本文将带你领略Scala独特魅力，练就自己的寒冰掌、火焰刀。如Scala官网宣称的：“Object-OrientedMeetsFunctional”，这一句当属对Scala最抽象的精准描述，它把近二十年间大行其道的面向对象编程与旧而有之的函数式编程有机结合起来，形成其独特的魔力。希望

2015-06-26 11:09:53 598

原创 Eclipse 快捷键

1. alt+shift+s+r =set+get方法。选择以后 alt+shift+enter 自动输出。无需鼠标2.Ctrl+1 快速修复3.Ctrl+D: 删除当前行4.Ctrl+Alt+↓ 复制当前行到下一行(复制增加)5.Ctrl+Alt+↑ 复制当前行到上一行(复制增加)6.Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了

2015-06-05 16:38:27 277

翻译 java动态代理（JDK和cglib）

JAVA的动态代理代理模式代理模式是常用的java设计模式，他的特征是代理类与委托类有同样的接口，代理类主要负责为委托类预处理消息、过滤消息、把消息转发给委托类，以及事后处理消息等。代理类与委托类之间通常会存在关联关系，一个代理类的对象与一个委托类的对象关联，代理类的对象本身并不真正实现服务，而是通过调用委托类的对象的相关方法，来提供特定的服务。按照代理的创建时期，代理类可以分为

2015-05-29 15:20:30 224

原创泛型理解

初步了解泛型的来由在没有泛型之前，一旦吧一个对象“丢进”java集合中，集合就会忘记对象的类型，把所有的对象都当成是Object类型处理。当程序从集合中取出对象之后，就要进行强制类型转换，这种强制类型转换不仅代码臃肿还容易引起ClassCastException异常。在JDK1.5之后，Java引用了“参数化类型（parameterized type）”的概念，允许我们在创建集合是

2015-05-28 14:55:04 245

转载 java反射详解二

java反射详解2011-09-02 14:16 by Rollen Holt, 269247 阅读, 100 评论, 收藏, 编辑本篇文章依旧采用小例子来说明，因为我始终觉的，案例驱动是最好的，要不然只看理论的话，看了也不懂，不过建议大家在看完文章之后，在回过头去看看理论，会有更好的理解。下面开始正文。【案例1】通过一个对象获得完整的包名和类名

2015-05-28 14:28:02 341

翻译 kafka入门：简介、使用场景、设计原理、主要配置及集群搭建

一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kaf

2015-05-19 13:06:24 366

转载全面了解hbase包括概念、原理等介绍

1.hbase全拼是什么？2.哪一个接口，利用Thrift序列化技术，支持C++，PHP，Python等多种语言，适合其他异构系统在线访问?3.哪一个接口，支持REST 风格的Http API访问HBase, 解除了语言限制?4.hbase是一个具有什么特性的数据库？5.HBase Client使用HBase什么机制与HMaster和HRegionServer进行通信？6.Zo

2015-04-27 18:13:56 583

转载 Eclipse下使用Ant

目前的Eclipse都集成了ant，本文图示如何在eclipse下使用ant。1.新建Java Project-新建Java文件HelloWorld.javaHelloWorld.javapackage example;public class HelloWorld { public static void main(String[] args) {

2015-04-26 11:44:25 448

转载 hive与hbase的区别

问题导读：hive与hbase的底层存储是什么？hive是产生的原因是什么？habase是为了弥补hadoop的什么缺陷？共同点：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别：2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Had

2015-04-22 11:31:20 401

转载 java字符串分解 StringTokenizer用法

Java中substring方法可以分解字符串，返回的是原字符串的一个子字符串。如果要讲一个字符串分解为一个一个的单词或者标记，StringTokenizer可以帮你。先看个例子：[java] view plaincopyprint?public static void main(String[] args) { StringToke

2015-04-22 10:48:30 449

转载 Hive四种数据导入方式介绍

about云openstack零基础部署开发入门购买活动问题导读1.从本地文件系统中通过什么命令可导入数据到Hive表？2.什么是动态分区插入？3.该如何实现动态分区插入？扩展：这里可以和Hive中的三种不同的数据导出方式介绍进行对比？Hive的几种常见的数据导入方式这里介绍四种：（1）、从本地文件

2015-04-21 14:27:36 670

转载 HIVE 动态分区与静态分区

HIVE分区，实际上是通过一个路径来标识的，而不是在物理数据中。比如每天的数据，可能分区是pt=20121023这样，那么路径中它就会变成：/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是，如果我们需要取特定分区的数据，只需要把这个路径下的数据取出来就可以了，不用扫描全部的数据。HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区，比如商品

2015-04-21 14:25:21 462

转载 DataOutputStream&DataInputStream ByteArrayOutputStream ByteArrayInputStream的作用

综合DataOutputStream&DataInputStream的作用和功能,与ByteArrayOutputStream和ByteArrayInputSream使用将更方便.此时DataOutputStream&DataInputStream封闭了字节流,以适当的形式读出了字节数组中的数据.如下所示: 1ByteArrayOutputStream ByteArrayInputStre

2015-04-10 15:32:58 461

转载非常好的Java反射例子

在学习编程的过程中，我觉得不止要获得课本的知识，更多的是通过学习技术知识提高解决问题的能力，这样我们才能走在最前方，更多Java学习，请浏览疯狂java官网。　　Java反射在我们Java学习的过程中是非常重要的知识点。可能有些同学认为这个学习起来不容易理解，其实就我个人而言还是比较简单，学习起来也比较容易理解。下面我给大家总结一下Java反射学习的要点，同时给出几个比较好的例子。　　1、

2015-04-02 16:23:40 357

转载关于hashCode方法的作用

有许多人学了很长时间的Java，但一直不明白hashCode方法的作用，我来解释一下吧。首先，想要明白hashCode的作用，你必须要先知道Java中的集合。　　总的来说，Java中的集合（Collection）有两类，一类是List，再有一类是Set。你知道它们的区别吗？前者集合内的元素是有序的，元素可以重复；后者元素无序，但元素不可重复。那么这里就有一个比较严重的问题了

2015-04-01 15:16:37 375

转载在重写了对象的equals方法后，还需要重写hashCode方法吗?

首先说建议的情况：比如你的对象想放到Set集合或者是想作为Map的key时（非散列的Set和Map，例如TreeSet,TreeMap等），那么你必须重写equals()方法，这样才能保证唯一性。当然，在这种情况下，你不想重写hashCode()方法，也没有错。但是，对于良好的编程风格而言，你应该在重写equals（）方法的同时，也重写hashCode()方法。然后再说说必须重写ha

2015-04-01 15:14:46 535

转载深入理解Java对象序列化

深入理解Java对象序列化关于Java序列化的文章早已是汗牛充栋了，本文是对我个人过往学习，理解及应用Java序列化的一个总结。此文内容涉及Java序列化的基本原理，以及多种方法对序列化形式进行定制。在撰写本文时，既参考了Thinking in Java, Effective Java，JavaWorld，developerWorks中的相关文章和其它网络资料，也加入了

2015-04-01 14:22:22 401

转载 Java IO

原文：http://blog.csdn.net/aaaaaaaa0705/article/details/6732893(1)题目：给出一个整数数组，将其写入一个文件，再从文件中读出，并按整数大小逆序打印。这道面试题是我看了好多面试题后自己编的，希望能对将要面试的人有点帮助。对于我这个新手来说，觉得这个题目考察的基础东西还是比较多的:1.对文件的

2015-03-31 14:57:23 362

空空如也

空空如也