老乔家大哥-CSDN博客

原创 PrintWriter与ServletOutputStream的区别之文件下载

先看代码第一种：out = response.getWriter();response.reset();response.addHeader("Content-Disposition", "attachment;filename=" + taskId + ".html");response.addHeader("Content-Length", "" + htmlData.get

2017-03-15 10:43:25 2313

原创玩过hadoop，hive的你们可以回顾回顾

这几年，大家都是从hadoop，hive走过来的。hadoop现在都快3.0了。下面贴一下我去年写的udaf，你看每个环节你是不是都清楚了。import org.apache.hadoop.hive.common.type.HiveDecimal;import org.apache.hadoop.hive.common.type.HiveVarchar;import org.apache.had

2016-03-31 16:31:09 1001 1

原创以前Flume遇到的坑

flume配置master agent.channels = memoryChannel agent.channels.memoryChannel.type = memory agent.channels.memoryChannel.capacity = 1000000agent.channels.memoryChannel.keep-alive = 100agent.sources = se

2016-03-31 16:18:31 6029

原创 Spark Streaming Kafka开发现在很成熟了

现在spark streaming流处理很成熟了，基于kafka的官方也提供了2种API。一种是Receiver-based Approach，一种是Direct Approach (No Receivers)。第二种方式性能比较高，是以后的趋势，但目前还叫实验版。

2016-03-31 16:03:56 1020

转载贝叶斯的JAVA分类器实现

注：本算法的实现仅仅适用于小规模数据集的实验与测试，不适合用于工程应用算法假定训练数据各属性列的值均是离散类型的。若是非离散类型的数据，需要首先进行数据的预处理，将非离散型的数据离散化。算法中使用到了DecimalCaculate类，该类是java中BigDecimal类的扩展，用于高精度浮点数的运算。该类的实现同本人转载的一篇博文：对BigDecimal常用方法的

2015-07-23 11:31:52 1064

原创 spark杂(二)

主要是操作HBasespark集成hbase 缺少类可在spark-env.sh中设置SPARK——CLASSPASTHSPARK_CLASSPATH=/opt/hbase/lib/*如果报java.lang.NoSuchMethodError或java.lang.NoSuchFieldError则可能是jar冲突，依赖的jar单独放在一个目录，不要有重复的jar操作程序如下

2015-04-24 18:27:57 1031

原创 spark杂记(一)

1.使用sparksql需要将hive的依赖包加入SPARK_CLASSPATH2.spark编译时如果需要支持cli，thrift-server则要求protobuf的版本和编译hadoop的protobuf版本一致3.当以yarn-client模式运行时，driver就运行在客户端的spark-submit进程中，其JVM参数是取的spark-class文件中的设置4.总结一下Sp

2015-04-24 18:11:03 1037

原创标准linux服务器搭建

一：针对大数据平台的linux如下搭建，为了方便截图，采用的虚拟机，与真实环境有点出入二：步骤如下1. 在vmware中选择加载虚拟光盘iso文件，然后进入安装2. 默认选择第一项 Install or upgrade an existing system，然后如果机器没啥问题，就选择Skip跳过test3.选择Next4. 建议选择English,在最

2014-12-22 17:46:52 959

原创 hadoop压缩汇总

一压缩目的可以减少对集群磁盘空间的占用，减小并行计算数据传输时网络IO二压缩种类SnappyCodec，GzipCodec，BZip2Codec，Lz4Codec，LzoCodec三依赖SnappyCodec与LzoCodec需要本地库的支持四本地库的编译1. Lzo本地库的编译1.1安装lzo-2.06.tar.gz1.2步骤：解压；进

2014-12-21 21:39:29 2419 1

原创本地调用jni之VC++无法导入问题

其实很简单，无法导入头文件就自己新建呗1. 首先编写java代码class Vrv { public native void printVersion(); static { System.loadLibrary("hadoop"); } public static void main(String[] args) {

2014-12-20 22:59:13 955

原创 hbase-0.98安装文档

去官网下载hbase-0.98.8-hadoop2-bin.tar.gz压缩包前提是按照上一篇安装好hadoop，zookeeper 1. 将压缩包解压到主节点（一般采用namenode）的路径下2. 配置hbase-site.xml hbase.rootdir hdfs://192.168.2.101:8020/qiaotin

2014-12-18 17:38:18 1179 1

原创 spark入门之wordcount

曾经哥也学过scala，spark。下面为helloworld案例：1. wordcount只需两行代码，其实还可压缩成一行。就完成了词频统计，确实编码效率高啊2. sparksql创建sql的上下文，导包，读文件，生成RDDRDD转化成表，查询条件查询，打印结果现在好像都不用shark了，都改用sparksql了。不过南京这边，hadoop还是重头戏。

2014-12-16 14:32:46 1116

原创 Hadoop-2.5.1安装文档

前言本文档针对hadoop2.5.1生态圈的安装,版本选择如下：Jdk_1.7.0_45Zookeeper 3.4.6Hadoop 2.5.1安装顺序：系统环境搭建Hadoop集群安装的软件准备Hadoop集群搭建环境说明每台机器的服务Zookeeper集群: 针对大型分布式系统的可靠协调系统JournalNode集群：存储和管理对hdfs操作日志

2014-12-15 15:43:54 1642 1

原创分布式文件系统HDFS名字节点（续）

接着上篇的数据块和数据节点管理，都在blockmanager包下面，FSNamesystem是在server.namenode包下面。知道为什么别的什么fs系列的都放在common工程的fs包下吗，因为FSNamesystem是特定HDFS文件系统的namenode中的内容，common放的是公共的东西，还有一些抽象出来的接口（此接口非彼接口）。1. 几个类第一关系中的INodeFile有

2014-12-14 10:26:32 1089

原创分布式文件系统HDFS名字节点

本节讨论的都在hdfs工程中server.namenode包下名字节点维护两个重要关系：1. 文件系统的文件目录树，文件的数据块索引（文件与数据块的对应列表）2. 数据块与数据节点（datanode）的对应关系一文件系统目录树1. 主要的类INode是hdfs对文件和目录的抽象，早期版本是保存了文件和目录的名称name这一属性的，在2.X版本中，没有这个属性了。INod

2014-12-13 18:50:11 1930

原创 Hadoop RPC（续）

接着上一篇来看server端在看之前，我们想象一下，服务器端肯定要启动服务，在端口上监听，读取客户端的连接请求和请求数据并处理，最后返回。依次涉及的类：Listener，Connection，Call，Handler，Responser；这些类都是Server的内部类。HDFS分析篇我们知道NameNode，DataNode中有RPC服务的启动，我们从NameNode的main方法开始看，能发

2014-12-09 09:51:21 1388 1

原创 Hadoop RPC

终于进入RPC模块了，网上有很多基于早期hadoop的RPC机制分析，分析都很到位，今天我就带着大家走走源码（使用版本2.4.0）。本文采用深度遍历的方法分析源码，不知道你们习不习惯前奏:RPC是开发中抽出来的组件，如果不使用RPC，那么在分布式调用中流程是不是介个样子：服务器端是不是先创建ServerSocket在指定的ip地址和端口上监听，客户端创建到远程连接的Socket；好了，so

2014-12-08 12:17:03 1044

原创 Hadoop RPC热身之Java 反射

首先感谢各位同事，同学给我提了很多宝贵的意见。我的想象中文章思路是将概念的来龙去脉，原理以及用法让大家记住。现在还有点不够，继续努力吧。今天就来谈谈反射（reflection）机制，首先反射的概念是八十年代提出来的，意思就是我能不能动态的去修改程序的状态和行为。我们知道java，C++，C#不是动态语言；python，ruby是动态语言。但是反射机制让java能够在运行时对自身做检查，直白点就

2014-12-08 10:16:52 1225

原创 Hadoop RPC热身之Java 动态代理

还是那句话，不喜勿喷

2014-12-07 16:31:49 1187 3

原创 Hadoop RPC热身之Java NIO

不喜勿喷，欢迎提出意见

2014-12-06 22:29:10 1442

原创 HDFS源码解析（三）

本人博客针对的是hadoop2版本，比1版本略为复杂（采用了很多当下流行的设计模式，加入了新的序列化框架，ha配置，联邦特性，yarn框架，以及采用maven的工程划分结构等）。网上的源码分析大多针对的是1版本，由于是针对源码写出自己的理解，难免有错误或不当的地方，欢迎指正前面两篇主要讲了namenode，现在来说说datanode。好了，直接打开idea，进入DataNode首先我来

2014-12-06 17:01:11 813

原创 HDFS源码解析（二）

上一篇讲到了namenode的格式化，这一节来说说 hdfs文件系统对于hadoop集群，master节点存储3种类型元数据：文件和数据块的命名空间，文件和数据块的对应关系，每个数据块副本的存放地点。所有的元数据都保存在内存中，前两种类型也会以记录变更日志的方式记录在系统日志文件中。文件系统的存储和管理都交给了FSNameSystem类，我们就看看他的注释：/*************

2014-12-06 13:50:41 876 1