milyhj123-CSDN博客

原创 hadoop关于dfs.datanode.data.dir下多个目录不均衡问题

hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径，通常可以设置多个，用逗号隔开：<property><name>dfs.datanode.data.dir</name><value>/var/local/dfs-data,/usr/local/hadoop/dfs-data</v...

2017-09-15 15:47:20 9196 1

原创 java的四种引用类型

1.强引用：比如 Object obj = new Object(); //此时new Object拥有一个强引用obj System.gc();//触发垃圾回收，垃圾回收线程扫描到new Oject()这个对象存在 obj 这个强引用，则不会回收new Object； obj = null;//清除new Object的强引用obj System.gc()；//触发

2017-07-04 21:20:18 234

原创 zookeeper常用的特性与使用场景

zookeeper是一个开源的分布式协调服务。分布式应用程序可以基于zookeeper实现诸如数据发布与订阅、负载均衡、命名服务、分布式协调与通知、集群管理、Master选举、分布式锁与分布式队列等功能。数据发布于订阅：功能点：watcher事件通知，即zookeeper允许客户端对感兴趣的节点（指目录中的节点，非服务器节点）注册监听事件，当节点的内容或者子节点发生变化时，客户端能够感知到

2017-06-30 09:37:55 394

原创 hadoop2任务提交过程

1.在hadoop任意节点上通过 bin/hadoop jar命令开始任务；RunJar进程启动，相当于一个客户端client，计算输入分片。RunJar内置有一个Cluster对象，通它过可以向ResourceManager进行rpc通信；2、客户端向ResourceManager申请作业ID，并且把作业资源文件包括MapReduce程序打包的jar文件、配置信息和客户端计算的输入划分信息存

2017-06-22 10:42:08 750

原创 hadoop MR的过程

map阶段:1.由InputSplitFormat对输入数据进行逻辑分片（FileInputFormat.class中的getSplits()方法），默认的分片大小是不大于blocksize的大小，不小于配置文件中mapred.min.split.size中定义的大小，每一个分片分配一个map任务。2.每一个map任务拥有一个环形缓冲区，数据不断wang

2017-06-21 16:45:35 1126

原创 hadoop HA 过程

示意图：1.DN 周期性的向active和standby的namenode同时发送状态信息和文件块信息，并且只会执行active的namenode的指令；2.active和standby共享QJN方式的文件系统信息（拥有journalNode进程的节点），active向JN写入editlog，写入超过半数的journalnode即表示成功，否则失败。standby向JN读取ed

2017-05-25 15:27:06 341

原创 hadoop文件读写过程

读入过程：1.客户端通过RPC与Namenode通信，namenode返回一个输入流（FSDataInputStream对象）供客户端调用read方法不断读取数据。2.输入流对象封装DFSInputStream对象，该对象管理着namenode和datanoded I/O,接着DFSInputStream连接到存储着所要读取的文件块的距离客户端最近的datanode的数据输出给客户端，读取

2017-05-19 10:57:18 406

原创大数据备忘命令

oracle:sqoop import --append --connect jdbc:oracle:thin:@10.20.128.227:1526:d0p2ppd --username P2PPDATA --password rmgs5678 --target-dir /hadoop/data/oracle/rmgs_loan_cust_audit_result/ --num-mappe

2017-04-25 16:41:10 229

原创关于i++和++i的区别和总结

i++的过程：先拷贝一份原始值至另外的内存地址中，然后这份被拷贝的原始值应用于后续的计算过程中，然后自身加1；++i的过程：先自增，然后把自增后的值拷贝一份到另外的内存地址中，这份被拷贝的值应用于后续计算。i=i++的过程，如：int i=0,i=i++,结果是i=0，过程如下，把i=0的原始值拷贝一份至另外的内存地址中，然后i自增，但是后续的计算使用的是拷贝的那份原始值，即0，故i=0。

2017-04-25 16:33:40 348

milyhj123的博客