小鸟123-CSDN博客

原创无符号数的非，位的模式是相同的

P104：对于无符号数的非，位的模式是相同的。对于上述这句话，起初不是很明白，对比无符号数和有符号数各自的非后，发现这句话有问题。我的理解：对于一个无符号数和一个有符号数，如果两者的位模式相同，则其补码的位模式也是相同的。...

2018-03-31 22:54:14 436 2

原创 Hadoop RPC

在介绍Hadoop RPC之前，需要首先介绍一下JAVA NIO，JAVA NIO是jdk发布的全新I/O类库。它不但引入了全新的高效的I/O机制，同时引入了基于Reactor设计模式的多路复用异步模式，NIO的包中主要包含以下几种抽象数据类型。Channel：NIO把它支持的I/O对象抽象为Channel，它模拟了通信连接，类似于原I/O中的流（Stream），用户可以通过它读取和写入数据。

2016-08-12 20:56:23 412

原创 dl4j基本环境搭建（win7+64位jdk1.8+IDEA）

之后选择maven导入，一直下一步就可以了，知道最终finish结束。导入到IDEA后，首先需要确保你安装了64位的jdk，如果此时我们直接运行项目，会出现类似找不到*.dll文件的错误，此时我们需要下载到dl4j项目运行所需要的一些dll文件，下载链接请参看最后的链接。当我们下载完所需的dll文件后，需要做一些操作才能继续运行。下图展示了这些操作：这里VM options选项

2016-08-07 21:54:20 4421

原创 dl4j源码阅读心得及问题（Spark部分）

public class IrisLocal { public static void main(String[] args) throws Exception { SparkConf sparkConf = new SparkConf(); sparkConf.setMaster("local[*]"); sparkConf.setApp

2016-08-05 21:50:56 3134

原创 spark on yarn运行scala单词统计程序出错

java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums出现这个错误的原因是我spark中的jar包是spark-assembly-1.6.0-hadoop2.6.0.jar，导致我生成的jar包也是针对hadoop2.6.0版本的，而我使用的hadoop版本却是2.5

2016-06-27 14:24:41 413

原创 map任务数量控制

mapred-site.xml mapred.min.split.size 94371840hdfs-site.xml dfs.block.size 67108864直接配置mapred.job.maps好像不是很管用。首先通过dfs.block.size设置

2016-06-25 14:15:27 551

原创简单shell学习

1 请随意使用各种类型的脚本语言实现：批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoopfind /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;2 假设有10台主机，H1到H10，在开启SSH互信的情况

2016-06-08 20:07:02 444

原创 HBase Rowkey的散列与预分区设计

1.如何防止热点？2.如何预分区？ HBase中，表会被划分为1...n个Region，被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个start-end key范围内，那么就会定位到目标region并且读/写到相关的数据。简单地说，有那么一

2016-05-13 19:36:04 4473 1

转载 HBase 数据导入功能实现方式解释

问题导读：1.向hbase中导入数据分为几种方式？2.Bulk load 怎么导入数据？3.Sqoop怎么导入到Hbase数据库中？预备知识：启动 HBase清单 1. 修改 hosts 文件清单[root@node1:2 hbase-0.96.1.1-cdh5.0.1]# cat /etc/hosts10.17.139.186 node110.17.139

2016-05-09 17:11:42 760

原创 hbase笔记-----基础

默认情况下hbase会将存储写入本地文件系统，因此，如果要使用hbase集群，首先需要将hbase的存储配置为指向所要使用的hdfs集群一、hbase简单命令start-hbase.sh启动hbasehbase shell启动hbase的外壳程序create 'table' , 'column family' , 'column family' , ...创建表list显示表

2016-05-07 20:09:06 336

原创 hive笔记-----用户定义函数

一、UDF一个udf必须满足下面两个条件：1、必须是org.apache.hadoop.hive.ql.exec.UDF的子类2、必须至少实现了evaluate()方法在编写了UDF之后，需要在调用之前引入这个UDF打成的jar包add jar /path/to/hive-examples.jar还需要为java类取一个别名create temporary func

2016-05-07 15:08:46 319

原创 hive笔记-----查询数据

一、排序和聚集hive中的order by能够预期产生完全排序的结果，但这个排序的过程只是使用一个reduce任务来完成的，这个面对大规模的数据集肯定不可行的因此sort by出现，它可以为每个reduce任务产生一个排序文件distribute by可以控制某个特定行应该到哪个reducer，目的在于进行后续的聚集操作例如from record2select ye

2016-05-05 20:55:04 503

原创 hive笔记-----表

托管表加载数据到托管表时create table managed_table(dummy string);load data inpath '/user/tom/data.txt' into table managed_table;丢弃表，元数据和数据会被一起删掉。最初的load操作是一个移动操作，所以数据会被彻底删除，这就是hive所谓的托管的含义drop table m

2016-05-04 21:40:51 739

原创 hive笔记

一、Hive的配置文件属性设置hive --config /users/tom/dev/hive-conf重新定义hive查找hive-site.xml文件的路径，在配置文件中使用HIVE_CONF_DIR选项指定到相应的路径可以有相同的效果，适用于多个集群之间相互切换hive -hiveconf fs.default.name=localhost -hiveconf mapred

2016-05-04 16:32:41 422

转载验证自身水平的hadoop面试题

1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571

2016-05-03 21:52:08 364

原创 dashboard中资源释放

针对我们在openstack中创建实例时，有的时候会出现一些状态错误的实例，而直接删除又无法删除，这个时候可以选择去数据库中直接删除。删除数据库时，最开始需要删除的是instance表中相关的记录，如果发现因为外键的原因删除失败，则可根据提示信息找到与之有外键关联的表中信息，先将其删除之后再去删除instance表中的记录，直到最终删除为止。当我们将instance中的实例

2016-03-11 21:43:40 658

原创深度学习（一）

深度学习是机器学习的一个分支，机器学习是人工智能的核心。深度学习简单定义：研究如何使用机器来模拟人类学习的一门学科。

2016-03-10 20:51:49 355

原创 Hadoop中的YARN

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。MRv1 的缺陷 MapReduce 的第一个版本既有优点也有缺点。MRv1 是目前使用的

2016-03-08 15:25:19 625

原创 hadoop 集群加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令

方式1：静态添加datanode，停止namenode方式1.停止namenode 2.修改slaves文件，并更新到各个节点3.启动namenode 4.执行hadoop balance命令。（此项为balance集群使用，如果只是添加节点，则此步骤不需要） -- 方式2：动态添加datanode，不停namenode方式 1.

2016-03-07 21:06:57 4969

原创 hadoop细节积累

1、hadoop可以运行在3种模式下：单机模式，不存在守护进程，所有的东西都运行在一个jvm上，也没有分布式存储系统，使用的是本地文件系统伪分布式，所有守护进程都运行在同一台机器上完全分布式，hadoop守护进程运行在每台机器上2、hadoop的集群是基于master/slave模式，namenode和jobtracker属于master，datanode和tasktracker属

2016-03-07 20:36:33 330

原创 hadoop源码分析环境搭建（win7+cygwin+jdk+ant+eclipse+Hadoop-1.0.0）

jdkanteclipsehadoop-1.0.0这些需要安装或者下载ant下载后将文件夹放在hadoop-1.0.0里面执行ant eclipse当出现E:\Hadoop\hadoop-1.0.0\build.xml:2294: E:\Hadoop\hadoop-1.0.0\.eclipse.templates is not a directory.时，手动创

2016-03-06 11:57:03 821 1

原创 tomcat 预览出现501错误

解决办法：从数据库中用语句exec sys.sp_readerrorlog 0, 1, 'listening'查询数据库端口，把正确端口号填在

2015-07-06 17:03:03 845

转载 Hadoop集群搭建

一. 搭建环境前的准备：我的本机Ubuntu 12.04 32bit作为maser，就是上篇hadoop单机版环境搭建时用的那台机子，还在KVM中虚拟了4台机子，分别起名为：son-1 (ubuntu 12.04 32bit)，son-2 (ubuntu 12.04 32bit)，son-3 (centOS 6

2015-06-23 20:10:19 539

原创 linux环境下jdk和编译器版本不一致问题

当我们在linux系统下键入java -version和javac -version如果jdk的版本低于编译器的版本，正如我的电脑java -version出现的是1.6，而javac -version出现的是1.7这个问题如果我们确定已经安装了1.7版本的jdk的话，那就是环境变量配置配置的问题我现在的环境变量如下JAVA_HOME=/usr/lib/jvm/java-7-o

2015-06-20 10:34:12 822

原创 Windows下安装hadoop并集成到myeclipse开发环境

具体细节请参看刘胜球的博客：在Windows系统中安装Hadoop链接为http://my.oschina.net/u/570654/blog/112757myeclipse配置Hadoop开发环境链接为http://my.oschina.net/u/570654/blog/112780下面开始讲解本人在安装过程中出现的问题以及解决方法：1、编辑conf/hadoop-env.sh

2015-05-12 19:03:42 1104

原创 Pig安装测试和出现的问题

Pig的安装和配置过程1、从http://pig.apache.org/下载Pig安装包，我下载的是Pig-0.14.02、使用tar -zxvf pig-0.14.0.tar.gz解压到适当的位置，这里推荐放在hadoop的目录下3、接下来需要做的就是配置了，我是在/etc/profile中进行配置的，配置过程中和hadoop进行了关联，这样可以让Pig在分布式存储上进行想要的处理。

2015-05-03 21:08:26 846

转载 hadoop编程实例

原文链接：http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html从网上搜到的一篇hadoop的编程实例，对于初学者真是帮助太大了，看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊，赶紧保存起来。 1、数据去重　　 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义

2015-04-13 18:45:55 806

转载 MVC新手推荐

大家可以看看这个网站http://www.cnblogs.com/artech/archive/2012/04/10/how-mvc-works.html，

2014-08-10 14:59:18 403

iwantknowwhat的专栏