- 博客(28)
- 资源 (3)
- 收藏
- 关注
原创 无符号数的非,位的模式是相同的
P104:对于无符号数的非,位的模式是相同的。对于上述这句话,起初不是很明白,对比无符号数和有符号数各自的非后,发现这句话有问题。我的理解:对于一个无符号数和一个有符号数,如果两者的位模式相同,则其补码的位模式也是相同的。...
2018-03-31 22:54:14 436 2
原创 Hadoop RPC
在介绍Hadoop RPC之前,需要首先介绍一下JAVA NIO,JAVA NIO是jdk发布的全新I/O类库。它不但引入了全新的高效的I/O机制,同时引入了基于Reactor设计模式的多路复用异步模式,NIO的包中主要包含以下几种抽象数据类型。Channel:NIO把它支持的I/O对象抽象为Channel,它模拟了通信连接,类似于原I/O中的流(Stream),用户可以通过它读取和写入数据。
2016-08-12 20:56:23 412
原创 dl4j基本环境搭建(win7+64位jdk1.8+IDEA)
之后选择maven导入,一直下一步就可以了,知道最终finish结束。导入到IDEA后,首先需要确保你安装了64位的jdk,如果此时我们直接运行项目,会出现类似找不到*.dll文件的错误,此时我们需要下载到dl4j项目运行所需要的一些dll文件,下载链接请参看最后的链接。当我们下载完所需的dll文件后,需要做一些操作才能继续运行。下图展示了这些操作:这里VM options选项
2016-08-07 21:54:20 4421
原创 dl4j源码阅读心得及问题(Spark部分)
public class IrisLocal { public static void main(String[] args) throws Exception { SparkConf sparkConf = new SparkConf(); sparkConf.setMaster("local[*]"); sparkConf.setApp
2016-08-05 21:50:56 3134
原创 spark on yarn运行scala单词统计程序出错
java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums出现这个错误的原因是我spark中的jar包是spark-assembly-1.6.0-hadoop2.6.0.jar,导致我生成的jar包也是针对hadoop2.6.0版本的,而我使用的hadoop版本却是2.5
2016-06-27 14:24:41 413
原创 map任务数量控制
mapred-site.xml mapred.min.split.size 94371840hdfs-site.xml dfs.block.size 67108864直接配置mapred.job.maps好像不是很管用。首先通过dfs.block.size设置
2016-06-25 14:15:27 551
原创 简单shell学习
1 请随意使用各种类型的脚本语言实现:批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoopfind /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;2 假设有10台主机,H1到H10,在开启SSH互信的情况
2016-06-08 20:07:02 444
原创 HBase Rowkey的散列与预分区设计
1.如何防止热点?2.如何预分区? HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据。简单地说,有那么一
2016-05-13 19:36:04 4473 1
转载 HBase 数据导入功能实现方式解释
问题导读:1.向hbase中导入数据分为几种方式?2.Bulk load 怎么导入数据?3.Sqoop怎么导入到Hbase数据库中?预备知识:启动 HBase清单 1. 修改 hosts 文件清单[root@node1:2 hbase-0.96.1.1-cdh5.0.1]# cat /etc/hosts10.17.139.186 node110.17.139
2016-05-09 17:11:42 760
原创 hbase笔记-----基础
默认情况下hbase会将存储写入本地文件系统,因此,如果要使用hbase集群,首先需要将hbase的存储配置为指向所要使用的hdfs集群一、hbase简单命令start-hbase.sh启动hbasehbase shell启动hbase的外壳程序create 'table' , 'column family' , 'column family' , ...创建表list显示表
2016-05-07 20:09:06 336
原创 hive笔记-----用户定义函数
一、UDF一个udf必须满足下面两个条件:1、必须是org.apache.hadoop.hive.ql.exec.UDF的子类2、必须至少实现了evaluate()方法在编写了UDF之后,需要在调用之前引入这个UDF打成的jar包add jar /path/to/hive-examples.jar还需要为java类取一个别名create temporary func
2016-05-07 15:08:46 319
原创 hive笔记-----查询数据
一、排序和聚集hive中的order by能够预期产生完全排序的结果,但这个排序的过程只是使用一个reduce任务来完成的,这个面对大规模的数据集肯定不可行的因此sort by出现,它可以为每个reduce任务产生一个排序文件distribute by可以控制某个特定行应该到哪个reducer,目的在于进行后续的聚集操作例如from record2select ye
2016-05-05 20:55:04 503
原创 hive笔记-----表
托管表加载数据到托管表时create table managed_table(dummy string);load data inpath '/user/tom/data.txt' into table managed_table;丢弃表,元数据和数据会被一起删掉。最初的load操作是一个移动操作,所以数据会被彻底删除,这就是hive所谓的托管的含义drop table m
2016-05-04 21:40:51 739
原创 hive笔记
一、Hive的配置文件属性设置hive --config /users/tom/dev/hive-conf重新定义hive查找hive-site.xml文件的路径,在配置文件中使用HIVE_CONF_DIR选项指定到相应的路径可以有相同的效果,适用于多个集群之间相互切换hive -hiveconf fs.default.name=localhost -hiveconf mapred
2016-05-04 16:32:41 422
转载 验证自身水平的hadoop面试题
1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571
2016-05-03 21:52:08 364
原创 dashboard中资源释放
针对我们在openstack中创建实例时,有的时候会出现一些状态错误的实例,而直接删除又无法删除,这个时候可以选择去数据库中直接删除。删除数据库时,最开始需要删除的是instance表中相关的记录,如果发现因为外键的原因删除失败,则可根据提示信息找到与之有外键关联的表中信息,先将其删除之后再去删除instance表中的记录,直到最终删除为止。当我们将instance中的实例
2016-03-11 21:43:40 658
原创 Hadoop中的YARN
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。MRv1 的缺陷 MapReduce 的第一个版本既有优点也有缺点。MRv1 是目前使用的
2016-03-08 15:25:19 625
原创 hadoop 集群 加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令
方式1:静态添加datanode,停止namenode方式1.停止namenode 2.修改slaves文件,并更新到各个节点3.启动namenode 4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要) -- 方式2:动态添加datanode,不停namenode方式 1.
2016-03-07 21:06:57 4969
原创 hadoop细节积累
1、hadoop可以运行在3种模式下:单机模式,不存在守护进程,所有的东西都运行在一个jvm上,也没有分布式存储系统,使用的是本地文件系统伪分布式,所有守护进程都运行在同一台机器上完全分布式,hadoop守护进程运行在每台机器上2、hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属
2016-03-07 20:36:33 330
原创 hadoop源码分析环境搭建(win7+cygwin+jdk+ant+eclipse+Hadoop-1.0.0)
jdkanteclipsehadoop-1.0.0这些需要安装或者下载ant下载后将文件夹放在hadoop-1.0.0里面执行ant eclipse当出现E:\Hadoop\hadoop-1.0.0\build.xml:2294: E:\Hadoop\hadoop-1.0.0\.eclipse.templates is not a directory.时,手动创
2016-03-06 11:57:03 821 1
原创 tomcat 预览出现501错误
解决办法:从数据库中用语句exec sys.sp_readerrorlog 0, 1, 'listening'查询数据库端口,把正确端口号填在
2015-07-06 17:03:03 845
转载 Hadoop集群搭建
一. 搭建环境前的准备:我的本机Ubuntu 12.04 32bit作为maser,就是上篇hadoop单机版环境搭建时用的那台机子,还在KVM中虚拟了4台机子,分别起名为:son-1 (ubuntu 12.04 32bit),son-2 (ubuntu 12.04 32bit),son-3 (centOS 6
2015-06-23 20:10:19 539
原创 linux环境下jdk和编译器版本不一致问题
当我们在linux系统下键入java -version和javac -version如果jdk的版本低于编译器的版本,正如我的电脑java -version出现的是1.6,而javac -version出现的是1.7这个问题如果我们确定已经安装了1.7版本的jdk的话,那就是环境变量配置配置的问题我现在的环境变量如下JAVA_HOME=/usr/lib/jvm/java-7-o
2015-06-20 10:34:12 822
原创 Windows下安装hadoop并集成到myeclipse开发环境
具体细节请参看刘胜球的博客:在Windows系统中安装Hadoop链接为http://my.oschina.net/u/570654/blog/112757myeclipse配置Hadoop开发环境链接为http://my.oschina.net/u/570654/blog/112780下面开始讲解本人在安装过程中出现的问题以及解决方法:1、编辑conf/hadoop-env.sh
2015-05-12 19:03:42 1104
原创 Pig安装测试和出现的问题
Pig的安装和配置过程1、从http://pig.apache.org/下载Pig安装包,我下载的是Pig-0.14.02、使用tar -zxvf pig-0.14.0.tar.gz解压到适当的位置,这里推荐放在hadoop的目录下3、接下来需要做的就是配置了,我是在/etc/profile中进行配置的,配置过程中和hadoop进行了关联,这样可以让Pig在分布式存储上进行想要的处理。
2015-05-03 21:08:26 846
转载 hadoop编程实例
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大了,看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊,赶紧保存起来。 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义
2015-04-13 18:45:55 806
转载 MVC新手推荐
大家可以看看这个网站http://www.cnblogs.com/artech/archive/2012/04/10/how-mvc-works.html,
2014-08-10 14:59:18 403
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人