java的一天-CSDN博客

转载 hadoop2.2.0+zookeeper3.4.5+hbase0.96.2+hive0.13.1分布式环境部署

一、hadoop2.2.0、zookeeper3.4.5、hbase0.96.2、hive0.13.1都是什么？　　hadoop2.2.0的介绍以及特性，参考这里：http://blog.yidooo.net/archives/hadoop-2-2-0-new-features.html　　zookeeper的介绍，参考这里：http://baike.baidu.com/view/3061

2014-11-12 17:41:36 2428

转载 HBase体系结构

HBase体系结构HBase的服务器体系结构遵从简单的主从服务器架构，它由HRegion Server群和HBase Master服务器构成。HBase Master负责管理所有的HRegion Server，而HBase中的所有RegionServer都是通过ZooKeeper来协调，并处理HBase服务器运行期间可能遇到的错误。HBase Master Server本身并不存储HBase中

2014-11-12 17:20:10 948

转载学习Zookeeper文章合集（）

分布式助手Zookeeper（一）Zookeeper最早是Hadoop的一个子项目，主要为Hadoop生态系统中一些列组件提供统一的分布式协作服务，在2010年10月升级成Apache Software Foundation(ASF)顶级项目，它主要提供以下的四个功能：功能名组管理服务分布式配置服务分布式同步服务分

2014-11-12 16:42:18 796

转载 solr与hadoop结合

solr4.4支持索引存储到hdfs中下载hadoop2.1.0-beta下载解压solr4.4，hadoop2.1.0-beta 我的solr是运行在tomcat web容器中 solr4.4用的是hadoop2.0.5alpha版本，如果不改成hadoop2.1.0-beta会报很多奇怪的错误。删除solr webapp/WEB-INF/lib中的jar包，用我已

2014-11-12 16:18:31 6010

转载 RDD：基于内存的集群计算容错抽象

RDD：基于内存的集群计算容错抽象该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译，我是基于科学网翻译基础上进行优化、修改、补充，这篇译文翻译得很不错。在此基础上，我增加了来自英文原文的图和表格数据

2014-11-05 16:29:21 681

转载 hadoop2的automatic HA+Federation+Yarn配置的教程

前言 hadoop是分布式系统，运行在linux之上，配置起来相对复杂。对于hadoop1，很多同学就因为不能搭建正确的运行环境，导致学习兴趣锐减。不过，我有免费的学习视频下载，请点击这里。 hadoop2出来后，解决了hadoop1的几个固有缺陷，比如单点故障、资源利用率低、支持作业类型少等问题，结构发生了很大变化，是hadoop未来使用的一个趋势。当然，配

2014-10-30 16:31:46 698

转载 Hadoop2.2.0稳定版整合ZooKeeper(1)

Hadoop2.2.0+HA+zookeeper3.4.5+体系结构+错误处理心血之作，在熟悉hadoop2架构的过程耽误了太长时间，在搭建环境过程遇到一些问题，这些问题一直卡在那儿，不得以解决，耽误了时间。最后，千寻万寻，把问题解决，多谢在过程提供帮助的大侠。这篇文章中，我也会把自己遇到的问题给列出来，帮助后来者进一步的学习。这篇文章结合自己实际测试

2014-10-30 15:21:10 692

转载 ZooKeeper安装过程

一、安装需求安装java 1.6及hadoop 0.20.x二、安装zookeeper1、下载zookeeperwget http://mirror.bit.edu.cn/apache//zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz（本次安装3.4.3版本）其他版本下载地址（最好使用stable

2014-10-30 15:16:40 460

转载 Hadoop2.2.0稳定版整合ZooKeeper(2)

Hadoop2.2.0稳定版整合ZooKeeper与HBase0.96详细教程自己在搭建过程中遇到了一些问题,本文就详细讲解一下最新版的三者怎么整合,方便朋友们参考.环境:RED HAT + JDK1.7+Hadoop2.2+ZooKeeper3.4.5+HBase0.96准备工作:防火墙关闭+SSH免密码通信+Hadoop2.2.0分布式环境正常运行

2014-10-30 15:02:37 733

转载 Hadoop2.2.0集群搭建过程

Hadoop2.2.0安装配置手册！完全分布式Hadoop集群搭建过程1、解压文件由于hadoop集群中每个机器上面的配置基本相同，所以我们先在namenode上面进行配置部署，然后再复制到其他节点。所以这里的安装过程相当于在每台机器上面都要执行。但需要注意的是集群中64位系统和32位系统的问题。将第一部分中下载的hadoop-2.2.tar.gz解压到/h

2014-10-29 15:01:19 597

转载 HTTPCLIENT

apache的httpclient，一个非常强大的网页抓取工具（抓这个字用得可能不太好），　这里和大家一起讨论下httpclient的一些常用用法和要注意的地方。本文引用的资源列表： httpclient入门： http://www.ibm.com/developerworks/cn/opensource/os-httpclient/ httpclient证书

2014-03-06 08:59:21 683

转载 mahout总结

数据过滤：当我们得到了每天产生的数据后，说实在这些数据实在是太多了，我们当然用不到这么多，就要写个过滤模块，把一些我们用不到的数据过滤掉。我一般是这样做的：写个python的脚本，把过滤器放到一个单独的模块，要用的过滤器就到责任链里面注册下。这样别人和自己维护起来也方便点，顺便一说，过滤的东西一般来说有这样几种：一种是一个item只有一个user打过分的，而且以前没有人打分的，这样

2014-01-22 09:35:08 1226

转载 mahout将文本数据转化成向量形式

对于文本信息的向量化，Mahout 已经提供了工具类，它基于 Lucene 给出了对文本信息进行分析，然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式（转化成向量后可以聚类）：1.mahout seqdirectory：将文本文件转成SequenceFile文件，SequenceFile文件是一种二制制存储的key-value键值对，对应的源文件是org.apache.mah

2014-01-17 17:54:44 1262

转载 Mahout的taste里的几种相似度计算方法

欧几里德相似度（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，以两个用户x和y为例子，看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值，yi表示用户y对itemi的喜好值，他们之前的欧几里德距离是对应的欧几里德相似度，一般采用以下公式进行转换：距离越小，相似度越大在taste里，计算user之间和item之前欧几里德相

2014-01-03 17:03:19 1048

转载 mahout中Taste提交job的流程：

Taste提交job的流程： 1. 获得job处理所需要的样本信息；推荐引擎定义的有几种文件格式，有从数据库读取，有从文件系统里读取，我觉得从文件系统里最方便，可能是我现在使用Hadoop的缘故吧。不同的数据来源会由不同的DataModel来进行数据读取。例如文件系统的是FileDataModel，文件系统内的文件格式是 userID ItemID value,中间通过”\t”

2014-01-03 12:01:34 864

转载 mahout基于hadoop的推荐引擎代码分析

mahout的taste框架是协同过滤算法的实现。它支持DataModel，如文件、数据库、NoSQL存储等，也支持hadoop的MapReduce。这里主要分析的基于MR的实现。基于MR的CF实现主要流程就在org.apache.mahout.cf.taste.hadoop.item.RecommenderJob类中（注意mahout有两个RecommendJob，要看清楚是

2014-01-03 10:15:46 1075

转载 hbase-default.xml

该文档是用hbase默认配置文件生成的，文件源是 hbase-default.xml。在实际的HBase生产环境中应用于%HBASE_HOME%/conf/hbase-site.xml中。 hbase.rootdir 这个目录是region server的共享目录，用来持久化HBase。URL需要是'完全正确'的，还要包含文件系统的scheme。例如，要表示hdfs中

2014-01-03 10:13:11 3093

转载 Mahout:Canopy Clustering的Map-Reduce实现

Canopy Clustering的Map-Reduce实现 Canopy Clustering的实现包含单机版和MR两个版本，单机版就不多说了，MR版用了两个map操作和一个reduce操作，当然是通过两个不同的job实现的，map和reduce阶段执行顺序是：CanopyMapper –> CanopyReducer –> ClusterMapper，我想对照下面这幅图来理解

2014-01-03 09:34:42 1330

转载 Mahout源码目录说明

Mahout源码目录说明mahout项目是由多个子项目组成的，各子项目分别位于源码的不同目录下，下面对mahout的组成进行介绍：1、mahout-core：核心程序模块，位于/core目录下；2、mahout-math：在核心程序中使用的一些数据通用计算模块，位于/math目录下；3、mahout-utils：在核心程序中使用的一些通用的工具性模块，位于/util

2014-01-03 08:26:12 617

转载启动hadoop集群时易出现的错误

（一）启动hadoop集群时易出现的错误：1. 错误现象：java.net.NoRouteToHostException: No route to host. 原因：master服务器上的防火墙没有关闭。解决方法: 在master上关闭防火墙: chkconfig iptables off.2. 错误现象：org.

2014-01-03 08:25:58 722

转载 Hadoop家族产品--大纲

目录Hadoop家族产品Hadoop家族学习路线图1. Hadoop家族产品截止到2013年，根据cloudera的统计，Hadoop家族产品已经达到20个！http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/接下来，我把这20个产品，分成

2014-01-02 16:44:20 774

转载 Hadoop编程调用HDFS

目录系统环境ls操作rmr操作mkdir操作copyFromLocal操作cat操作copyToLocal操作创建一个新文件，并写入内容1. 系统环境Hadoop集群环境Linux Ubuntu 64bit Server 12.04.2 LTSJava 1.6.0_29Hadoop 1.1.2如何搭建Hadoop集群环

2014-01-02 16:35:22 967

转载 Mahout分步式程序开发基于物品的协同过滤ItemCF

目录Mahout开发环境介绍Mahout基于Hadoop的分步环境介绍用Mahout实现协同过滤ItemCF模板项目上传github1. Mahout开发环境介绍在用Maven构建Mahout项目文章中，我们已经配置好了基于Maven的Mahout的开发环境，我们将继续完成Mahout的分步式的程序开发。本文的mahout版本为0.8。开发环

2014-01-02 16:03:20 971

原创 java 无重复生成一个范围内的随机数

1 import java.util.ArrayList; 2 import java.util.List; 3 import java.util.Random; 4 5 6 public class RandRange { 7 8 public List get(int start, int end){ 9 int cnt = end - start

2014-01-02 10:23:12 589

转载 Mahout推荐算法API详解

目录Mahout推荐算法介绍算法评判标准：召回率与准确率Recommender.java的API接口测试程序：RecommenderTest.java基于用户的协同过滤算法UserCF基于物品的协同过滤算法ItemCFSlopeOne算法KNN Linear interpolation item–based推荐算法SVD推荐算法Tree Cluste

2014-01-02 10:19:54 743

转载一种HBase的表region切分和rowkey设计方案

场景HBase的region随着大小的不断变大会触发一个阈值，默认为256M，一旦触发那么他就会自动的分裂开来，随着region变多hbase管理起来也越发困难，性能也会明显下降。当然更多的region使得高并发成为可能。一种较好的实践方案就是一方面预切分HBase的region，确定region的个数，保证并发性能，另一方面设置较高的region size分裂阈值，保证region数量不

2014-01-02 10:17:14 2158 1

转载 HBase入库调优

本文章只针对“微型集群处理大数据”的场景。场景描述：硬件：5个节点，每个节点可用硬盘1块（700G、500G等）、8核cpu，实验室环境（有时候还要跑其他程序跟你抢占资源），16G内存。软件：hadoop-0.20.2-cdh3u2，hbase-0.90.4-cdh3u2。业务：sina微博12亿转发微博，700w用户信息。bzip压缩后共150G。要求就是将这些数

2014-01-02 10:14:07 651

转载 Hbase性能优化之配置

减少zk超时时间（建议1分钟）Rs与zk的timeout默认为3分钟，由zookeeper.session.timeout property决定。也就是说，如果一个rs挂了，那么master需要3分钟之后才能对其进行重启和恢复。建议调成1分钟会更低。然而，你调低之前应该先确保JVM的配置合理，保证不会引发较长的gc，JVM配置之后会给出，也可以只这样，只要你超时时间可以忍受gc停顿

2014-01-02 10:12:12 636

转载 Mahout in action 中文版-6.分布式推荐计算

6 分布式推荐计算本章概述：分析维基百科上的一个大数据集利用Hadoop和分布式计算产生推荐结果伪分布式上存在的非分布式推荐本书着眼于持续增长的数据集，从10条到100,000再到1千万再到1.7千万。不过这依然是中等大小的推荐系统所处理的数据。本章依然放手一搏，处理了来自维基百科语料库中的1.3亿条数据，这些数据主要是以文章对文章的连接形式存在的。在这些数

2014-01-02 10:09:51 1105

转载 Mahout in action 中文版-3.推荐器的数据表达

3推荐器的数据表达本章概要：Mahout的推荐数据如何呈现DataModel 的实现和使用布尔型的偏好数据处理推荐结果的好坏取决于数据的数量和质量。“巧妇难为无米之炊”用在这里再合适不过了。数据质量高本身是好事，而且数据量大也是好事。推荐算法天生就是数据密集型的，它们擅长处理大数据。算法运行的性能和数据的质量和呈现形式直接相关。一个好的数据结构可以影

2014-01-02 10:07:54 1047

转载 Mahout in action 中文版-2.推荐器的介绍-2.3~2.6

2.3 评估推荐器推荐器是一个工具，它用来解决“如何为一个用户给出最好的推荐”这样的问题。在得出结果之前，最好先弄清楚问题。究竟怎样才是一个好的推荐结果？我们如何才能得出这样的结果？这一章剩下的部分将停下来探索推荐器的评估，因为这是用来了解特定推荐器的有力工具。最理想的推荐器会像巫师一样某明奇妙的猜到你所喜欢的东西。它可能会知道你有多喜欢一个东西

2014-01-02 10:05:21 742

转载 Mahout in action 中文版-2.推荐器的介绍-2.1~2.2

2 推荐器的介绍本章概要： Mahout中的推荐器推荐器实战一瞥推荐引擎精度与质量评估基于一个真实数据集的测试：GroupLens　　　每天我们都会对一些喜欢的、不喜欢的甚至不关心的事物进行一些评价。这中行为往往是无意识的。你在收音机上听到一首歌，你可能会因为它的美妙或者难听而

2014-01-02 10:03:33 732

转载 hadoop之五

Hadoop集群配置【六、thrift安装】数据环境搞好了，必须考虑如何存取、传输。我们用thrift。Facebook 开发的远程服务调用框架 Apache Thrift，支持 C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa, Smalltalk 。其传输数据采用二进制格式，相对 XML 和 JSON

2014-01-02 10:01:26 472

转载 Hadoop之四

Hadoop集群配置【五、Loz和Hadoop-gpl-compression安装】从Hadoop 0.20.X开始，由于lzo压缩格式GPL形式授权的影响，lzo压缩从hadoop发布包中取消，转而成为Google Code中的一个项目hadoop-gpl-compression 。1.lzo安装./configure -enable-shared --prefix=$H

2014-01-02 09:58:41 510

转载 Hbase之一

Hbase环境部署一、安装准备下载cdh3版本的hbase默认前提已经安装好cdh3版本的hadoopmaster 192.168.2.25 主机名：a1slave1 192.168.2.26 主机名：a2slave2 192.168.2.27 主机名：a3slave3 192.168.2.28 主机名：a4slave4 192.16

2014-01-02 09:57:09 540

转载 hadoop之三

多点部署：参考http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/a) 安装准备所有机器的用户名和$HOME目录配置一致；（用户名、密码、目录结构）所有机器JDK的安装目录为/usr/lib/jvm/java-6-openjdk；每

2014-01-02 09:55:56 516

转载 hadoop之二

a) 单节点集群的安装参考http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/配置ssh（无密码连接到localhost）$ chmod g-w ~/.ssh/authorized_keys【这里尤其注意，你的机器上若没有.ssh目录，那么m

2014-01-02 09:54:55 469

转载 hadoop之一

暂且隐去具体什么项目，需要处理存储海量数据，一次存储多次读取，数据用作建模分析以及检索。本人比较倒霉，部署时基本能遇到的问题都遇到了。。好吧，Hadoop配置的教程基本网上写烂了都，我就当时小记一下，留个纪念。今天头给我五个服务器，让我挑选一台作为master，其他作为slave。原则是：配置好的优先，如果配置相差不大，那么地址最高或者最低的当作master。好，我接到的五

2014-01-02 09:53:01 565

转载 HBase Shell

HBase Shell status:5 servers, 0 dead, 300.6000 average loadversion:0.90.4-cdh3u2, r, Thu Oct 13 20:32:26 PDT 2011list:看看你有啥表建表：create 'TestTable','cf1','cf2','cf3'切分表建表：./b

2014-01-02 09:49:25 557

转载 Mahout笔记--代码分析2

一， Introductionpackage mia.recommender.ch02;//=分析导入包可以看出mahout的包分为主要类以及它们的实现类=import org.apache.mahout.cf.taste.impl.model.file.*;import org.apache.mahout.cf.taste.impl.neighborhood.*;import

2014-01-02 09:28:18 774

mahout_0.8_api

mahout_0.8_api，使用mahout的文档，包含mahout中提供的所有方法，API是0.8版本的！

2013-12-31

安装maven软件后，集成安装maven eclipse插件 1、在eclipse目录下的dropins目录下新建一个maven.link文件，文件名不受限制 2、在maven.link文件中指向maven插件：path=../myplugin/maven3 3、从新启动eclipse，window->首选项，找到maven标签进行设置，选中所有，设置maven路径和setting的路径。 4、导入maven工程

2013-12-31

spring-mahout-demo

spring-mahout-demo-----一个简单的spring-mahout结合的例子，是很好的学习开发思路的例子。

2013-12-27

java反编译工具

jd-gui java反编译反编译学习源码的帮手,java反编译工具，学习jar源码的好工具

2013-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hadoop-eclipse-plugin

mahout_0.8_api

调试mahout的maven3.0+m2e3.0插件

spring-mahout-demo

java反编译工具

空空如也