自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

nuoline的专栏

关注NLP,ML,云计算,大数据,hadoop 我的微博:http://weibo.com/nuoline

  • 博客(263)
  • 资源 (3)
  • 收藏
  • 关注

原创 hadoop streaming/c++编程指南

1.      Hadoopstreaming简介与工作机制   Hadoop streaming可以帮助用户创建和运行一类特殊的Map/Reduce作业,这些特殊的Map/Reduce作业是由一些可执行文件或脚本文件充当Mapper或者reducer。Mapper和reducer都是可执行文件,它们从标准输入读入数据(一行一行读),并把计算结果发给标准输出。Hadoop Stream

2013-02-25 18:43:27 1627 3

原创 hadoop中map和reduce的数量设置问…

map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交m

2013-02-25 18:43:25 1796 2

转载 虚拟机报错:Unable to open…

原文地址:to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作在进行中.">虚拟机报错:Unable to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作在进行中.作者:Jaimie今天启动虚拟机突然出现:Unable to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作

2013-02-25 18:43:23 1541

原创 潜在语义分析Latent semantic…

潜语义分析LSA介绍Latent Semantic Analysis(LSA), also known as Latent Semantic Indexing (LSI) literally meansanalyzing documents to find the underlying meaning or concepts ofthose documents. If each word

2013-02-25 18:43:21 1953

原创 开源的机器翻译系统

本文介绍了统计机器翻译领域中一些重要的开源软件,包括词语对齐工具、语言模型工具、自动评测工具以及四个完整的统计机器翻译系统。1. Egypt   Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块:„ Whittle:语料库预处理模块;„ GIZA:用于从句子对齐的双语语料

2013-02-25 18:43:19 6520

原创 C++标准输入函数

1、cin 2、cin.get() 3、cin.getline() 4、getline() 5、gets() 6、getchar()附:cin.ignore();cin.get()//跳过一个字符,例如不想要的回车,空格等字符1、cin>>         用法1:最基本,也是最常用的用法,输入一个数字:#include  using namespace std; ma

2013-02-25 18:43:17 1104

原创 linux用户权限管理

0.用户1、建用户:adduser nuoline //新建nuoline用户passwd nuoline //给nuoline用户设置密码2、建工作组groupadd test //新建test工作组3、新建用户同时增加工作组useradd -g test nuoline //新建phpq用户并增加到test工作组注::-g 所属组 -d 家目录 -s 所用的SHELL4、给

2013-02-25 18:43:14 23909 1

原创 hadoop参数-hdfs-mapred

hdfs-default.html 序号参数名参数值参数说明1dfs.namenode.logging.levelinfo输出日志类型2dfs.secondary.http.address0.0.0.0:50090备份名称节点的http协议访问地址与端口3dfs.da

2013-02-25 18:43:12 987

原创 hadoop参数-core-site.xml

三个缺省配置参考文件说明core-default.html 序号参数名参数值参数说明1hadoop.tmp.dir/tmp/hadoop-${user.name}临时目录设定2hadoop.native.libtrue使用本地hadoop库标识。3hadoop.h

2013-02-25 18:43:10 4375

原创 hadoop端口

HDFS端口 参数描述默认配置文件例子值fs.default.namenamenodenamenodeRPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.addressNameNodeweb管理端口50070hdf

2013-02-25 18:43:08 940

原创 配置hadoop 使用fair sc…

配置步骤为1.将$HADOOP_HOME/contrib/fairscheduler/hadoop-fairscheduler-0.20.2-cdh3u5.jar拷贝到$HADOOP_HOME/lib文件夹中2. 修改$HADOOP_HOME/conf/mapred-site.xml配置文件  property>name>mapred.jobtracker.taskS

2013-02-25 18:43:06 900

原创 Hadoop 权限管理

hadoop权限管理分为:用户分组管理 和 作业管理1.用户分组管理:hadoop通过组管理用户的行为,一个组可以是一个pool(一个用户也可以定义一个pool),一个pool会被指定一组调度算法,以优化作业的执行效率。2.作业管理:hadoop 通过hadoop-policy.xml中定义的9个属性来限制作业的执行,比如哪些用户和组可以提交job、哪些可以访问HDFS等。几个概念:

2013-02-25 18:43:03 769

原创 微博求粉丝http://weibo.com/nuoli…

http://weibo.com/nuoline

2013-02-25 18:43:01 1114

原创 SSTable和日志结构化存储:LevelDB…

如果说Protocol Buffer是谷歌独立数据记录的通用语言,那么有序字符串表(SSTable,Sorted StringTable)则是用于存储,处理和数据集交换的最流行​​的数据输出格式。正如它的名字本身,SSTable是有效存储大量键-值对的简单抽象,对高吞吐量顺序读/写进行了优化。不幸的是,SSTable名称本身被业界重载,指代的内容远远超出有序表的概念,这可能与简单有效数据结

2013-02-25 18:42:59 1098

原创 mysql相关命令

1. 登陆如果使用自定义的lock文件,配置的lock文件路径为/application/search/Mysql/mysql/mysql.sock,则命令如下:   bin/mysql-u username -p -S/application/search/Mysql/mysql/mysql.sock2. 导出sql脚本mysqldump YourDatabaseName --us

2013-02-25 18:42:57 601

原创 Hive Meta Table

一,主要数据表介绍1,TBLS:记录和存储hive table的创建时间,名称,类型等信息。FieldTypeNullKeyDefaultTBL_IDbigint(20)NOPRINULLCREATE_TIMEint(11)NONULLDB_IDbigint(20)YES

2013-02-25 18:42:54 995

原创 hive之SerDe概述

1.概述   当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。Hive的反序列化是对key/value反序列化成hivetable的每个列的值。Hive可以方便的将数据加载到表中而不需要对数据进行转换,这样在处理海量

2013-02-25 18:42:52 888

原创 PIG之参数传递

在写pig脚本时往往需要外部参数传入,在pig脚本中也是可以类似与一般的shell实现的。例如有一个求top-N的简单脚本,需要传入输入路径和N值:-- topn.pig --A = LOAD '$input' USING PigStorage('\t') AS (url, count);top = ORDER A BY count DESC;topn = LIMIT top $n;D

2013-02-25 18:42:50 2063

原创 hive结果导出

在hive中执行select语句,往往需要将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。1.将select的结果放到一个的的表格中 insert overwrite table test select uid,name from test2;2.将select的结果放到本地文件系统中 INSERT O

2013-02-25 18:42:47 1001

原创 hive之脚本执行

Hive是基于Hadoop的数据仓库,可以将结构化的数据文件hive映射为一张数据库表,并提供几乎完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。   Hive目前还不支持像Mysql那样的sql脚本,如果遇到需要批量处理HQL就相对麻烦,但是可以使用比较笨的shell脚本执行批量HQL命令,原理很简单,在shell脚本中用echo命令将HQL命令以字符串的形式导

2013-02-25 18:42:45 7452

原创 hadoop Streaming之aggregate

1. aggregate简介aggregate是Hadoop提供的一个软件包,其用来做一些通用的计算和聚合。Generally speaking, in order to implement an application usingMap/Reduce model, the developer needs to implement Map and Reducefunctions (and

2013-02-25 18:42:43 659

原创 我的博客今天2岁354天了,我领取了…

我的博客今天2岁354天了,我领取了徽章.  2009.10.21,我在新浪博客安家。2009.11.01,我写下了第一篇博文:《开源云计算平台简介》。2011.07.24,我上传了第一张图片到相册。至今,我的博客共获得44,912次访问。这些年,新浪博客伴我点点滴滴谱写生活!

2013-02-25 18:42:40 531

原创 hbase的预分配region

在create一个表时如果不指定预分配region,则默认会先分配一个region,这样在大数据并行载入时性能比较低,因为所有的数据都往一个region灌入,容易引起单节点负载升高,从而影响入库性能,一个好的方法时在建立表时预先分配数个region。方法有两种,主要针对不同版本可供选择。1.使用RegionSplitter方法,主要针对hbase-0.90.X版本a.首先使用RegionSp

2013-02-25 18:42:38 6167 1

原创 hbase中的Bloomfilter-转

1.Bloomfilter在HBase中的作用?HBase利用Bloomfilter来提高随机读(Get)的性能,对于顺序读(Scan)而言,设置Bloomfilter是没有作用的(0.92以后,如果设置了bloomfilter为ROWCOL,对于指定了qualifier的Scan有一定的优化,但不是那种直接过滤文件,排除在查找范围的形式)2.Bloomfilter在HBase中的开销?

2013-02-25 18:42:36 780

原创 hadoop-hbase管理

1.处理hadoop的datanode宕机进入到hadoop的bin目录./hadoop-daemon.sh start datanode./hadoop-daemon.sh start tasktracker2.处理hadoop的namenode宕机./hadoop-daemon.sh start namenode./hadoop-daemon.sh start tasktracke

2013-02-25 18:42:34 507

原创 hadoop的eclipse插件编译

1.构建基本编译环境首先需要安装java,ant,maven环境,并配置环境变量,具体安装方式不再详解。2.修改配置这里以cdh3u5的hadoop版本为例,eclipse使用SDK-4.2。进入$HADOOP_HOME\src\contrib\目录下  编辑build-contrib.xml  加入    //设置你的eclipse的家目录3.编译首先进入hadoop的家目录

2013-02-25 18:42:32 519

原创 通过mapreduce向Hbase写数据

1.import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;i

2013-02-25 18:42:30 1154

原创 Hbase几种数据入库方式比较

1. 预先生成HFile入库这个地址有详细的说明http://blog.csdn.net/dajuezhao/archive/2011/04/26/6365053.aspx2. 通过MapReduce入库import java.io.IOException;import org.apache.commons.logging.Log;import org.apache.commons.l

2013-02-25 18:42:28 2425

原创 HBase数据库性能调优

因官方BookPerformanceTuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化  zookeeper.session.timeout  默认值:3分钟(180000ms)  说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer

2013-02-25 18:42:25 518

原创 hbase API简介

1.HBase是Hadoop的数据库,能够对大数据提供随机、实时读写访问。他是开源的,分布式的,多版本的,面向列的,存储模型。HBaseMaster是服务器负责管理所有的HRegion服务器,HBaseMaster并不存储HBase服务器的任何数据,HBase逻辑上的表可能会划分为多个HRegion,然后存储在HRegionServer群中,HBase Master Server中存储的是从

2013-02-25 18:42:23 551

原创 Java操作Hbase插入查询删除-转

首先需要新建JAVA项目,添加的包有:有关Hadoop的hadoop-core-0.20.204.0.jar,有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包代码如下:import java.io.IOException;import java.util.ArrayList;import ja

2013-02-25 18:42:21 584

原创 hbase DEMO

importorg.apache.Hadoop.conf.Configuration;  importorg.apache.hadoop.hbase.HBaseConfiguration;  importorg.apache.hadoop.hbase.HColumnDescriptor;  importorg.apache.hadoop.hbase.HTableDescript

2013-02-25 18:42:19 480

原创 hbase基准测试

1.环境配置a.配置$HADOOP_HOME下的conf/hadoop-env.sh文件,修改其中的HADOOP_CLASSPATH为如下exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:/$HBASE_HOME/hbase-0.90.6.jar:/$HBASE_HOME/hbase-0.90.6-tests.jar:/$HBASE_HOME/conf:

2013-02-25 18:42:17 2371 1

原创 HBase性能参数调优

配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:这个t

2013-02-25 18:42:15 695 1

原创 php写mapreduce程序示例

用PHP写hadoop的mapreduce程序Hadoop本身是Java写的,所以,给hadoop写mapreduce,人们会自然地想到java但hadoop里面有个contrib叫做hadoopstreaming,这是一个小工具,为hadoop提供streaming支持,使得任何支持标准IO (stdin,stdout)的可执行程序都能成为hadoop的mapper 或者 reducer

2013-02-25 18:42:13 3981

原创 hadoop streaming的单词统计C++版

Hadoop的Streaming框架允许任何程序语言实现的可执行程序或者脚本在HadoopMapReduce中使用,方便已有程序向Hadoop平台移植。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduceJava接口获取key/value对输入,创建一个新的进程启动包装的用户程序,将数据通过管道传递给包装的用户程序处理,然后调用Ma

2013-02-25 18:42:11 575

原创 语料库资源-持续更新

http://kdd.ics.uci.edu/databases/

2013-02-25 18:42:08 966

原创 Hadoop常见错误

(一)启动hadoop集群时易出现的错误: 1.   错误现象:java.net.NoRouteToHostException:No route tohost.  原因:master服务器上的防火墙没有关闭。  解决方法: 在master上关闭防火墙:chkconfig iptablesoff. 2.    错

2013-02-25 18:42:06 455

原创 我的博客今天2岁319天了,我领取了…

我的博客今天2岁319天了,我领取了徽章.  2009.10.21,我在新浪博客安家。2009.11.01,我写下了第一篇博文:《开源云计算平台简介》。2011.07.24,我上传了第一张图片到相册。至今,我的博客共获得42,811次访问。这些年,新浪博客伴我点点滴滴谱写生活!

2013-02-25 18:42:04 409

原创 hadoop常见配置含义

其中红色的配置为必须配置参数 参数取值备注fs.default.nameNameNode 的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要,用这个文件控制许可的datanode列表。dfs.replication默认: 3数据复制的分数dfs.name.dir举

2013-02-25 18:42:02 782

源云计算平台比较-翟周伟-马娟

对目前的几款主流的云计算平台作了比较研究,以小论文形式描述。

2012-03-10

源云计算相关软件介绍.

详细描述了目前常用的主流云计算平台,并对此作了比较细致的比较。

2012-03-10

搜索引擎中的Crawlings技术PPT

详细介绍了搜索引擎技术以及Crawlings技术

2012-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除