nuoline-CSDN博客

原创 hadoop streaming/c++编程指南

1. Hadoopstreaming简介与工作机制 Hadoop streaming可以帮助用户创建和运行一类特殊的Map/Reduce作业，这些特殊的Map/Reduce作业是由一些可执行文件或脚本文件充当Mapper或者reducer。Mapper和reducer都是可执行文件，它们从标准输入读入数据（一行一行读），并把计算结果发给标准输出。Hadoop Stream

2013-02-25 18:43:27 1627 3

map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交m

2013-02-25 18:43:25 1796 2

转载虚拟机报错：Unable to open…

原文地址：to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作在进行中.">虚拟机报错：Unable to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作在进行中.作者：Jaimie今天启动虚拟机突然出现：Unable to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作

2013-02-25 18:43:23 1541

原创潜在语义分析Latent semantic…

潜语义分析LSA介绍Latent Semantic Analysis(LSA), also known as Latent Semantic Indexing (LSI) literally meansanalyzing documents to find the underlying meaning or concepts ofthose documents. If each word

2013-02-25 18:43:21 1953

原创开源的机器翻译系统

本文介绍了统计机器翻译领域中一些重要的开源软件，包括词语对齐工具、语言模型工具、自动评测工具以及四个完整的统计机器翻译系统。1. Egypt Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上，由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块： Whittle：语料库预处理模块； GIZA：用于从句子对齐的双语语料

2013-02-25 18:43:19 6520

原创 C++标准输入函数

1、cin 2、cin.get() 3、cin.getline() 4、getline() 5、gets() 6、getchar()附:cin.ignore();cin.get()//跳过一个字符,例如不想要的回车,空格等字符1、cin>> 用法1：最基本，也是最常用的用法，输入一个数字：#include using namespace std; ma

2013-02-25 18:43:17 1104

原创 linux用户权限管理

0.用户1、建用户：adduser nuoline //新建nuoline用户passwd nuoline //给nuoline用户设置密码2、建工作组groupadd test //新建test工作组3、新建用户同时增加工作组useradd -g test nuoline //新建phpq用户并增加到test工作组注：：-g 所属组 -d 家目录 -s 所用的SHELL4、给

2013-02-25 18:43:14 23909 1

原创 hadoop参数-hdfs-mapred

hdfs-default.html 序号参数名参数值参数说明1dfs.namenode.logging.levelinfo输出日志类型2dfs.secondary.http.address0.0.0.0:50090备份名称节点的http协议访问地址与端口3dfs.da

2013-02-25 18:43:12 987

原创 hadoop参数-core-site.xml

三个缺省配置参考文件说明core-default.html 序号参数名参数值参数说明1hadoop.tmp.dir/tmp/hadoop-${user.name}临时目录设定2hadoop.native.libtrue使用本地hadoop库标识。3hadoop.h

2013-02-25 18:43:10 4375

原创 hadoop端口

HDFS端口参数描述默认配置文件例子值fs.default.namenamenodenamenodeRPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.addressNameNodeweb管理端口50070hdf

2013-02-25 18:43:08 940

原创配置hadoop 使用fair sc…

配置步骤为1.将$HADOOP_HOME/contrib/fairscheduler/hadoop-fairscheduler-0.20.2-cdh3u5.jar拷贝到$HADOOP_HOME/lib文件夹中2. 修改$HADOOP_HOME/conf/mapred-site.xml配置文件 property>name>mapred.jobtracker.taskS

2013-02-25 18:43:06 900

原创 Hadoop 权限管理

hadoop权限管理分为：用户分组管理和作业管理1.用户分组管理：hadoop通过组管理用户的行为，一个组可以是一个pool（一个用户也可以定义一个pool），一个pool会被指定一组调度算法，以优化作业的执行效率。2.作业管理：hadoop 通过hadoop-policy.xml中定义的9个属性来限制作业的执行，比如哪些用户和组可以提交job、哪些可以访问HDFS等。几个概念：

2013-02-25 18:43:03 769

原创微博求粉丝http://weibo.com/nuoli…

http://weibo.com/nuoline

2013-02-25 18:43:01 1114

原创 SSTable和日志结构化存储：LevelDB…

如果说Protocol Buffer是谷歌独立数据记录的通用语言，那么有序字符串表（SSTable，Sorted StringTable）则是用于存储，处理和数据集交换的最流行的数据输出格式。正如它的名字本身，SSTable是有效存储大量键-值对的简单抽象，对高吞吐量顺序读/写进行了优化。不幸的是，SSTable名称本身被业界重载，指代的内容远远超出有序表的概念，这可能与简单有效数据结

2013-02-25 18:42:59 1098

原创 mysql相关命令

1. 登陆如果使用自定义的lock文件，配置的lock文件路径为/application/search/Mysql/mysql/mysql.sock，则命令如下： bin/mysql-u username -p -S/application/search/Mysql/mysql/mysql.sock2. 导出sql脚本mysqldump YourDatabaseName --us

2013-02-25 18:42:57 601

原创 Hive Meta Table

一，主要数据表介绍1，TBLS：记录和存储hive table的创建时间，名称，类型等信息。FieldTypeNullKeyDefaultTBL_IDbigint(20)NOPRINULLCREATE_TIMEint(11)NONULLDB_IDbigint(20)YES

2013-02-25 18:42:54 995

原创 hive之SerDe概述

1.概述当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；接收方则需要把字节序列恢复为对象，称为对象的反序列化。Hive的反序列化是对key/value反序列化成hivetable的每个列的值。Hive可以方便的将数据加载到表中而不需要对数据进行转换，这样在处理海量

2013-02-25 18:42:52 888

原创 PIG之参数传递

在写pig脚本时往往需要外部参数传入，在pig脚本中也是可以类似与一般的shell实现的。例如有一个求top-N的简单脚本，需要传入输入路径和N值:-- topn.pig --A = LOAD '$input' USING PigStorage('\t') AS (url, count);top = ORDER A BY count DESC;topn = LIMIT top $n;D

2013-02-25 18:42:50 2063

原创 hive结果导出

在hive中执行select语句，往往需要将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中，hive提供了方便的关键词，来实现上面所述的功能。1.将select的结果放到一个的的表格中 insert overwrite table test select uid,name from test2;2.将select的结果放到本地文件系统中 INSERT O

2013-02-25 18:42:47 1001

原创 hive之脚本执行

Hive是基于Hadoop的数据仓库，可以将结构化的数据文件hive映射为一张数据库表，并提供几乎完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 Hive目前还不支持像Mysql那样的sql脚本，如果遇到需要批量处理HQL就相对麻烦，但是可以使用比较笨的shell脚本执行批量HQL命令，原理很简单，在shell脚本中用echo命令将HQL命令以字符串的形式导

2013-02-25 18:42:45 7452

原创 hadoop Streaming之aggregate

1. aggregate简介aggregate是Hadoop提供的一个软件包，其用来做一些通用的计算和聚合。Generally speaking, in order to implement an application usingMap/Reduce model, the developer needs to implement Map and Reducefunctions (and

2013-02-25 18:42:43 659

原创我的博客今天2岁354天了，我领取了…

我的博客今天2岁354天了，我领取了徽章. 2009.10.21，我在新浪博客安家。2009.11.01，我写下了第一篇博文：《开源云计算平台简介》。2011.07.24，我上传了第一张图片到相册。至今，我的博客共获得44,912次访问。这些年，新浪博客伴我点点滴滴谱写生活！

2013-02-25 18:42:40 531

原创 hbase的预分配region

在create一个表时如果不指定预分配region，则默认会先分配一个region，这样在大数据并行载入时性能比较低，因为所有的数据都往一个region灌入，容易引起单节点负载升高，从而影响入库性能，一个好的方法时在建立表时预先分配数个region。方法有两种，主要针对不同版本可供选择。1.使用RegionSplitter方法，主要针对hbase-0.90.X版本a.首先使用RegionSp

2013-02-25 18:42:38 6167 1

原创 hbase中的Bloomfilter-转

1.Bloomfilter在HBase中的作用？HBase利用Bloomfilter来提高随机读（Get）的性能，对于顺序读（Scan）而言，设置Bloomfilter是没有作用的（0.92以后，如果设置了bloomfilter为ROWCOL，对于指定了qualifier的Scan有一定的优化，但不是那种直接过滤文件，排除在查找范围的形式）2.Bloomfilter在HBase中的开销？

2013-02-25 18:42:36 780

原创 hadoop-hbase管理

1.处理hadoop的datanode宕机进入到hadoop的bin目录./hadoop-daemon.sh start datanode./hadoop-daemon.sh start tasktracker2.处理hadoop的namenode宕机./hadoop-daemon.sh start namenode./hadoop-daemon.sh start tasktracke

2013-02-25 18:42:34 507

原创 hadoop的eclipse插件编译

1.构建基本编译环境首先需要安装java，ant,maven环境，并配置环境变量，具体安装方式不再详解。2.修改配置这里以cdh3u5的hadoop版本为例，eclipse使用SDK-4.2。进入$HADOOP_HOME\src\contrib\目录下编辑build-contrib.xml 加入 //设置你的eclipse的家目录3.编译首先进入hadoop的家目录

2013-02-25 18:42:32 519

原创通过mapreduce向Hbase写数据

1.import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;i

2013-02-25 18:42:30 1154

原创 Hbase几种数据入库方式比较

1. 预先生成HFile入库这个地址有详细的说明http://blog.csdn.net/dajuezhao/archive/2011/04/26/6365053.aspx2. 通过MapReduce入库import java.io.IOException;import org.apache.commons.logging.Log;import org.apache.commons.l

2013-02-25 18:42:28 2425

原创 HBase数据库性能调优

因官方BookPerformanceTuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化　　zookeeper.session.timeout　　默认值：3分钟(180000ms)　　说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer

2013-02-25 18:42:25 518

原创 hbase API简介

1.HBase是Hadoop的数据库，能够对大数据提供随机、实时读写访问。他是开源的，分布式的，多版本的，面向列的，存储模型。HBaseMaster是服务器负责管理所有的HRegion服务器，HBaseMaster并不存储HBase服务器的任何数据，HBase逻辑上的表可能会划分为多个HRegion，然后存储在HRegionServer群中，HBase Master Server中存储的是从

2013-02-25 18:42:23 551

原创 Java操作Hbase插入查询删除-转

首先需要新建JAVA项目，添加的包有:有关Hadoop的hadoop-core-0.20.204.0.jar，有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包代码如下：import java.io.IOException;import java.util.ArrayList;import ja

2013-02-25 18:42:21 584

原创 hbase DEMO

importorg.apache.Hadoop.conf.Configuration; importorg.apache.hadoop.hbase.HBaseConfiguration; importorg.apache.hadoop.hbase.HColumnDescriptor; importorg.apache.hadoop.hbase.HTableDescript

2013-02-25 18:42:19 480

原创 hbase基准测试

1.环境配置a.配置$HADOOP_HOME下的conf/hadoop-env.sh文件，修改其中的HADOOP_CLASSPATH为如下exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:/$HBASE_HOME/hbase-0.90.6.jar:/$HBASE_HOME/hbase-0.90.6-tests.jar:/$HBASE_HOME/conf:

2013-02-25 18:42:17 2371 1

原创 HBase性能参数调优

配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regions重新balance，让其他存活的RegionServer接管.调优：这个t

2013-02-25 18:42:15 695 1

原创 php写mapreduce程序示例

用PHP写hadoop的mapreduce程序Hadoop本身是Java写的，所以，给hadoop写mapreduce，人们会自然地想到java但hadoop里面有个contrib叫做hadoopstreaming，这是一个小工具，为hadoop提供streaming支持，使得任何支持标准IO (stdin,stdout)的可执行程序都能成为hadoop的mapper 或者 reducer

2013-02-25 18:42:13 3981

原创 hadoop streaming的单词统计C++版

Hadoop的Streaming框架允许任何程序语言实现的可执行程序或者脚本在HadoopMapReduce中使用，方便已有程序向Hadoop平台移植。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序，该程序负责调用MapReduceJava接口获取key/value对输入，创建一个新的进程启动包装的用户程序，将数据通过管道传递给包装的用户程序处理，然后调用Ma

2013-02-25 18:42:11 575

原创语料库资源-持续更新

http://kdd.ics.uci.edu/databases/

2013-02-25 18:42:08 966

原创 Hadoop常见错误

（一）启动hadoop集群时易出现的错误： 1. 错误现象：java.net.NoRouteToHostException:No route tohost. 原因：master服务器上的防火墙没有关闭。解决方法: 在master上关闭防火墙:chkconfig iptablesoff. 2. 错

2013-02-25 18:42:06 455

原创我的博客今天2岁319天了，我领取了…

我的博客今天2岁319天了，我领取了徽章. 2009.10.21，我在新浪博客安家。2009.11.01，我写下了第一篇博文：《开源云计算平台简介》。2011.07.24，我上传了第一张图片到相册。至今，我的博客共获得42,811次访问。这些年，新浪博客伴我点点滴滴谱写生活！

2013-02-25 18:42:04 409

原创 hadoop常见配置含义

其中红色的配置为必须配置参数参数取值备注fs.default.nameNameNode 的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要，用这个文件控制许可的datanode列表。dfs.replication默认： 3数据复制的分数dfs.name.dir举

2013-02-25 18:42:02 782

源云计算平台比较-翟周伟-马娟

源云计算相关软件介绍.

搜索引擎中的Crawlings技术PPT

空空如也