自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(51)
  • 资源 (7)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hadnoop权威指南 第2章 关于MapReduce 一个Python版本的小例子

Hadoop Streaming使用UNIX标准流作为Hadoop和应用程序之间的接口,因此任何语言都可以通过标准的输入/输出写MapReduce程序。后面会在程序的注释中说明数据是如何在Map和Reduce任务中流动的。本文给出一个Python的Hadoop Streaming例子,从程序的角度讲述原始数据如何流过map和reduce任务。

2016-09-06 10:37:25 253

原创 文章标题

一号标题二号标题三号标题斜体 斜体 粗体 粗体 粗斜体 应用 嵌套引用 删除 链接blog: http://www.baidu.com 百度链接使用方式 百度var a这是一段代码p{text-indent:2em;}无序列表 - 1 - 2 - 3 2. 5. 7.

2016-09-08 12:46:04 160

原创 使用词向量分析关键字语义的相似度 Python版本

实验目的:以《兽血沸腾.txt》的每一行为一篇文档,得到对应关键词的词向量,计算其中部分关键词的相似度。主要是熟悉词向量的使用场景。背景知识介绍什么是词向量?词向量是自然语言理解中一种语言模型的副产品。所谓语言模型,其实就是将人类识别的

2016-09-08 11:38:17 2391

原创 Hadoop Streaming + python + avro + Mapreduce例子

通过Hadoop Streaming + Python统计分析某个人喜欢的最大数字AVRO是一个编程语言无关的序列化规范。主要特点是:1. 模式与数据都保存在文件中,一般模式以JSON格式保存,数据保存为二进制格式;2. 由于保存了模式,因此无需对每个数据进行标识,减少了保存数据的空间;3. 由于数据是自描述的,因此数据可以进行压缩/拆分,非常适合分布式环境中使用;4. 由于数据是自描述的,非常方便对模式进行扩展;5. 由于数据是自描述的,不需要强制生成代码

2016-09-06 23:17:57 413

原创 YUM yum无法使用或者使用出错总结

yum问题可能帮助到大家的是网速慢导致的问题,更换国内的163yum源后问题解决。

2014-07-09 15:46:22 1136

转载 YARN Architecture Yarn架构 原理

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.htmlApache Hadoop NextGen MapReduce (YARN)MapReduce在hadoop-0.23版本中进行了全面修改,修改后我们称为MapReduce2.0(MRv2)或者YARN。MRv2的基本思想是将JobTr

2014-02-08 16:54:24 808

翻译 HDFS Permissions Guide

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsPermissionsGuide.htmlHDFS实现了一个类似于POSIX的目录和文件权限模型。每个文件和目录属于一个所有者或者一个组。文件和目录对于所有者、组和其他用户分别有对应的权限。对于文件,r表示读权限,w表示写权限。对于目录,r

2014-01-26 13:58:42 439

翻译 HDFS High Availability Using NFS (HDFS单点故障 NFS)

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/HDFSHighAvailabilityWithNFS.html为保证standby和active节点之间状态的同步,NFS要求两个节点访问一个共享存储设备的目录。当命名空间发生任何改变时,active节点将修改日志写入共享目录。standby节点监控共享目

2014-01-26 13:57:14 736

翻译 HDFS High Availability Using the Quorum Journal Manager (HDFS单点故障 QJM)

http://www.tuicool.com/articles/6rqYVrhttp://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/HDFSHighAvailabilityWithQJM.htmlHDFS High Availability Using the Quorum Journal Manager

2014-01-26 13:55:42 1309

转载 HDFS Federation

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/Federation.htmlHDFS Federation是Hadoop最新发布版本Hadoop-0.23.0中为解决HDFS单点故障而提出的namenode水平扩展方案。该方案允许 HDFS创建多个namespace以提高集群的扩展性和隔离性。

2014-01-26 13:54:35 706

翻译 HDFS UserGuide (HDFS用户手册)

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.htmlPurpose本文档可作为使用HDFS的初期阅读资料,无论HDFS是作为Hadoop集群的一部分或者是一个独立运行的分布式文件系统。HDFS被设计用于很多环境中,对HDFS工作的知识有助于针对特定集群的诊断和改进。

2014-01-26 13:51:15 920

翻译 HDFS Architecture

翻译了Apache官网关于HDFS架构的内容,发现了自己之前认识的很多误区,也更加深入了解了HDFS设计的思想。翻译是一个学习的过程,真心感觉还是原文看起来舒服。

2014-01-23 09:23:47 920

转载 Java获取CPU利用率(Linux版本和Windows版本)

Linux版本:http://www.iteye.com/problems/19143Windows版本:http://kakaluyi.iteye.com/blog/211492Java获取CPU利用率主要通过运行所在环境的命令,然后解析得到的信息,从而获得CPU利用率,特汇总Linux版本和Windows版本如下。Linux:Linux系统中可以用top命令查看进程

2014-01-07 10:26:45 765

转载 pig-0.10.0重新编译后支持hadoop 23

转自:http://taoo.iteye.com/blog/1679325pig-0.10.0版本是支持hadoop 23的。但是需要重新编译pig;编译命令如下:Shell代码  ant -Dhadoopversion=23  编译好之后,把原来的pig的jar包删了就行。当然了,hadoop的几个环境变量还是要配置的:HADO

2014-01-02 16:49:54 972

转载 pig-0.10.0重新编译后支持hadoop 23

pig-0.10.0版本是支持hadoop 23的。但是需要重新编译pig;编译命令如下:Shell代码  ant -Dhadoopversion=23  编译好之后,把原来的pig的jar包删了就行。当然了,hadoop的几个环境变量还是要配置的:HADOOP_HOME参考资料:http://hortonworks.com/blog

2014-01-02 16:49:17 135

原创 Linux Shell基础知识17 数组

17 数组创建数组arr=(1 2 3 4 5)得到数组长度:${#arr[@]}得到全部数组元素(以字符串形式):${arr[*]}得到第一个元素:$arr 或者${arr[0]}得到第i个元素:${arr[i-1]},数组从0开始赋值:arr[i]=20删除整个数组:unset arr删除某个数组元素:unset a[i]分片:arr2=${arr[

2013-12-30 14:12:39 519

原创 Linux Shell基础知识16 数值、字符串、文件比较、空判断

16.1、数值比较-eq-ne-gt-lt-ge-le16.2、字符串比较=!=>-n 长度是否大于0-z 长度是否为016.3、文件比较-d 是否存在且是一个目录-e 是否存在-f 存在且是文件-r 存在且是可读文件-s 存在且不为空-w 存在且可写-x 存在且可执行-O 存在且被当前用户拥有-G 存在且

2013-12-12 16:31:27 579

原创 Linux Shell基础知识15 数学计算

14.1、数学计算14.1.1 方式1  exprexpr对于*支持不好,在使用时必须进行转义。expr $a \* $b 14.1.2 方式2 使用括号格式: $[ expression ]在Bash shell的数学操作只支持证书算法。 14.2 浮点数运算14.2.1 方式1 bcbc expression在脚本中使用bcvar=`ec

2013-12-12 16:19:36 530

原创 Linux Shell基础知识14 awk程序

14.1 awk程序awk提供了一种编程语言,使用该语言可以:定义要保存数据的变量使用算术和字符串操作符对数据进行运算使用结构化编程概念通过抽取数据和按顺序或格式重定位,生成带格式的报告14.2 awk命令awk options program file选项描述-F fs指定描述一行中数据字段的文件分隔符-f file

2013-12-09 17:40:38 429

转载 Linux 设置VGA模式

转自:http://bbs.csdn.net/topics/300264455在/boot/grub/menu.lst中,找到kernel开头的那一行,在后面加上参数vga=791 下面是vga可以取的值#     +-------------------------------------------------+#          | 640x480    800x600

2013-12-09 17:32:44 975

原创 Linux Shell基础知识13 sed编辑器

13.1 sed编辑器sed编辑器是一种流编辑器,每次从输入读取一行数据,将该数据与所提供的编辑器命令进行匹配,根据命令修改数据并输出到STDOUT。,重复上述过程,直到处理完全部数据。从上述过程可知,sed只读取数据流一次,因而比交互式编辑器快得多。13.2 sed使用13.2.1 格式sed options script file,其中options表示命令选项,script表

2013-12-09 17:23:16 431

转载 Linux Shell基础知识12 正则表达式

12.1、 正则表达式规则(1)大小写敏感(2)需要转义的字符: .,表示任意一个字符* ,表示任意个字符;在某个字符后表示该字符出现0次1次或者多次;[ ] ,[abc]d表示ad/bd/cd中的一个;[^abc]表示除abc外的任意字符;[0-9]表示范围;[a-ch-m]表示非连续范围特殊字符类类描述[[:alpha:]]

2013-12-03 10:26:48 639

原创 Linux Shelll基础知识11 函数基础

11.1、函数创建11.1.1 方式1function name{commands},其中function为关键字,name为函数名,commands为函数体。11.1.2 方式2name(){commands},其中name为函数名,()表明是在定义函数,commands为函数体。11.2、函数使用funName para1 para2...,其中funName是函数名,

2013-12-02 14:50:13 511

原创 Linux Shell 基础知识10 信号处理

10.1、Linux信号10.1.1 信号介绍默认情况下,bash shell 会忽略它接收到的任何SIGQUIT(3)和SIGTERM(15)信号,以防止交互的shell意外终止,但是bash shell处理它收到的任何SIGHUP(1)和SIGINT(2)信号。如果收到SIGHUP信号,bash shell会退出,并在退出前,向自身所启动的任意进程发送SIGHUP信号。

2013-11-29 17:01:25 861

原创 Linux Shell基础知识9 输入输出

9.1 文件描述符Linux系统将每个对象当做文件处理,并使用文件描述符标识每个文件对象。文件描述符是一个非负整数,从0-8,每个进程最多9个打开文件描述符。其中0表示标准输入默认键盘,1表示标准输出默认显示器,2表示标准错误输出默认显示器。9.2 标准输入输出重定向9.2.1 标准输入重定向0 9.2.2 标准输出重定向1 > filename9.2.3 标准错误

2013-11-25 10:34:27 506

转载 Top 10 Books For Advanced Level Java Developers

转自:http://www.programcreek.com/2013/08/top-books-for-advanced-level-java-developers/Java is one of the most popular programming language nowadays. There are plenty of books for beginners. But to

2013-11-02 17:03:41 795

原创 Linux Shell基础知识8 用户输入

15、处理用户输入

2013-08-28 11:46:43 516

原创 Linux Shell基础知识7 循环语句

14、循环语句14.1、for命令格式:for 变量名 in 变量列表或者变量或者命令dodone格式1:变量列表for param in a b c d格式2:变量list="a b c d"for param in $list格式3:命令for param in `cat file`14.2、字段分隔符一般情况下,bash she

2013-08-28 10:56:28 636

原创 Linux Shell基础知识6 结构化语句

13、结构化语句13.1 if then语句格式1:if 命令thenfiif行中如果命令返回的退出状态为0,则执行then中的所有命令,否则就会跳过这些命令。格式2:if 命令 ; thenfi13.2、if then else语句if 命令thenelsefi13.3、嵌套if语句if 命令thenel

2013-08-28 10:18:14 471

原创 Linux Shell基础知识5 脚本编程基础

12、脚本编程基础12.1、使用多条命令方式1:命令1 ; 命令2方式2:在脚本中 命令1 换行 命令212.2、创建脚本文件(1)第一行指明所使用的shell。#!/bin/bash(2)注释行以#开始,第一行除外(3)需要将脚本文件所在目录添加到PATH环境变量:PATH=$PATH:目录。或者使用绝对路径或相对路径引用脚本(4)修改脚本文件的权限,chmod

2013-08-28 09:58:29 528

原创 Linux Shell基础知识4 Vim编辑器

11、Vim编辑器11.1、基本实用编辑文件:vim 文件名11.2、正常模式第一个打开某个文件时,进入正常模式,或者在插入模式下点击ESC键进入正常模式。左移一个字符:h右移一个字符:l上移一行:k下移一行:j向下翻页:PageDown或者Ctrl+f向上翻页:PageUp或者Ctrl+b移动到缓冲的最后一行:G移动到缓冲的第num行:num G

2013-08-21 12:09:27 652

原创 Linux Shell 基础知识3 环境变量

10、环境变量10.1、全局环境变量查看全局环境变量:printenv查看某个环境变量:echo $环境变量名设置全局环境变量:export 本地环境变量10.2、本地环境变量查看本地环境变量:set查看所有环境变量,包括本地环境变量,还没有命令可以单独查看本地环境变量设置本地环境变量:变量名=变量值,注意=前后都没有空格移除环境变量:unset 环境变量名

2013-08-14 10:55:03 488

转载 Linux 学习

1、《鸟哥的Linux私房菜-基础学习篇》2、《Linux Shell 脚本攻略》3、《Unix环境高级编程》4、《Linux系统编程》5、《Linux内核设计的艺术》6、《Linux内核设计与实现》

2013-08-11 13:21:25 370

原创 Linux Shell基础知识2

5、进程查看查看当前进程:ps查看所有进程:ps -e查看完整格式列表:ps -f 格式:UID用户ID、PID进程ID、PPID父进程ID、C CPU利用率、STIME启动时间、TTY终端设备、TIME累计CPU时间、CMD程序名称查看长格式:ps -l格式: F系统标记、S进程状态(O=在处理器上运行,S=睡眠,R=可运行,等待运行,Z=死进程,进程已终止但父进程不可用,T=进

2013-08-10 11:44:42 528

原创 Linux Shell基础知识

1、shell提示符控制提示符的环境变量有两个:PS1:控制默认命令行提示符的格式;PS2:控制第二层命令行提示符的格式;shell使用特殊字符表示命令行提示符中的元素\d 显示当前日期。 \h 显示主机名。 \s 显示当前运行的shell的名字。 \t显示当前时间。 \u 显示当前用户的用户名。 \W 显示当前工作目录的名字。 \w 显示当前工作目录的

2013-08-09 17:22:53 446

转载 MySQL5超时连接异常的处理

想必大家在用MySQL时都会遇到连接超时的问题,如下图所示:    就是这个异常(com.mysql.jdbc.exceptions.jdbc4.CommunicationsException:Communications link failure Last packet sent to the server was X ms ago),是由于MySQL服务在长时间不连接之后断开了,断开之

2013-05-02 14:35:50 587

转载 weka-分类算法

weka-分类算法  3. 分类与回归 背景知识 WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,这是有原因的。 在 这两个任务中,都有一个目标属性(输出变量)。我们希望根据一个样本(WEKA中称作实例)的一组特征(输入变量),对目标进行预测。为了实现这一目的, 我们需要有一个训练数据集,这个数据集中每

2013-04-30 10:59:17 1813

转载 数据挖掘——学习笔记(机器学习--监督,非监督,半监督学习)

数据挖掘——学习笔记(机器学习--监督,非监督,半监督学习)http://blog.sina.com.cn/s/blog_627a4f560100xmj1.html在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learni

2013-04-17 10:36:46 635

转载 Tomcat的JVM设置和连接数设置

Tomcat的JVM设置和连接数设置一、Tomcat的JVM提示内存溢出查看%TOMCAT_HOME%\logs文件夹下,日志文件是否有内存溢出错误二、修改Tomcat的JVM1、错误提示:java.lang.OutOfMemoryError: Java heap spaceTomcat默认可以使用的内存为128MB,在较大型的应用项目中,这点内存是不够的,有可能导致系统无法运

2013-04-14 16:35:51 312

原创 Weka Exception message: null

Weka Exception message: null目前遇到一种情况:由于JDK版本问题造成,由JDK1.5->JDK1.6后问题解决。Weka3-7-9

2013-04-14 16:18:24 540

HBase:权威指南

HBase:权威指南 注意:这是英文版。 敢叫做权威指南的一般都很权威,这本书深入浅出介绍了HBase的知识,有广度有深度,建议有一定hadoop基础后再来看。

2014-02-18

AUtest自动化

AUtest自动化脚本

2013-12-16

C 笔试面试宝典2009版(整理)

对C面试笔试宝典的整理,并添加了一些我认为重要的东西。

2010-03-31

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除