播种生活-CSDN博客

原创创建ubuntu14.04 KVM虚机

琢磨了一天，终于方便的手工生成了kvm虚机，分享一下：1，创建qcow2文件：~]# qemu-img create -f qcow2 testnode1.qcow2 30G Formatting 'testnode1.qcow2', fmt=qcow2 size=32212254720 encryption=off cluster_size=65536 2，用virt-ima

2015-01-14 18:24:30 1246

原创使用ssh tunnel连接局域网机器

当需要浏览器打开内网的某个ip地址时，可以通过putty建立tunnel的方式，我之前的博文有提到；也可以通过在本地安装vnc viewer，登陆login节点，使用login节点的浏览器进行打开内网的ip地址；使用ssh tunnel是最为简单的一直方式；例子：node1 有公网ip； node2 只有内网ip；node1和node2之间网络相通；我们只能在浏览器上打开nod

2015-01-14 18:12:15 1531

原创 openstack neutron 添加router

在neutron网络中，如果需要打通不同租户之间的软件网络，那么需要打开 neutron l3 agent，并且配置router；配置/etc/neutron/l3_agent.ini#vi /etc/neutron/l3_agent.ini[DEFAULT] router_id = dbad9f1c-7999-4b1e-b307-c3466bb0eed9 use_na

2015-01-14 17:59:17 3401

原创 hadoop--datanode没有起来的办法

hadoop集群一段时间没有使用了，今天重新format name后，发现datanode进程起不来了；查看data-node的日志, namenode的日志与datanode的日志不一致；检查hdfs/data/current/VERSION 和name/current/VERSION, 发现namespaceID不一致；修改其中任何一个与另一个一致，启动datanode；bin

2014-08-17 15:25:53 980

原创 linux查看服务和端口

例如查看80端口情况：[root@mn1 /]# netstat -tulpn|grep httptcp 0 0 :::80 :::* LISTEN 18318/httpd You have new mail in /var/spool/mail/

2014-08-15 17:04:33 686

原创使用putty进行ssh tunnel远程内网机器

通常我们通过登录具有外网ip的远程机器来连接内网的机器；本文介绍，通过putty进行ssh tunnel，进而达到使用本机直接连接远程内网机器；1，在putty中创建一个session，输入具有外网ip的node信息：2，在connection下面找到SSH，打开SSH点击tunnel输入source port，source port是你想在本机使用的端口，destination是远程

2014-05-06 17:32:24 6352

转载 dd与cp的区别

问：看了一些关于dd和cp的命令，但是我始终无法明白dd和cp之间有什么不同？不是都可以看成是备份的作用么？还有什么区别呢？答：1、dd是对块进行操作的，cp是对文件操作的。2、比如有兩塊硬盤，要將第一個硬盤裏的數據複製到第二個硬盤上dd if=/dev/hda of=/dev/hdc bs=4 count=1024bs每次複製的塊大小count要複製的次數

2014-05-06 17:14:29 784

原创永久修改redhat的default route

1，可以用route命令临时修改：route add default gw 2, 通过修改/etc/sysconfig/network 文件永久修改：脚本：#!/bin/sh#configure default gw# $1 is ip of gatewaydefgw=$1sed -i "s/NETWORKING.*/NETWORKING=yes/" /et

2014-05-06 16:09:54 1752

原创 python错误解决：SyntaxError: Non-ASCII character '\xd3' in file crawler.py

我写的python代码中遇到编码问题：SyntaxError: Non-ASCII character '\xd3' in file crawler.py 原因：代码中有需要输出中文的部分，但是运行时出现了这个错误；错误中提示看这个链接：http://www.python.org/peps/pep-0263.html解决问题的方法：如果在python中出现了非ASCII

2014-05-01 16:12:58 2128

原创 Hbase shell 命令详解

安装好hbase后，执行hbase shell，进入hbase shell命令行：1，建立一个表student：hbase(main):030:0> create 'student','grade','course'0 row(s) in 0.6060 secondshbase(main):031:0> 2，查看hbase中表，有scores、student、test三个

2014-04-19 13:52:38 815

原创 mysql:Table './xdb/auditlog' is marked as crashed and should be repaired

在mysql中遇到这个问题：Table './xdb/auditlog' is marked as crashed and should be repaired：解决方法：mysql> repair table xdb.auditlog;+-------------------+--------+----------+----------+| Table

2014-04-16 16:05:04 1068

原创 python：删除文件中包含关键词的行

re.compile(),正则表达式在模式匹配前进行预编译；使用预编译代码比字符串快；test.txt中包含以下文字：1:li2:test3:num在运行完程序，生成的target.txt中，内容为1:li3:num代码清单如下：import relist = []matchPattern = re.compile(r'.+:test')

2014-04-15 16:15:21 7220 1

原创 linux 前台后台运行job管理

1, 查jobs：hadoop11:/usr/lib/hive # jobs[1]+ Running nohup hive --service hiveserver -p 10000 & (wd: /usr/lib/hadoop-0.20.2/bin)hadoop11:/usr/lib/hive # jobs -l[1]+ 5813 Runni

2014-04-13 12:56:53 2187

转载 Hive简介

原文：http://www.distream.org/?p=393 1 和传统数据库的比较读时模式vs.写时模式传统数据库是写时模式(schema on write)，即数据在写入数据库时对模式进行检查。Hive在数据加载时不进行验证，而是在查询时进行，是读时模式（schema on read）。写时模式有利于提升查询性能，因为数据库可以对列进行索引，并对数据压缩。但作为权衡，此时

2014-04-13 11:06:43 535

转载 HDFS HA: 高可靠性分布式存储系统解决方案的历史演进

HDFS HA: 高可靠性分布式存储系统解决方案的历史演进HDFSHADRBDHDFS FederationHadoop目录(?)[+]1. HDFS 简介 HDFS，为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。HDFS的系统架构是典型的主/从架构，早期的架构包括一个主节点NameNode和多个从节点DataNod

2014-04-12 14:17:19 603

转载 hive（数据仓库工具）

54hive（数据仓库工具）编辑hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

2014-04-12 09:23:01 482

转载 python 之分割参数getopt

python 之分割参数getopt os下有个方法walk，非常的好用，用来生成一个generator。每次可以得到一个三元tupple，其中第一个为起始路径，第二个为起始路径下的文件夹，第三个是起始路径下的文件。 1. 导入getopt, sys 模块 2. 分析命令行参数 3. 处理结果第一步很简单，只需要： import getopt, sys

2014-04-11 16:53:31 481

原创 mapreduce--如何设置reducer的个数

1，在缺省情况下，一个mapreduce的job只有一个reducer；在大型集群中，需要使用许多reducer，中间数据都会放到一个reducer中处理，如果reducer数量不够，会成为计算瓶颈。2，reducer的最优个数与集群中可用的reducer的任务槽数相关，一般设置比总槽数稍微少一些的reducer数量；hadoop文档中推荐了两个公式：0.95*NUMBER_OF_NODE

2014-04-06 22:28:36 4046

原创 mapreduce在倒排索引中练习

倒排索引是文件检索系统中常用的数据结构，被广泛应用于全文章搜索引擎。通常情况下，倒排索引由一个单词或词组以及相关的文档列表组成，文档列表中的文档或者是标识文档的ID号，或者是指定文档所在位置的URI；在实际应用中，往往还需要给每个文档加一个权值，用来指出每个文档与搜索内容的相关度；我的例子中，文档内容如下：hadoop11:/home/in/win1 # hadoop fs -ca

2014-04-06 15:33:55 942

原创使用ping测试MTU值

MTU:MTU是Maximum Transmission Unit的缩写；意思是网络上传送的最大数据包。MTU的单位是字节。大部分网络设备的MTU都是1500。把本机的MTU设成比网关的MTU小或相同，就可以减少丢包。如果本机的MTU比网关的MTU大，大的数据包就会被拆开来传送，这样会产生很多数据包碎片，增加丢包率；如果检测到网关的MTU值是1500，从1400到1472之间多试几次，就能

2014-04-03 14:34:17 15039 2

原创 hadoop的成员项目简介

Pig：Hadoop的客户端；Pig Latin类似sql的面向数据流的语言；pig可以把pig latin映射为mapreduce作业上传到集群运行，减少用户编写java的程序；三种运行方式：shell，脚本，嵌入式Zookeeper：Google Chubby的开源实现；通信协调软件；例如，防止单点失效、处理负载均衡、确认消息是否准确到达；hbase中数据节点之间协

2014-03-26 21:52:25 575

原创云计算基础概念

1，云计算分类：Iaas-基础设施及服务：从硬件和基础设施架构方面考虑的；通过建立虚拟的计算，存储和数据中心，使得能够对宽带、IO设备、PC、存储等计算机基础设施集中起来，形成一个虚拟的资源池对外提供服务。比如，亚马逊建立的云计算数据中心；Paas-平台及服务：操作系统、数据库系统、应用软件系统等集中起来，对外提供应用系统的软件供应服务；例如，分布式存储、分布式大规模数据管理、分布式编程环

2014-03-26 14:30:56 573

原创实施hadoop大集群（一）

本文从云计算的实际项目中总结，具有很好的参考价值；1，hadoop大集群的设备选取：普通pc就可以了，硬盘足够大，多块硬盘就可以；CPU只要四核以上；专门的存储是不需要的；实施hadoop集群的指导思想，我们用廉价的PC集群来代替高大上的小型机和存储；2，用虚拟机部署，设备需要从下面指标考量如果用虚拟机部署的话，内存要足够大，如果机器有很多CPU，利用虚拟机可以充分利用CPU的效率

2014-03-26 13:37:16 575

转载 linux配置java环境变量(详细)

一. 解压安装jdk在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录，执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议，连继敲回车，当询问是否同意的时候，输入yes，回车。之后会在当前目录下生成一个jdk1.6.0_14目录，你可以将它复制到任何一个目录下。二. 需要配置的环境变量1. PATH环境变量。作用

2014-03-24 22:43:27 499

原创 hadoop-quickstart-命令行方式打包运行wordcount

在hadoop环境配置完成后，运行第一个例子程序：1，创建文件#echo "hello world" >> test1.txt#echo "hello hadoop" >> test2.txt2，上传文件到hdfs#cd ../hadoop#bin/hadoop dfs -put ../input in #bin/hadoop dfs -ls ./in/*

2014-03-24 22:28:17 570

转载如何添加或删除ubuntu用户和组

转载来源：adolfmc - 博客园在创建用户时，需要为新建用户指定一用户组，如果不指定其用户所属的工作组，自动会生成一个与用户名同名的工作组。创建用户user1的时候指定其所属工作组users，例：useradd –g users user1一、创建用户：1、使用命令 useradd例：useradd user1——创建用户user1 useradd –e 12/3

2014-03-24 22:20:57 445

转载 DevOps-chef的多节点环境搭建

转载自：-wkq5325-ChinaUnix博客前言：前段时间一直想试验一下DevOps的一些配置管理工具，后来因为某些原因，就重点研究了chef。以自己的机器搭建了一个典型的多节点实验环境。架构：根据官方的chef的架构介绍，主要包括三大部分，1. chef-server2. chef workstation3. chef-node

2014-03-24 22:16:55 840

转载 Apache下FastCGI开发（重写文章）

Apache下FastCGI开发（重写文章）欢迎转载，转载请注明出处：http://hi.baidu.com/coffeefoam/item/06aac9be68966f402bebe32c重新写一篇利用Apache进行FastCGI开发的文章，其中配置部分有所改进以下操作均是基于Linux，Windows用户可以参考配置 *******************

2014-03-24 22:12:38 651

原创 git commit 提交最新更改

当完成修改代码后，需要提交代码到远程git服务器可以用以下命令：假设有两个版本2.8和master：1，查看目前所在版本git branch2，获取当前最新版本git pull3，把修改好的code文件添加到本地：git add linux_sn_x86_64_sles_vm4，做diff，查看目前是否只有这个文件是被修改的git diff –c

2014-03-24 22:05:55 728

原创 linux查看cpu和core数量

2014-03-24 21:54:48 2143

转载 hadoop常见错误以及处理方法

1、hadoop-root-datanode-master.log 中有如下错误：ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in导致datanode启动不了。原因:每次namenode format会重新创建一个nam

2014-03-24 21:48:57 688

原创 hadoop---Unable to load native-hadoop library for platform的问题解决

当遇到-Unable to load native-hadoop library for platform的问题时，打开eclipse中的run as-》run configuration，在VM argument中指出native lib的真实位置，例如我的在如下图的位置，我是32位的笔记本：

2014-03-24 21:42:30 877

原创 hadoop重启虚机后hdfs中数据丢失，需要重新格式化问题

1，虚机每次重启后，如果不格式化namenode，就错误，日志如下：INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Registered FSNamesystemStateMBean and NameNodeMXBean INFO org.apache.hadoop.hdfs.server.namenode.N

2014-03-24 21:22:03 2505

原创删除kvm虚拟机

1，查看kvm虚机： ~]# virsh list Id Name State---------------------------------------------------- 7 chefworkstation running 9 chefcompute

2014-03-24 21:00:52 6436

momomi_2005的专栏