skynumone-CSDN博客

原创 hadoop单机存储均衡和坏block处理

1.Namenode岩机处理:重启集群无法恢复的情况下这时候解决的办法很简单，把namenode镜像存储的路径下内容删除掉，再把secondnamenode镜像存储的路径下内容拷贝过来，重启即可。默认namenode镜像存储的路径是 /opt/hdfs/dfs/name 默认secondnamenode镜像存储的路径 /opt/hdfs/dfs/nameseconda

2015-03-30 10:20:00 1414

原创 Hive表和存储结构《三》

1.注意的几个地方（1）dfs.permissions 设为false，否则容易报权限问题。（2）mysql> alter database hive character set latin1;否则容易报错：FAILED: Error in metadata: MetaException(message:Got exception: org.apache.thrift.t

2015-03-30 10:11:07 722

原创 Hive元数据管理《二》

1.配置元数据库（1）安装mysql1）采用yum安装方式yum install mysql 安装mysql客户端yum install mysql-server 安装mysql服务端2）数据库字符集设置：mysql配置文件/etc/my.cnf中加入default-ch

2015-03-30 10:08:07 1044

原创 Hive体系结构《一》

1.Hive体系结构用户接口，包括 CLI（hive shell），JDBC/ODBC，WebUI（使用的很少）元数据存储，通常是存储在关系数据库如 mysql, derby 中解释器、编译器、优化器、执行器 Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算组件的基本功能用户接口主要有三个：CL

2015-03-30 09:52:36 546

原创 Hadoop应用开发--基于MapReduce推荐系统的实现

1.推荐系统概述电子商务网站是个性化推荐系统重要地应用的领域之一，亚马逊就是个性化推荐系统的积极应用者和推广者，亚马逊的推荐系统深入到网站的各类商品，为亚马逊带来了至少30%的销售额。不光是电商类，推荐系统无处不在。QQ，人人网的好友推荐；新浪微博的你可能感兴趣的人；优酷，土豆的电影推荐；豆瓣的图书推荐；大从点评的餐饮推荐；世纪佳缘的相亲推荐；天际网的职业推荐等。2.推荐算法分

2015-01-31 12:11:26 3384

原创 hive-0.13.1安装部署（使用mysql做元数据库）

1 Mysql的配置1.1安装mysql安装Mysqlyum install mysql-server启动mysqlservice mysqld start设置密码 /usr/bin/mysqladmin -u root password root设置开机启动chkconfig mysqld on1.2创建hive的数据库进入mysql客户端中mys

2015-01-27 11:42:53 830

原创 Hadoop2.4.0-Hbase-098.9-完全分布式安装部署

1.1准备环境1.1所需软件包a、CentOS-6.5-i386-LiveDVD.iso 32位centos系统b、jdk-7u71-linux-i586.rpm 32位jdk-Linux rpm文件c、hadoop-2.2.0.tar.gz hadoop安装包d、zookeeper-3.4.6.tar.gz zookeeper安装包1.2运行环境a、VMware9

2015-01-27 11:24:13 1167

原创 R基本作图《二》

1.散点图> plot(x1,x2,main="数学分析与线性代数成绩的关系",xlab="数学分析",ylab="线性代数",xlim=c(0,100),ylim=c(0,100),xaxs="i",yaxs="i",col="red",pch=19)#xlim指定x轴范围，ylim指定y轴范围，xaxs指定x轴样式，yaxs指定y轴样式，pch设置绘图符号pch缺省下设定数据显

2015-01-24 17:02:09 1237

原创 R基本作图《一》

首先生成实验数据>num=seq(10378001,10378100)> num [1] 10378001 10378002 10378003 10378004 10378005 10378006 10378007 10378008 [9] 10378009 10378010 10378011 10378012 10378013 10378014 10378015 1

2015-01-24 16:36:58 1180

原创 R的一个简单例子

模拟产生统计专业同学的名单（学号区分），记录数学分析，线性代数，概率统计三科成绩，然后进行一些统计分析1.生成数据首先依次生成学号，数学成绩，线性代数成绩，概率统计成绩各项数据，依次用num，x1，x2，x3来表示：>num=seq(10378001,10378100)> num [1] 10378001 10378002 10378003 1037

2015-01-24 16:34:55 729

原创 R读写数据

先设置工作目录，把文本文件放在该目录下或者是用全路径设置工作目录的方法：1.命令行使用getwd函数来显示当前工作目录，使用setwd函数改变当前目录:> getwd()[1] "/home/paul/research"> setwd("Bayes")> getwd()[1] "/home/paul/resea

2015-01-23 17:51:47 704

原创矩阵、数据框和列表

1.生成矩阵的条件Matrix(a,b,c) 生成矩阵的条件是b*c的乘积等于a长度的整数倍> a=1:10>a [,1] [,2] [,3] [,4] [,5][1,] 1 3 5 7 9[2,] 2 4 6 8 10由a向量生成一个两行五列的矩阵

2015-01-23 17:34:36 2349

原创 R简介和向量

1.R简介R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件，它基于S语言，并由 MathSoft公司的统计科学部进一步完善。后来Auckland大学的 RobertGentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLU

2015-01-23 17:31:31 1237

原创 shark 部署与演示《二》

1.spark0.9.1安装（1）首先安装对应版本的hive（在这里是0.11）（2）安装包安装spark0.9.1解压缩修改目录用户权限，用户hadoop登录修改配置文件//slaveshadoop1hadoop2hadoop3//spark-env.shexport SPARK_MASTER_IP=hadoop1expor

2015-01-21 11:27:06 580

原创 shark 原理和架构《一》

1.shark简介shark在spark中的位置：2.shark 运行架构shark对hive架构进行了修改，主要修改了内存管理，物理执行计划，执行器；使其能够运行在spark上。在使用shark的时候要注意版本与hive版本的对应（shark0.92对应hive0.11）3.性能对比（shark vs hive）

2015-01-21 11:12:14 1070

原创 Spark 机器学习-实例演示- 线性回归《四》

线性回归1.简介线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的各种回归分析只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归2.基本过程构造预测函数(h函数)•构造cost函数•利用梯度下降(上升)法来计算的最小值•梯度下降(上升)计算的向量化3.基本理论h函数：

2015-01-21 10:50:00 1590

原创 Spark 机器学习-实例演示-协同过滤《三》

协同过滤1.简介协同过滤常被应用于推荐系统。这些技术旨在补充用户 - 商品关联矩阵中所缺失的部分。MLlib 当前支持基于模型的协同过滤，其中用户和商品通过一小组隐性因子进行表达，并且这些因子也用于预测缺失的元素。 MLLib 使用交替最小二乘法 ( ALS ) 来学习这些隐性因子。在 MLlib 中的实现有如下的参数 :– numBlocks

2015-01-20 11:43:18 1514 2

原创 Spark 机器学习-实例演示- K-Means《二》

1.K-Means简介K-Means 是聚类的一个算法，是一个无监督学习，目标是将一部分实体根据某种意义上的相似度和另一部分实体聚在一起。聚类通常被用于探索性的分析。 K-Means将n个观察实例分类到k个聚类中，以使得每个观察实例距离它所在的聚类的中心点比其他的聚类中心点的距离更近。所以它是一种基于距离的迭代式算法。算法：1 选择 K 个点作为初始中心

2015-01-20 10:17:22 4826

原创 Spark 机器学习《一》

1.机器学习（1）介绍机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。A computer program is said to learn from experience E with respect to

2015-01-20 09:24:40 1396

原创运行第一个spark程序

运行第一个spark程序---Wordcount首先在IDE中创建工程代码如下：package cn.sjzc/** * Created by shaokai on 2014/12/27. */import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.SparkContext._ob

2015-01-19 18:09:32 759

原创 Spark 运行架构和解析《二》

1.实例解析val lines = ssc.textFile(args( 1 )) // 输入val w ords = lines.flatMap(x =>x.split( " " ))w ords.cache() // 缓存val w ordCounts = w ords.map(x => (x, 1) )val red = w ordCounts.reduce B yKey

2015-01-19 17:42:32 476

原创 Spark 运行架构和解析《一》

Spark 运行架构和解析

2015-01-19 17:26:22 681

原创 Spark1.0.2-standalone部署

Hadoop2.2.0-Spark1.0.2-standalone部署

2015-01-19 17:01:15 574

skynumone的专栏