自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 hadoop组件概况

1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于

2016-12-11 23:12:47 996

转载 正则表达式匹配邮箱

1. "^\\s*\\w+(?:\\.{0,1}[\\w-]+)*@[a-zA-Z0-9]+(?:[-.][a-zA-Z0-9]+)*\\.[a-zA-Z]+\\s*$"2.^[A-Za-z0-9][\\w\\-\\.]{3,12}@([\\w\\-]+\\.)+[\\w]{2,3}$两种方法,据说第一种是企业级代码,根据自己需要选择

2016-12-11 23:07:51 742

原创 hive udf

1.package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public classmyUDF extends UDF {    public String evaluate(String str) {        try {            return "Hel

2016-12-04 22:08:14 385

转载 hadoop yarn-site.xml配置

参数默认值描述yarn.resourcemanager.hostname RM的hostnameyarn.resourcemanager.address${yarn.resourcemanager.hostname}:8032RM对客户端暴露的地址,客户端通过该地址向RM提交应用程序等yarn.reso

2016-11-29 16:59:40 8765

原创 java实现hadoop的cat命令

本人理解的就是读取指定目录下文件输出出来package com.hdfs;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.hadoop.conf.Configuration;import or

2016-11-27 08:36:36 1167

原创 hadoop之 mapreduce

直接给上代码package com.hdfs;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWri

2016-11-27 08:01:13 244

原创 spark 安装

一.安装scala上官网下载scala压缩包解压到指定目录,然后配置环境变量(vi /etc/profile进入配置文件)如:export  SCALA_HOME=/home/hadoop/local/opt/scala/scala-2.11.4export  PATH=$PATH:$SCALA_HOME/bi二.安装java也就是安装jdk一样 也需要配置环境变量三.

2016-11-20 18:02:35 259

转载 spark与hadoop对比

1.spark的中间数据放到内存中,一次创建数据集,可以多次迭代运算,减少了IOd的开销,对于迭代运算效率更高。2.spark更适合于迭代运算比较多的ML和DM运算,因为在spark里面有RDD的抽象概念。3.spark比hadoop更通用。4.spark提供的数据集操作类型有多种,不想hadoop只提供了Map和Reduce两种操作。比如ap,filter,flatMap,sampl

2016-11-13 18:42:59 326

原创 java 随机生成名字

为了测试延云YDB的大量数据秒级查询功能需要伪造大量的数据,这里分享下如何随机生成人名直接给出代码如下:public class Mytest1 {public static void main(String[] args) {for (int i=0;i"楮", "卫", "蒋", "沈", "韩", "杨", "朱", "秦", "尤", "许", "何

2016-11-04 17:44:02 12809

转载 CASE WHEN用法

1. CASE WHEN 表达式有两种形式--简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASEWHEN sex = '1' THEN '男' WHEN sex = '2' THEN '女' ELSE '其他' END

2016-11-04 11:34:34 533

原创 随机数生成Math.random()

Math.random() 产生 [0,1]范围的数字。 假设你要生成 20~50之间的整数 你可以这么样做 [0~1]*30+20 等价于 [0*30~1*30]+20 随机生成两位数则是:Math.random()*90+10随机生成三位数则是:Math.random()*900)+100以此类推 就能得到你想要的答案了

2016-11-03 13:15:16 1384

转载 linux系统常见十大错误

学习大数据(hadoop、spark、延云YDB)一定要先了解Linux系统,这里和大家分享下linux系统常见的问题linux管理常见错误一:随意许可,原因是不理解许可  如果对许可配置不当,就会给黑客留下机会。处理许可问题的最简单方法是使用所谓的RWE方法,即Read(读取)、Write(写入)、Execute(执行)。假设你想让一个用户能够读取一个文件但不能写入文件。为此,你

2016-10-30 22:47:05 1262

转载 java socket

一,网络编程中两个主要的问题一个是如何准确的定位网络上一台或多台主机,另一个就是找到主机后如何可靠高效的进行数据传输。在TCP/IP协议中IP层主要负责网络主机的定位,数据传输的路由,由IP地址可以唯一地确定Internet上的一台主机。而TCP层则提供面向应用的可靠(tcp)的或非可靠(UDP)的数据传输机制,这是网络编程的主要对象,一般不需要关心IP层是如何处理数据的。目前较为

2016-10-27 13:29:10 215

翻译 常用的正则表达式

常用正则表达式正则表达式中有很多上述的具有特别意义的字符。首先是下列字符。[ ]范围描述符。[a-z]表示从a到z之间的任意一个。\w英文字母和数字。即[0-9 A-Z a-z]。\W非英文字母和数字\s空字符,即[\t\n\r\f]。\S非空字符。\d数字,即[0-9]。\D非数字。\b词边界字符(在范围描述符外部时)\B非词边界字符\b退格符(0x08)(在

2016-10-25 16:34:33 261

翻译 什么是大数据?

1.首先说下大数据产生的作用有多大,用三大信息化浪潮来对比说明信息化浪潮发生时间标志解决问题代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度腾讯等第三次浪潮2010年前后

2016-10-24 09:55:27 733

翻译 个人认为Hive常用到的SQL命令

Hadoop Spark 之Hive的SQL

2016-10-21 17:22:19 311

原创 安装hadoop之ssh无密码登录

为了更快的了解我们延云云计算公司的产品延云YDB,需要我们熟练安装hadoop产品,这里介绍下安装之前很重要的一步SSH无密码登录的步骤1.首先要ssh创建秘钥:ssh-keygen  回车后直接生成一对秘钥  id_rsa 和id_rsa.pub2.接下来就要把id_ras.pub追加到key里边去:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_k

2016-10-16 22:22:42 341

原创 初学linux系统建议以及常用命令

学好大数据hadoop的基石

2016-10-12 15:09:41 234

原创 linux系统下安装jdk环境变量

1.首先要先下载jdk,如果下载到windows系统下可以利用WinSCP工具转移到linux系统下。2.tar zxvf 加上jdk安装包就可以解压了(如果想移动jdk可进行 mv jdk1.8.0_60/usr/local操作)。3. vi /etc/profile 输入 i 加入以下内容export JAVA_HOME=/usr/local/jdk1.8.0_60export

2016-10-10 21:07:12 207

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除