easonworld-CSDN博客

转载 spark性能优化1

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内)，最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能

2016-07-15 19:46:34 446

转载 Spark性能优化2

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spar

2016-07-15 19:45:20 420

转载 transient的作用及使用方法

转：http://www.cnblogs.com/lanxuezaipiao/p/3369962.html 1. transient的作用及使用方法我们都知道一个对象只要实现了Serilizable接口，这个对象就可以被序列化，java的这种序列化模式为开发者提供了很多便利，我们可以不必关系具体序列化的过程，只要这个类实现了Serilizable接口，这个类的所有属性和方法都会自动序列化。

2016-04-18 11:05:01 3131 1

转载 transient用法

转：http://www.cnblogs.com/lanxuezaipiao/p/3369962.html1. transient的作用及使用方法我们都知道一个对象只要实现了Serilizable接口，这个对象就可以被序列化，java的这种序列化模式为开发者提供了很多便利，我们可以不必关系具体序列化的过程，只要这个类实现了Serilizable接口，这个

2016-03-18 17:57:41 475

转载 spark配置优化

转http://www.csdn.net/article/2015-07-08/2825160【Spark集群并行度】在Spark集群环境下，只有足够高的并行度才能使系统资源得到充分的利用，可以通过修改spark-env.sh来调整Executor的数量和使用资源，Standalone和YARN方式资源的调度管理是不同的。在Standalone模式下:1. 每个节点

2016-03-16 11:18:23 968

原创初识presto

部署：由于presto需要jdk1.8的环境，但是CDH5目前是1.7的jdk，所以暂时采用的方法是在presto的server机器里安装jdk8，然后在终端export（保证对本终端采用jdk8的配置）具体如下：安装Presto下载Presto server tarball, presto-server-0.139.tar.gz,将它解压。它包含一个顶级

2016-03-01 15:54:15 773

原创 RabbitMq权限问题

单节点不存在该问题。异常：Exception in thread "main" java.io.IOExceptionat com.rabbitmq.client.impl.AMQChannel.wrap(AMQChannel.java:106)at com.rabbitmq.client.impl.AMQChannel.wrap(AMQChannel.java:102)

2016-01-27 15:10:15 15783 5

转载初识storm

分类： Hadoop1.hadoop有master与slave，Storm与之对应的节点是什么？2.Storm控制节点上面运行一个后台程序被称之为什么？3.Supervisor的作用是什么？4.Topology与Worker之间的关系是什么？5.Nimbus和Supervisor之间的所有协调工作有master来完成，还是Zookeeper集群完成？6.

2016-01-22 15:56:56 394

转载优化HIVE

1、提前过滤数据，减少中间数据依赖：尽量尽早的过滤数据，减少每个阶段的数据量，对于分区表要加分区，同时只选择需要使用到的数据。如下，改写后的写法将会大大减少join的数据量select ... from Ajoin Bon A.key = B.keywhere A.userid>

2016-01-20 18:02:02 528

转载 mR 随机抽样

1. 问题由来Google曾经有一道非常经典的面试题：给你一个长度为N的链表。N很大，但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个，且它们是完全随机的（出现概率均等）？这道题的解法非常多，网上讨论也非常热烈。本文要讨论的是，这个问题是从何而来，有什么实用价值？自从有了Hadoop之后，该问题便

2015-12-05 14:29:59 951

转载 spark 点滴：多路输出，自定义分区

多路输出：import org.apache.spark.{HashPartitioner, SparkContext, SparkConf}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.hadoop.mapred.lib.MultipleTextOutputFor

2015-11-06 14:57:03 2319

转载 spark点滴之map-flatMap~mappartition～sortBY~fold～combinebykey~分区~mvn~scala

map 和 flatMap：通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一：将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本：line oneline two步骤二：在Spark中创建一个RDD来读取

2015-10-26 17:45:49 1533

原创 github上传

首先github建好repositories：https://github.com/*******/TempanalyzeProject.git1、本地工程目录下：git init，然后git status查看哪些不许上传2、本地工程目录下：vi .gitignore/target.classpath.project/logs.settings即除去上传的文件

2015-09-09 22:16:08 354

转载 map-combine过程解

●read阶段：通过RecordReader从InputSplit分片中将数据解析成一个个key/value。 ●map阶段：将由RecordReader解析出的key/value交给map()方法处理，并生成一个个新的key/value。 ●collect阶段：将map()中新生成key/value由OutpCollector.collect()写入内

2015-09-09 14:42:02 1371 1

转载 Hadoop 推测式任务 Hadoop Speculative Task

转：http://blog.csdn.net/yfkiss/article/details/10589137在分布式计算环境中，一个job会被拆解为多个task，由于各种软硬件异常，某些task运行速度较慢，拖慢了整个job完成时间对于这些运行速度较慢的task，Hadoop不会尝试诊断或者修复，而是分析出哪些task运行较慢，针对这些运行较慢的task，启动一些backup的task

2015-06-29 22:29:12 680

转载 python 爬虫入门

#!/usr/bin/python # -*- coding:utf-8 -*-from urllib import urlopenfrom lxml import etree# import lxml.html.soupparser as soupparserorign = "http://www.cedf.org.cn"webpage = u

2015-05-11 11:07:29 495

转载 hive 控制输出分割符

hive> insert overwrite local directory '/home/yangping.wu/local' > row format delimited > fields terminated by '\t' > select * from wyp;[wyp@master ~/local]$ vim 000000_05 wyp1

2015-03-23 09:18:07 533

转载 Mahout – Clustering (聚类篇)

转：http://www.coder4.com/archives/41815 Replies什么是Mahout？” Apache Mahout™ project’s goal is to build a scalable machine learning library ”我来拓展一下：(1) Mahout 是Apache旗下的开源项目，集成了大量的机器学习

2015-03-20 11:50:40 747

原创 sbt 安装及使用

echo "deb http://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.listsudo apt-get updatesudo apt-get install sbt使用：actions – 显示对当前工程可用的命令update – 下载依赖compile – 编译代码tes

2015-01-30 15:17:11 556

转载读写lzo

一、读lzo在《Hadoop 2.2.0安装和配置lzo》文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据。　　lzo压缩默认的是不支持切分的，也就是说，如果直接把lzo文件当作Mapreduce任务的输入，那么Mapreduce只会用一个Map来

2015-01-22 21:17:05 1500

转载 streaming 使用

又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔：Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控使用额外的文件假如你跑的job除了输入以外还需

2014-10-31 17:57:13 753

转载 Storm on yarn安装

参考：[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea[2] http://blog.csdn.net/jiushuai/article/details/187293671. 已有的环境 Java代码 a. 安装有HDFS文件系统

2014-09-02 17:47:11 648

原创 cdh安装注意及客户端安装

1：sudo passwd root给root账户加密码2： sudo apt

2014-09-02 10:40:00 2920

原创 hive_hbase

版本匹配hive-hbase配置：把hbase对应jar包替换掉hive/lib下的包，cp protobuf-java-2.4.0a.jar /opt/hadoop/hive/lib启动hivehive --auxpath /opt/hadoop/hive/lib/hbase-0.94.10-security.jar,/opt/hadoop/hive/lib/hive-h

2014-08-21 17:49:01 890

转载 mahout 推荐参数

org.apache.mahout.cf.taste.Hadoop.item.RecommenderJob。其输入数据放在默认输入目录下，使用mapred.input.dir参数指定的输入数据，是userID,itemID[,preferencevalue]值对形成的文本文件。可以有多个文件存放在该目录下。运行时相关参数如下：numRecommendations：为每个用户产生的推

2014-08-19 21:10:07 951 1

原创 mr 过程setSortComparatorClass和setGroupingComparatorClass

job.setPartitionerClass(PartitionClass.class);job.setSortComparatorClass(SortComparator.class);job.setGroupingComparatorClass(Grouptail.class);

2014-08-15 18:00:07 4458 1

原创 python处理json

jsonreaded = json.load(open('jsonsource.dat', 'r'))json.dump(readed, open('newjsonfile.dat', 'w'))

2014-08-14 18:19:40 467

转载 hive struct\map\array

hive提供了复合数据类型：Structs： structs内部的数据可以通过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，我们可以通过c.a来访问域aMaps（K-V对）：访问指定域可以通过["指定域名称"]进行，例如，一个Map M包含了一个group-》gid的kv对，gid的值可以通过M['group']来获取Arrays：array中的

2014-08-05 19:21:41 555

原创 ubuntu挂载新的vdi以及安装扩展包

sudo fdisk -l 查看vdisudo fdisk /dev/sdb

2014-07-29 09:27:28 966

转载 Solr开发<转>

Solr开发文档Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器，它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中，将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。开发环境：System：WindowsWebBrowser：IE6+、Firefox3+JDK：1.6+JavaEE Se

2014-07-24 14:49:20 426

转载 MR 中获取输入文件路径

在mapper中获取当前正在处理的HDFS文件名/HDFS目录名有时候，Hadoop是按行来对数据进行处理的，由于对每一行数据，map()函数会被调用一次，我们有时可以根据文件名/目录名来获取一些信息，从而把它们输出，例如，目录名中包含了日期，则我们可以取出来并输出到Reducer。在map()函数中，我们可以这样取文件名：12

2014-07-08 14:58:46 1616

转载调整Hbase中cell大小

跑mapreduce任务时，在reduce时遇到下列错误：KeyValue size too large hadoop解决办法：修改hbase-site.xml增加hbase.client.keyvalue.maxsize500mhbase.client.keyvalue.maxsize 缺省10MB，包括row key，qualifie

2014-07-04 11:46:23 6254

转载 MR二次排序

关于二次排序主要涉及到这么几个东西：在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator 在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.se

2014-07-01 18:48:00 1402

转载 java文件操作

一.获得控制台用户输入的信息 public String getInputMessage() throws IOException...{ System.out.println("请输入您的命令∶"); byte buffer[]=new byte[1024]; int count=System.in.read(buffe

2014-06-27 18:16:33 352

转载 java\streaming 传外部参数

本文主要讲解三个问题： 1 使用Java编写MapReduce程序时，如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何

2014-06-27 18:04:07 1823

转载 hadoop mapreduce 多输入路径

1.多路径输入1）FileInputFormat.addInputPath 多次调用加载不同路径FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs/path1"));FileInputFormat.addInputPath(job, new Path("hdfs://RS5-112:9000/cs

2014-06-27 15:38:00 1252

转载 RHadoop实践系列之二：RHadoop安装与使用

2013/03/24软件应用hadoop、MapReduce、R、rhadoop、海量数据张丹Author：张丹(Conan)Date: 2013-03-07Weibo: @Conan_ZEmail: [email protected]: http://www.fens.me/blogAPPs:@晒粉丝 http://www.fens.me

2014-06-18 18:25:15 716

转载 R语言安装部署

ubuntu12.04 安装R语言环境3.01#sudo vim /etc/apt/sources.list添加#deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/#sudo apt-get update#gpg --keyserver pgpkeys.mit.edu --recv-key 9AA38DC

2014-06-18 18:15:24 995

转载 R语言安装部署

ubuntu12.04 安装R语言环境3.01#sudo vim /etc/apt/sources.list添加#deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/#sudo apt-get update（）#gpg --keyserver pgpkeys.mit.edu --recv-k

2014-06-18 18:12:20 763

转载 Hadoop Streaming 实战：传递环境变量

环境变量可以理解程序运行的系统环境，用户可以对自己的运行环境进行定制，其方法就是修改相应的系统环境变量。用JAVA实现的Map-Reduce程序可以通过Hadoop提供的编程接口访问作业的配置信息，而streaming程序不能使用JAVA编程接口，因此，streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下：

2014-06-06 16:07:47 465

hadoop技术内幕.pdf

空空如也