自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

风筝中有风

赶在大数据风口浪尖的一名努力程序员。。。

  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

转载 采用Hibench进行大数据平台(CDH)基准性能测试

参考博客地址:http://blog.csdn.net/wenwenxiong/article/details/77628670                        http://www.cnblogs.com/hellowcf/p/6912746.html最近的项目要给客户部署一套大数据平台(CDH),因此要出一个关于平台本身的性能测试。对测试流程不太了解,相比于项目功能测试,这种平台...

2018-03-07 15:27:54 10328 2

转载 采用YCSB对Hbase进行性能测试

参考博客:http://blog.csdn.net/bryce123phy/article/details/51254235                 https://zhuanlan.zhihu.com/p/29370650上一篇对大数据平台基准测试结合其他博客作了一个总结,这两天需要对hbase进行性能测试,这里也对雅虎的YCSB作一下自己的总结。1、YCSB介绍YCSB,全称为“Yah...

2018-03-09 17:36:27 2347

原创 hbase跨集群迁移(两集群网络不通)

这两天公司集群需迁移到华为FI大数据平台,hive,hbase,脚本等迁移就开始采坑了。。。先是查看资料hbase迁移大致有几种方案:1、distcp2、CopyTable3、Export and Import4、copyToLocal and copyFromLocal由于迁移是从cdh开源集群迁移到华为大数据平台(FI),一开始采用的第4中方法,网上找了些资料,数据也能正常上传,但是执行hba

2018-01-18 17:24:15 1630

原创 spark统计文件行数

虽然接触大数据2年了,以前对spark使用都是和solr建索引任务,由于目前的工作很少涉及spark了,为了不遗忘,从头开始复习一下spark,不同的是这次记录下来,一来方便自己查阅,二来对于刚入门的同行也算个案例。PS.高手勿喷1、spark读取文件,统计行数Intellj idea 开发工具环境就不在介绍了,网上很多教程,唯一需要注意的是你的spark或者scala版本与本地一致即可。

2018-01-04 15:09:06 10060

原创 Python命令行应用工具docopt

Python有很多写命令行应用的工具,如argparse, docopt, options...这里记录一下关于docopt的相关用法。#!/usr/bin/python#-*- coding:utf-8 -*-########################################注意:Usage 必须写,且必须和Options间隔一行#Usage 中的参数需在

2018-01-03 18:20:01 627

转载 python requests库相关操作api

看了一些python的代码,对python中requests的相关用法参数不是很理解,就百度了一下,发现一篇比较好的博文。原文地址:http://blog.csdn.net/shanzhizi/article/details/50903748

2017-12-13 10:00:09 369

原创 mysql创建用户以及赋权

1、创建用户CREATE USER 'username'@'host' IDENTIFIED BY 'pwd'; username --- 你将创建的用户名,;host ---- 指定该用户在哪个主机上可以登陆,如果是本地用户可用localhost, 如果想让该用户可以从任意远程主机登陆,可以使用通配符%;pwd --- 该用户的登陆密码,也可以为空; 例如创建一个用户

2017-12-08 10:19:18 479

原创 sparkstreaming官方文档笔记

1、sparksteaming 入门例子    注:代码摘自spark官方文档  http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-exampleimport org.apache.spark._import org.apache.spark.streaming._import

2017-12-07 15:27:35 289

翻译 Spark SQL RDD与DataFrames相互转换

一 、spark-SQL的DataFrame与RDD的相互转换通常有两种(spark 1.6.x):第一种方式是使用反射机制推断RDD中schema和类型信息。适用于已知schema的场景;第二种方式是通过程序接口构造数据的schema,将schema应用于RDD,此方式适用于程序开发时才能确定数据schema、类型的场景。1.1 第一种,通过反射推断schema信息     sp

2017-06-17 14:52:28 4286

转载 spark-SQL的DataFrame和DataSet

1、如何对DataFrame中封装的数据进行操作       方法一:                  sqlContext.read()    返回DataFrameReader对象         sqlContext.read().json("student.json")   读取一个json文件(这个json文件中的内容不能是嵌套的)读进来变成DataFr

2017-06-17 14:26:16 686

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除