自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 浅谈大数据

让更多的人了解大数据,让大数据更加普及,让大数据改变人们的生活。大数据---指导行为、改变思维、推动社会发展

2017-12-26 20:19:23 739

原创 用最短的时间学会使用Azkaban来管理我们的任务

学会使用Azkaban来管理我们的任务Azkaban是什么:    Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban架构:1、MySQL实例:Azkaban使

2017-10-26 20:34:04 3235

原创 linux之shell编程

shell脚本的执行方式:1、sh helloworld.sh2、source helloworld.sh或 . helloworld.sh3、使用脚本文件的绝对路径直接执行该脚本文件:/root/test/helloworld.sh(需要可执行权限)最简单的shell编程:第一步:打开文本编辑器vim helloworld.sh

2017-10-26 10:13:58 361

原创 This application failed to start because it could not find or load the Qt platform plugin "

今天使用pycharm进行绘图,结果发现报错,代码在其他机器运行正常,原因已经找到,是因为使用Anaconda进行python的配置,但是在配置完python后将Anaconda的安装目录进行了修改,但是在Anaconda中打开qt.conf文件查看后发现,该配置文件配置的路径是修改前的路径,所以我将qt.conf的路径修改成了正确的路径,结果错误消失.报错信息如下:我在我的Ana

2018-01-31 11:06:07 1711 2

原创 ZooKeeper(一)之为什么要使用ZooKeeper

ZooKeeper是什么?ZooKeeper是一个分布式协调服务,它致力去解决如何在分布式环境下保持数据一致性的问题。ZooKeeper是致力于解决分布式上各种协调问题的一个服务。 ZooKeeper是干什么的?1、可以保证事务执行顺序的一致性:在分布式系统中,在没有ZooKeeper的时候,多台服务器上执行任务我们需要考虑各台服务器上任务的协调,比如事务A在事务B前面执行,由

2017-10-30 16:20:18 3788 1

原创 hive中如何自定义编写UDF函数

有时候hive提供的内置函数无法满足我们的需求,这时候我们就可以自定义函数了,步骤如下:1、编写UDF代码2、打包成jar包然后上传到服务器3、将jar包添加到hive中4、创建临时函数与写好的class绑定5、使用我们自定义的函数6、销毁不需要的函数1、编写UDF代码:我们使用eclipse编写java代码,首先我们需要导包,将hive安装目录下lib目录

2017-10-26 20:02:19 1880

原创 linux中合并多个文本文件以及对数据的处理

合并文件: 当一个文件夹下有很多的较小的文本文件,我们希望将其合并成一个文件,可以使用cat  文件夹名/*  >  文件名如/home/user/sougou/目录下有500个1M大小的文本文件,我们希望将其合并成一个文件:先cd到家目录下:cd /home/user然后合并文件:cat sougou/* > sougouall.txt执行以上命令后我们将在/home/u

2017-10-26 19:46:05 3226

原创 linux中批量添加用户

首先创建一个文件,用来保存用户名称:cd /vim users.txt编辑用户信息:user1user2user3user4编辑shell脚本:vim adduser.sh#!/bin/bashULIST=$(cat /users.txt)for UNAME in  $ULISTdouseradd $UNAMEecho "123456

2017-10-26 10:58:52 1893

原创 Hive中and和or的执行顺序

今天在网上看到hive中and的执行优先级比or高,觉得很奇怪,于是就亲自尝试了一下,发现果然如此,下面是我测试的一些简单语句:select  1 from student where 1=0 or 1=1 and 1 = 0;执行结果为空select 1 from student where 1=0 or 1=1 and 1 =1;执行结果为1第二个select语句毫无疑问w

2017-10-25 21:21:12 15021 2

原创 如何编写最简单的MapReduce之WordCount程序

Mapper端:Map端传入的数据是一个文本格式的数据,每一行都分别执行map方法,map方法调用的次数等同于文本的行数Redecer端:map端传来的数据进入reduce方法前会分组和排序,因此进入reduce方法的数据是已经按key分组后的数据,每一个相同的key所对应的多个value都存放到迭代器中,所有相同key的数据一起执行一次reduce方法,因此r

2017-10-25 11:52:57 401

原创 关于hive的总结

hive的总结:group by:     group by中有若干陷阱,首先,group by中不能使用当前层次中select查询字段的别名,如:select  name a,count(*) from student group by a;这句查询语句是错误的,但是,group by可以使用子查询中select查询字段的别名,如:select m.a,count(*) from

2017-10-25 11:11:06 408

原创 WritableComparable

MapReduce中WritableComparable该接口实现了Writable和Comparable接口,而Writable接口中定义了readFields(DataInput in)方法和write(DataOutput out)方法,分别用来实现序列化和反序列化,而Comparable接口中定义了compareTo方法,该方法用来重写shuffle过程中对key的排序,因此如果想要让自定

2017-10-25 10:43:48 1406

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除