只愿长胖十斤-CSDN博客

原创浅谈大数据

让更多的人了解大数据，让大数据更加普及，让大数据改变人们的生活。大数据---指导行为、改变思维、推动社会发展

2017-12-26 20:19:23 739

原创用最短的时间学会使用Azkaban来管理我们的任务

学会使用Azkaban来管理我们的任务Azkaban是什么： Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban架构：1、MySQL实例：Azkaban使

2017-10-26 20:34:04 3235

原创 linux之shell编程

shell脚本的执行方式：1、sh helloworld.sh2、source helloworld.sh或 . helloworld.sh3、使用脚本文件的绝对路径直接执行该脚本文件：/root/test/helloworld.sh(需要可执行权限)最简单的shell编程：第一步：打开文本编辑器vim helloworld.sh

2017-10-26 10:13:58 361

原创 This application failed to start because it could not find or load the Qt platform plugin "

今天使用pycharm进行绘图，结果发现报错，代码在其他机器运行正常，原因已经找到，是因为使用Anaconda进行python的配置，但是在配置完python后将Anaconda的安装目录进行了修改，但是在Anaconda中打开qt.conf文件查看后发现，该配置文件配置的路径是修改前的路径，所以我将qt.conf的路径修改成了正确的路径，结果错误消失.报错信息如下：我在我的Ana

2018-01-31 11:06:07 1711 2

原创 ZooKeeper（一）之为什么要使用ZooKeeper

ZooKeeper是什么？ZooKeeper是一个分布式协调服务，它致力去解决如何在分布式环境下保持数据一致性的问题。ZooKeeper是致力于解决分布式上各种协调问题的一个服务。 ZooKeeper是干什么的？1、可以保证事务执行顺序的一致性：在分布式系统中，在没有ZooKeeper的时候，多台服务器上执行任务我们需要考虑各台服务器上任务的协调，比如事务A在事务B前面执行，由

2017-10-30 16:20:18 3788 1

原创 hive中如何自定义编写UDF函数

有时候hive提供的内置函数无法满足我们的需求，这时候我们就可以自定义函数了，步骤如下：1、编写UDF代码2、打包成jar包然后上传到服务器3、将jar包添加到hive中4、创建临时函数与写好的class绑定5、使用我们自定义的函数6、销毁不需要的函数1、编写UDF代码：我们使用eclipse编写java代码，首先我们需要导包，将hive安装目录下lib目录

2017-10-26 20:02:19 1880

原创 linux中合并多个文本文件以及对数据的处理

合并文件：当一个文件夹下有很多的较小的文本文件，我们希望将其合并成一个文件，可以使用cat 文件夹名/* > 文件名如/home/user/sougou/目录下有500个1M大小的文本文件，我们希望将其合并成一个文件：先cd到家目录下：cd /home/user然后合并文件：cat sougou/* > sougouall.txt执行以上命令后我们将在/home/u

2017-10-26 19:46:05 3226

原创 linux中批量添加用户

首先创建一个文件，用来保存用户名称：cd /vim users.txt编辑用户信息：user1user2user3user4编辑shell脚本：vim adduser.sh#!/bin/bashULIST=$(cat /users.txt)for UNAME in $ULISTdouseradd $UNAMEecho "123456

2017-10-26 10:58:52 1893

原创 Hive中and和or的执行顺序

今天在网上看到hive中and的执行优先级比or高，觉得很奇怪，于是就亲自尝试了一下，发现果然如此，下面是我测试的一些简单语句：select 1 from student where 1=0 or 1=1 and 1 = 0;执行结果为空select 1 from student where 1=0 or 1=1 and 1 =1;执行结果为1第二个select语句毫无疑问w

2017-10-25 21:21:12 15021 2

原创如何编写最简单的MapReduce之WordCount程序

Mapper端：Map端传入的数据是一个文本格式的数据，每一行都分别执行map方法，map方法调用的次数等同于文本的行数Redecer端：map端传来的数据进入reduce方法前会分组和排序，因此进入reduce方法的数据是已经按key分组后的数据，每一个相同的key所对应的多个value都存放到迭代器中，所有相同key的数据一起执行一次reduce方法，因此r

2017-10-25 11:52:57 401

原创关于hive的总结

hive的总结：group by： group by中有若干陷阱，首先，group by中不能使用当前层次中select查询字段的别名，如：select name a,count(*) from student group by a;这句查询语句是错误的，但是，group by可以使用子查询中select查询字段的别名,如：select m.a,count(*) from

2017-10-25 11:11:06 408

MapReduce中WritableComparable该接口实现了Writable和Comparable接口，而Writable接口中定义了readFields(DataInput in)方法和write(DataOutput out)方法，分别用来实现序列化和反序列化，而Comparable接口中定义了compareTo方法，该方法用来重写shuffle过程中对key的排序，因此如果想要让自定

2017-10-25 10:43:48 1406

彪彪的博客