自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

geekLinyi‘s Blog

记录大数据学习的每一步

  • 博客(39)
  • 收藏
  • 关注

原创 CentOS7与CentOS6的区别

CentOS7与CentOS6的区别暂时先引用,作为纪录,侵删暂时先引用,作为纪录,侵删https://www.cnblogs.com/bethal/p/5945026.html

2019-11-13 08:57:22 152

原创 combiner组合器

combiner组合器1. 作用:作用于Mapper端【但不能影响最终结果,max、sum行,avg不行】a.降低Mapper端的本地磁盘输出b.减少Reducer端的网络通信【在Map端做了一次Reduce操作】2. Temperature案例​ 【在Mapper后,开启Combiner,意味着在Reducer前执行了一次Reduce操作,可以降低Mapper端...

2019-09-29 22:23:42 195

原创 shuffle流程

shuffle流程The Reducer copies the sorted output from each Mapper using HTTP across the network.【Reducer通过网络使用http协议,从每个mapper复制排序后的输出】shuffle流程Map()函数Buffer(环形缓冲区)Partition(分区)Sort(排序)Spill ...

2019-09-29 22:23:09 203

原创 自定义InputFormat输入格式

自定义InputFormat输入格式<通过自定义InputFormat输入格式求文件中的奇数行和偶数行的平均数>0. 示例数据22183446192456553341491. 思路:将默认的<k1,v1>(偏移量,行值) --> <k1,v1> (行号,行值)1.1 重写TextInputFormat类1.1.1...

2019-09-29 22:22:35 684

原创 设定ReducerTask个数

设定ReducerTask个数设定ReducerTask个数,使用默认的HashPartitioner分区,对数据进行分区操作,提供给不同的Reducer处理【在源码中将定义的ReducerTask数提交给Partitioner,因此是Reducer数决定了Partition分区数】【Reducer输出从part-r-00000开始连续的】1. 测试数据import java.io.Bu...

2019-09-29 22:21:59 414

原创 partition分区

partition分区分区数决定了reducer数,业务数决定分区数默认情况下,job设置的reduceTasks为1,每个reduce对应生成一个结果文件reduce个数分为几种情况:ReduceTasks:0【无reduce阶段】ReduceTasks:1【默认】ReduceTasks:n【分多个文件】partition分区函数采用【org.apache...

2019-09-29 22:21:27 152

原创 天气数据案例分析

天气数据案例分析求每年的最高温度示例数据:0029029070999991901010106004+64333+023450FM-12+000599999V0202701N015919999999N0000001N9-00781+99999102001ADDGF1089919999999999999999991. 分析数据15-19位为年分数据87-91为气温数据92为校验...

2019-09-29 22:20:53 2840

原创 Mapper分析

Mapper分析public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { public abstract class Context implements MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> { } protected void setup(Conte...

2019-09-29 22:20:19 584

原创 认识wordcount(三)

认识wordcount(三)0. 执行前准备0.1 配置好的完全分布式环境高可用环境会有两个master节点,会报错,暂时没去找解决方案!但是可以在src下的配置文件配置,或者在程序中指定一个master,破坏高可用的两个master情况,但是不会变更整个集群环境,说起来就是暂时配置的一个环境。(修改【fs.defaultFS】【yarn.resourcemanager.hostname...

2019-09-29 22:18:27 74

原创 认识wordcount(二)

认识wordcount(二)0. 执行前准备0.1 配置好的完全分布式环境(如果遇到权限问题,给777)高可用环境会有两个master节点,会报错,暂时没去找解决方案!但是可以在src下的配置文件配置,或者在程序中指定一个master,破坏高可用的两个master情况,但是不会变更整个集群环境,说起来就是暂时配置的一个环境。(修改【fs.defaultFS】【yarn.resourcem...

2019-09-29 22:17:53 101

原创 认识wordcount(一)

认识wordcount(一)0. 执行前准备0.1 拷贝Hadoop二进制包中的可执行Jar包将Hadoop二进制包中的可执行Jar包拷贝到工程下新建的lib文件夹,将他们都右键【build path】->【Add to build path】0.2 设置日志配置文件将Hadoop二进制包中的hadoop-2.7.3\etc\hadoop\log4j.properties文...

2019-09-29 22:17:28 139

原创 分布式并行计算框架:数据在哪,计算在哪

分布式并行计算框架:数据在哪,计算就在哪【主要是map输入<k1,v1>,map的输出或reduce的输入<k2,v2>,reduce输出<k3,v3>分别代表什么,弄懂其中关系就容易了】【k1:表示字节数索引,v1:表示该行的值】【k2:表示map的context.write(key,value)的key值,v2:表示value值】【k3:表示以key...

2019-09-29 22:16:03 363

原创 通过HDFS FileSystem API 对 HDFS 进行操作

通过HDFS FileSystem API 对 HDFS 进行操作windows下安装eclipse-hadoop插件将hadoop-eclipse-plugin-2.6.0.jar复制到eclipse安装目录下的plugins文件夹中。将hadoop.dll和winutils.exe复制到Windows的hadoop安装目录的bin文件夹下Windows解压hadoop2.7.3配...

2019-09-29 22:15:00 356

原创 HDFS体系结构(各种进程状态)

HDFS体系结构(各种进程状态)NameNode【名称节点】开启方式(关闭方式):hdfs namenode(关闭Terminal)hadoop-daemon.sh start namenode(hadoop-daemon.sh stop namenode或杀死进程)start-dfs.sh(stop-dfs.sh或杀死进程)namenode默认大小...

2019-09-29 22:14:15 864

原创 HDFS命令详解

HDFS dfsadmin 命令详解-report:获取集群报表信息【心跳机制汇报的就是report信息】[hadoop@master ~]$ ·hdfs dfsadmin -report·Configured Capacity: 55935541248 (52.09 GB)Present Capacity: 39769579520 (37.04 GB)DFS Remaining:...

2019-09-29 22:12:19 268

原创 fsimage和edits_log

fsimage和edits_log分析1. 操作过程》》[hadoop@master ~]$ hdfs namenode -format》》[hadoop@master ~]$ start-dfs.sh Starting namenodes on [master]master: starting namenode, logging to /home/hadoop/soft/hadoop-...

2019-09-29 22:11:39 175

原创 HDFS 启动顺序

HDFS 启动顺序Loading fsimage:加载镜像文件首次开启集群时,加载镜像文件:{hadoop.tmp.dir}/dfs/name/fsimage_0000000000000000000再次开启集群时,Loading fsimage /home/hadoop/tmp/dfs/name/current/fsimage_0000000000000000002Loading ...

2019-09-29 22:10:46 982

原创 各种守护进程状态

各种守护进程状态文章目录各种守护进程状态1. 伪分布2. 完全分布式2.1 不开启yarn2.2 开启yarn(有MapReduce任务时才有MRAppMaster和YarnChild)3. 完全分布式(高可用)3.1 手动容灾3.1.1 不开yarn3.1.2 开启yarn3.2 Zookeeper自动容灾3.2.1 不开yarn3.2.2 开启yarn1. 伪分布master[h...

2019-09-17 11:16:02 622

原创 从零搭建完全分布式

从零搭建完全分布式基于CentOS_64_6.8、jdk1.8、Hadoop2.7.3一台master节点,3台slave节点【以下所有windows配置都是为了在同一网络环境下,部署一个windows远程ssh连接集群做操作或测试使用】文章目录从零搭建完全分布式0.安装前准备(所有节点都做,IP地址、主机名不同)0.1 设置静态IP0.1.1 查看子网IP0.1.2 查看MAC地址是否与...

2019-09-17 11:15:09 290

原创 伪分布基础上,搭建完全分布式

伪分布基础上,搭建完全分布式安装jdk拷贝并解压创建软链接安装hadoop拷贝并解压创建软链接配置环境变量配置jdk环境变量配置hadoop环境变量设置无密登录主节点设置无密登录,将公钥库保存给其他节点,就可以通过ssh 其他机器名远程登录其他机器节点创建密钥创建公钥库设置hadoop配置文件修改core-site.xml修改h...

2019-09-17 11:13:07 300

原创 多次初始化namenode产生的异常

namenode与datanode初次初始化name#Sun Sep 08 23:36:43 PDT 2019namespaceID=903658744clusterID=CID-77684598-9de2-4dfc-bab5-14e503c65dfecTime=0storageType=NAME_NODEblockpoolID=BP-1528666264-192.168.204...

2019-09-17 11:01:30 582

原创 CentOS6.8虚拟机搭建完全分布式

虚拟机搭建完全分布式文章目录虚拟机搭建完全分布式1. 主节点配置1.1 安装系统环境1.2 设置静态IP1.2.1 查看子网IP【VMWare15】1.2.2 查看MAC地址是否与eth0匹配1.2.3 root用户下修改【/etc/sysconfig/network-scripts/ifcfg-eth0】1.2.4 重启网络服务1.2.5 设置windows主机中的虚拟网卡VMnet81.2....

2019-09-08 21:36:32 437

原创 伪分布基础上,搭建完全分布式

伪分布基础上,搭建完全分布式安装jdk拷贝并解压创建软链接安装hadoop拷贝并解压创建软链接配置环境变量配置jdk环境变量配置hadoop环境变量设置无密登录主节点设置无密登录,将公钥库保存给其他节点,就可以通过ssh 其他机器名远程登录其他机器节点创建密钥创建公钥库设置hadoop配置文件修改core-site.xml修改h...

2019-09-08 21:18:02 338

原创 namenode和datanode启动问题

namenode和datanode启动问题当namenode启动datanode宕掉,或者datanode启动namenode宕掉时,考虑clusterID出现了不一致情况使用hdfs namenode开启namenode节点,查看错误日志,对于所有的节点启动异常就去找日志。HDFS中的守护进程启动异常就使用hdfs command来查看日志,或者到对应的节点的/home/hadoop/sof...

2019-09-08 21:15:47 1266

原创 Hadoop Pseudo-Distributed Mode:【伪分布模式】搭建

2. Hadoop Pseudo-Distributed Mode:【伪分布模式】搭建基于CentOS_64_6.8、jdk1.8、Hadoop2.7.3[hadoop伪分布模式运行在单节点上,每个hadoop守护进程占用单独的Java进程]设定CentOS的用户名为hadoop自定义的集群软件安装位置:在/home/hadoop下创建一个soft目录文章目录2. Hadoop Ps...

2019-09-08 21:08:56 688

原创 Hadoop基础

1. Hadoophadoop是一个分布式的、开源的、高可靠的、可扩展的软件框架。分布式:​ 【GFS(存储),MapReduce(计算)两篇论文】【bigtable(大表)】hadoop组成【2.7.3版本】Hadoop CommonHadoop Distributed Files System(HDFS)【默认端口号:8020(1.0则是9000)】【外部...

2019-09-08 21:06:36 354

原创 shell脚本

shell脚本shell变量命名规则:首字为字母,其余字母大小写,数字加_。并且不能用bash中的关键字语法:自定义的变量名=“变量值”【其中"="两边不能有空格】for 变量名 in 集合【集合可以都列出来,也可以是通过语句查询得到】示例:$>str=“I love my country! I love China!”$>for file in `l...

2019-09-06 09:04:12 153

原创 linux软件安装

软件安装rpm安装【必须下载安装包,使用命令对安装包全名进行安装】rpm命令示例操作-qrpm -q mysql查看mysql是否安装【可以用通配符*】-qarpm -qa查看所有已安装的rpm包-qirpm -qi mysql查看mysql的软件包信息-qlrpm -ql mysql查看mysql安装路径-qfrpm -qf...

2019-09-06 08:57:57 87

原创 CentOS6 安装中文输入法

CentOS6 安装中文输入法切换到root用户,安装输入法yum -y install "@Chinese Support"[root@master hadoop]# yum -y install "@Chinese Support"已加载插件:fastestmirror, refresh-packagekit, security设置安装进程Loading mirror sp...

2019-09-06 08:56:59 1121

原创 Linux压缩与解压缩

Linux压缩与解压缩gzip压缩压缩示例结果gzip$>gzip filefile.gz-v$>gzip -v file压缩时,显示压缩率-c$>gzip -c file将内容二进制输出$>gzip -c file >file.gz就可以实现保留源文件的压缩-f$>gzip -f file...

2019-09-06 08:47:57 85

原创 Linux磁盘扩容

Linux磁盘扩容#>fdisk -l【查看磁盘分区信息】Disk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical...

2019-09-02 14:58:21 462

原创 linux常见命令

linux常见命令目录切换cd行为.本级目录…父级目录/根目录-上次操作目录~用户家目录绝对路径/home/hadoop相对路径hadoop常见命令常见命令操作pwd当前文件位置ln -s 源文件 目标文件ln -s 源目录 目标目录给源文件或目录设置软链接【相当于快捷方式】...

2019-09-02 13:55:11 108

原创 linux用户组管理

linux用户组管理创建用户组$>groupadd lili删除用户组$>groupdel lili修改用户组$>groupmod -n lili mumu【将lili组名改为mumu】将用户添加入组中$>usermod -g lili mumu【更新用户mumu的组为lili】$>useradd -g lili mumu【添加新用...

2019-09-02 11:25:33 91

原创 linux用户管理命令[添加sudo临时root权限]

用户管理命令[添加sudo临时root权限]​ 添加用户必须在root用户下操作:添加用户$>useradd mumu添加密码$>passwd mumu【然后输入两次密码】$>useradd mumu -p 123456【直接在创建是添加密码】删除用户$>userdel mumu$>userdel -r mumu【同时删除用户目录】...

2019-08-30 14:55:00 235

原创 Linux关机重启指令

Linux关机重启指令一、基本语法1.sync(同步内存数据到硬盘中)2.shutdown[-h|-r] 时间-h:关机-r:重启3.halt(关机:shutdown -h now)4.reboot(重启:shutdown -r now)二、案例1.$>sync【将数据同步到硬盘中】2.$>shutdo...

2019-08-30 14:20:02 97

原创 linux文件权限管理

文件权限管理结构​ 【-rw-r–r--. 1 root root 969 5月 11 2016 yum.conf】第一位【d:目录|l:链接文件|-:普通文件】第二至四位【文件所有者访问权限】第五至七位【用户组访问权限】第八至十位【其他用户访问权限】文件则表示硬连接个数,目录则表示,包含几个子子目录数,包括【.|…】文件所有者文件所有组文件大小(字节)时间...

2019-08-22 15:03:16 69

原创 防火墙设置(CentOS6.8)

防火墙设置查看防火墙状态$>service iptables status【防火墙状态(开启)】Table: filterChain INPUT (policy ACCEPT)num target prot opt source destination1 ACCEPT all – 0.0.0.0/0 ...

2019-08-22 14:55:50 123

原创 设置静态ip(CentOS6.8)

设置静态ip查看子网ip:​ 【编辑】–>【虚拟网络编辑器】–>​ NET:(VMnet8)中:​ 子网号码(192.168.204.0)【192.168.204 是将要加入的网段】​ 子网掩码(255.255.255.0)查看MAC地址是否与eth0匹配对比ifconfig中的MAC地址与/etc/udev/rules.d/70-pe...

2019-08-22 10:07:58 538

原创 linux文件系统

linux文件系统目录名作用/bin:是binary的缩写,存放系统必备的执行命令/boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件/dev:Device(设备)的缩写,该目录下存放的是Linux的外部设备,在Linux中访问设备的方式和访问文件的方式是相同的。/etc:所有的系统程序所需要的配置文件。/h...

2019-08-22 09:01:47 74

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除