自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 CentOs6.5配置Samba

首先介绍一下Samba        Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,由服务器及客户端程序构成。SMB(Server Messages Block,信息服务块)是一种在局域网上共享文件和打印机的一种通信协议,它为局域网内的不同计算机之间提供文件及打印机等资源的共享服务。SMB协议...

2019-03-20 14:59:04 1521

原创 使用ECS搭建hdfs启动时报java.net.BindException: Problem binding to [node01:9000] java.net.BindException异常

2019-01-22 16:54:42 4527 5

原创 Sending the email to the following server failed : smtp.aliyun.com:25

最近在学nutz框架,今天在看Wendal大哥的进阶手册,在做邮箱验证板块测试发送邮件的第一步就出错了,具体错误如下:org.apache.commons.mail.EmailException: Sending the email to the following server failed : smtp.aliyun.com:25 at org.apache.commons.mail.Em...

2018-12-26 21:40:47 4407 1

原创 Spark的pipeline计算模式

Spark计算数据是基于pipeline模式的,在介绍spark如何进行pipeline计算之前首先介绍一些专业术语:Master(standalone):资源管理的主节点(进程)Cluster Manager:在集群上获取资源的外部服务(例如standalone,Mesos,Yarn )Worker Node(standalone):资源管理的从节点(进程) 或者说管理本机资源的进程Ap...

2018-12-10 16:01:36 2007

原创 Spark计算的核心RDD

在SparkCore中的一切计算都是基于RDD的,那RDD是个什么东西呢?RDD是Resilient Distribute Dataset(弹性分布式数据集)的缩写,说白了,RDD可以理解为spark处理数据的基本单位,但是RDD又不是真实的存有数据,它只是具有操作数据的能力,相当于一个租房中介,中介手上掌握了一手的房源信息,而sparkCore就相当于租房子的人,一般直接找到房子不简单,所以我...

2018-11-18 16:12:39 917

原创 Spark集群搭建

准备工作spark集群(standalone模式)的搭建比较简单,搭建环境:5台CentOs6.5虚拟机:client,node01,node02,node03,node04集群规划:前置工作:各个节点配置好JDK,本次搭建使用的jdk版本:[root@node01 ~]# java -versionjava version "1.8.0_121"Java(TM) SE Runti...

2018-11-12 20:17:55 231

原创 Spark是什么

Spark是什么?引用官网(官方网址:http://spark.apache.org/)的一段话:Apache Spark™ is a fast and general engine for large-scale dataprocessing.Apache Spark is an open source cluster computing system that aims tomak...

2018-11-11 13:49:19 350

原创 Hive使用正则表达式读取数据

上一篇博客中hive中加载的数据都是比较规整的(Hive的基本操作:https://blog.csdn.net/Chris_MZJ/article/details/83713882),字段与字段之间都是分割好的,每一个字段都不是脏数据,并且每一个字段都是有意义的但是在真实场景中不见得这个尽人意。比如hive要读取以下格式的tomcat的运行日志:192.168.57.4 - - [29/Feb...

2018-11-11 12:46:48 3024

原创 Hive的表操作

hive基本上完全兼容sql语句的,所以操作hive的语法与sql类似

2018-11-10 20:50:09 1115

原创 初学大数据之HDFS

HDFS是分布式存储实现的一种方式,或者一种软件。HDFS有NameNode节点,SecondaryNameNode节点,DataNode节点,client客户端,各个节点都是一个服务器。HDFS的工作流程:client:将要上传到服务器的各个节点的数据进行切割计算,切割的单位是block块,blocks=文件大小/128M(默认block大小:128M)。         切割完成后向Na...

2018-11-06 15:17:48 174

原创 什么是大数据以及大数据的相关技术?

   所谓大数据,通俗理解就是短时间内快速产生的海量数据的各种有价值的数据,关键词是时间短,快速,海量,有价值,数据,通过大数据技术分析海量数据来得到其中有价值的数据用于商业途径,譬如分析用户的行为来进行定向广告投放,产品推荐等等。而处理大数据的技术主要有:分布式存储:多台服务器并行计算(分布式计算)分布式的处理方式又分为批处理和流处理。所谓批处理,就是先攒一段时间的数据,等到又需求的时候...

2018-11-06 15:17:34 1595

原创 HIve数据仓库应用及搭建

1、Hive是什么         Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能。 通俗讲,其实HIVE就是一个

2018-10-26 19:36:52 1342

原创 基于HDFS的MapReduce计算框架

学习MapReduce的原理(https://blog.csdn.net/Chris_MZJ/article/details/83099262)之后,我们来看看MapReduce是如何在HDFS集群上实现的。分布式计算框架的思想一般都是计算找数据,这样能减少数据传输中的网络IO开销,可以将一个计算线程比作一个伐木工人,数据就是山上的树木,工人工作肯定是携带工具上山伐木的,而不能把山搬到工人的家中来...

2018-10-21 20:56:35 505

原创 MapReduce结合WordCount详解

MapReduce技术引入大数据时代的数据分析任务比传统的数据分析任务要复杂,因为往往涉及的数据量巨大,比如要分析汇总某个大型零售商在全国的销售数据,查看某个搜索引擎的特定词条的访问日志… … 通常来讲,我们的笔记本电脑可以同时干很多事儿,比如听音乐,编辑Word文档,下载电影,这些都可以同时进行,为什么呢?因为这些程序任务处理的数据量规模小。而对于大规模的数据处理任务来说,就不是一台电脑同时做...

2018-10-17 10:43:27 514

原创 使用Java操作HDFS

          在搭完了高可用HDFS集群后,可以在Eclipse中使用Java来操作HDFS,进行文件的读写等操作。高可用HDFS集群搭建步骤: https://blog.csdn.net/Chris_MZJ/article/details/83033471使用Eclipse连接HDF

2018-10-16 09:43:23 1001

原创 分布式HDFS详解

       Hadoop的历史:           Hadoop的思想起源是Google当年发布三篇论文,GFS,Map-Reduce和BigTable。2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基

2018-10-15 16:45:22 298

原创 高可用HDFS完全分布式搭建

下面介绍高可用HDFS完全分布式的搭建步骤:第一步:在VmVare中安装四台CentOs6.5,主机名分别为node1,node2,node3,node4,(这样配置主机名是为了搭建的时候方便和节点关联)。第二步:分别配置这四台主机的网络。修改/etc/sysconfig/network-scripts/下的ifcfg-eth0文件,使ONBOOT=yes,BOOTPROTO=none,再添...

2018-10-14 19:17:34 320

原创 HDFS完全分布式搭建

下面介绍HDFS完全分布式的搭建:第一步:在VmVare中安装四台CentOs6.5,主机名分别为node1,node2,node3,node4,(这样配置主机名是为了搭建的时候方面和节点关联)。第二步:分别配置这四台主机的网络。修改/etc/sysconfig/network-scripts/下的ifcfg-eth0文件,使ONBOOT=yes,BOOTPROTO=none,再添加以下文...

2018-10-11 12:54:15 388

原创 JSP中JavaBean设置通过表单设置bean相应属性的值(setProperty)的注意事项

如果使用HTTP表单的参数的值来设置bean中相对应的属性的值可以使用如下setProperty标记:<jsp: setProperty name = "bean的id" property="*"/>使用上述标记设置bean的属性值,要求bean的"属性名"和表单中所对应的"参数名"相同(注意:大小写也要相同),该标记不再具体指定beans属性的值对应表单中哪个参数指定的值,系统会自动...

2018-04-07 15:13:36 5712 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除