自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

如果能思维清晰,从上往下,不断深入,就好了~~~

JAVA开发‘、大数据 Hadoop的相关技术

  • 博客(38)
  • 收藏
  • 关注

原创 Redis的安装 windos和Linux

windows安装redis 资源链接入口地址: https://github.com/MicrosoftArchive/redis/releases下载导航-选择 2.8.x 版本均可下载完成后,直接解压即可投入使用。开启服务 cmd 进入对应目录后,找到服务命令 redis-server.exe,至少设置 maxheap 后即可运行,如设置最大可占 256M 内存,则对...

2018-12-26 20:59:19 359

原创 Redis的简介和JAVA工具类实现

redis是什么Redis是完全开源免费的,遵守BDS协议的,是一个高性能的key-value内存型数据库redis主要特点支持数据持久化,可以将内存中的数据保存在磁盘中,重启的时候自动再次加载进行使用。既支持key-value 类型的数据操作,还提供 list, set, zset, hash 等数据结构的存储。新版 3.x 也支持分布式布署模式,真正实现了数据块的分布式存储...

2018-12-26 20:54:29 280

原创 Linux常用命令以及一些拓展知识

 下面都是之前对用到过的Linux命令的总结,今天来回顾回顾常用命令-基础命令Linux命令,严格区分大小写!!!!!service sshd status         查看ssh服务运行状态service sshd start          ssh服务开启ifconfig 查看网络状态ping www.baidu.comstartx 开启图型界面ser...

2018-12-26 15:11:27 328

原创 BerkeleyDB数据库的简介和工具类的JAVA实现

        berkeleydb是一款古老而功能强大嵌入式数据库(伴随代码运行存在),数据插入和查询效率极高,内外存相结合的 kv 数据库、文件型数据库。内存意味着效率极高,外存意味着可持久化。早期MySQL的元数据就使用berkeleyDB存储。BDB跨语言支持l良好,且轻量级可拓展,是不错的非关系型数据库选择,适合构建查询引擎。       当然他也有缺点:无网络通信模块,数据共享不方便...

2018-12-24 21:24:20 878 5

原创 使用hive UDF格式化Linux字符串成json对象

回顾项目中一个小部分,通过表字段名与字段值生成json对象,这个json对象通过表中的另一个字段查询package com.tl.g3.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import com.alibaba.fastjson.JSONObject;public class JsonFormatUDF extends...

2018-12-24 20:50:22 648

原创 java实现二分查找,循环和递归

顺序查询  时间复杂度O(n)就是简单粗暴遍历每个元素,判断是否相等,返回元素在列表中的位置。二分查找 时间复杂度O(log2  n) 以2为低n的对数循环法 //循环法表示二分查找 public static int testEf(int[] a,int ins,int b,int i) { int result = 0; int mid = (b + i...

2018-12-23 08:03:48 400

原创 Java利用循环输出空心菱形

昨天写的一个有趣的输出菱形逻辑方法下面代码实现是实心菱形,若想实现空心菱形,只需要把所有不等式换成等式,&&换成||即可 // 输出菱形 public static void test(int n) { n = 2 * n - 1; int[][] a = new int[n][n]; for (int i = 0; i < a.length; i++...

2018-12-23 07:53:48 585

原创 java实现排序的几种方法,冒泡,选择,快速排序

使用API进行排序Collenctions.sort() 至少需要传入一个list,默认逻辑是升序,若list的存储的元素类实现comparable,则按元素类重写的compareTo方法排序当Collenctions.sort() 传入一个list和一个comparator的实现类时,排序逻辑将会是comparator实现类重写后的compareTo方法,使用此种方法时,comparat...

2018-12-23 07:47:59 232

原创 Java 多线程的一些知识 和简单代码实现

程序    存在磁盘中的引用进程    运行在内存中的程序线程概念    轻量级的进程        同一进程下,可有许多的线程,这些线程共享堆内存和方法区        同一进程下,不同线程有不同的栈内存和程序计数器作用    提高进程的执行效率线程安全    synchronized  锁机制        锁对象        锁方法...

2018-12-17 10:04:15 221

原创 JVM内存简要分析

以图的形式作各说明吧,自己做的图,若有不足不对处请各位指出 

2018-12-17 09:40:54 115

原创 Scoket编程实现客户端服务端

好久以前的代码了今天拿来看看基本实现了客户端和服务端的交互,客户端多线程,服务端单例加锁当时写的时候没有注释,也没有解耦合(测试代码多线程的部分都堆在一起了),现在看来真是写的一团糟,好在基本功能实现按了,感觉服务端应该还可以封装一个有限队列这样比较好,比直接数组会好很多贴代码服务端//服务器代码package netCS;import java.io.Buffered...

2018-12-15 20:36:33 128

原创 Java IO流继承体系及代码实现

作用:数据的传输分类字节流InputStream        FileInputStream 文件流  能处理二进制文件也能处理文本        BufferedInputStream缓冲流  能处理二进制文件也能处理文本                BufferedInputStream bis=new BufferedInputStream(new FileInp...

2018-12-15 17:07:51 815

原创 ansj分词器 java分词器 的hive UDF实现

前段时间做了一个小项目用到了ANSJ分词器 来说说怎么使用吧先说这是一个Maven项目,需要对pom.xml文件修改增加依赖依赖如下 写在dependencies内不用说了吧 <!-- ansj依赖jar配置 ==start --> <dependency> <groupId>org.ansj</groupId> &l...

2018-12-15 16:15:04 1248 1

原创 Hadoop、Hive数据格式、压缩格式对比分析,及其他linux压缩格式或命令

Hadoop Hive数据格式文件格式   txt  面向行  可分割并行计算  非原  查看简单编辑简单  无压缩、占磁盘大、IO压力大   seq  面向行   可分割并行计算  原生  二进制kv存储,支持行压缩和块压缩  压缩    生产环境,常用于mr的中间数据存储   rc  面向列  可分割并行计算  原生  行列式文件、减少不必要的IO、提高IO效率  自带压缩、省...

2018-12-15 15:58:29 406

原创 MapReduce原理简介

昨天其实写了一部分Mapreduce的运行原理 见博客https://blog.csdn.net/weixin_42231373/article/details/85010279写了细节部分今天以图的方式结合文字来捋捋思路0)   用户提交任务 (含数据)1)    集群首先对输入数据源进行切片2)    master 调度 worker 执行 map 任务3)    work...

2018-12-15 10:28:32 2536

原创 MapReduce JAVA框架开发流程,后附代码实现

MapReduce JAVA框架开发流程总体流程用户提交任务给集群 集群首先对输入数据源进行切片 master 调度 worker 执行 map 任务 worker 读取输入源片段 worker 执行 map 任务,将任务输出保存在本地 master 调度 worker 执行 reduce 任务,reduce worker 读取 map 任务的输出文件 执行 reduce 任务...

2018-12-14 22:15:24 1172

原创 HDFS JAVA API开发的思路及工具类代码

前面刚刚介绍了hdfs的架构及运行原理,有想看的见https://blog.csdn.net/weixin_42231373/article/details/85005667现在我们来说说如何使用java API 开发HDFS,下面是些简单的思路 后面会有代码 建项目时修改pom.xml 文件           增加Hadoop的依赖  强调一下我说的是maven项目,普通项目自行下...

2018-12-14 20:31:20 317

原创 HDFS 分布式文件系统原理的个人理解

HDFS 分布式文件系统什么是HDFS?是分布式的文件系统,部署在多台计算机上,形成一个统一的文件系统为什么有HDFS?解决传统单机文件系统不足之处,传统文件系统存在IO瓶颈。传统文件系统就像从一个磁盘读取100G的文件,由磁盘性能决定读取速率,分布式文件系统就像从10个磁盘分别同时读取10G文件,即使IO仍存在瓶颈,我们却可以通过提高并行度来提高读取速度架构设计HDF...

2018-12-14 16:29:42 1026

原创 Maven基本使用

产生背景基于软件生命周期、项目自动化构建和jar包依赖管理而开发的工具安装配置见之前的博客Maven项目目录结构src 是工作目录main存放主程序代码test存放测试代码resources存放配置文件java文件存放.java源文件target 存放本项目打包后的jar包pom.xml文件为本项目配置文件,仓库源,编译、测试、打包发布、安装 ...

2018-12-13 21:37:49 158

原创 Git实际应用与CSV简介

版本控制系统(vcs)发展VCS:version control system 的简称,是一种记录文件内容变化,以便未来查看修改回退的系统本地VCS:手动方式集中VCS : CVS,SVN分布式VCS:git,bitKeeper,Mercurial2、git工作原理Git是开源分布式版本控制系统,去中心化大小项目均可以灵活管理,参与开发人员比较灵活架构四层...

2018-12-12 16:52:11 509

原创 Maven的安装 配置

自行下载安装包Maven官网是http://maven.apache.org/),个人使用的是Maven 3.0.5(安装在64位Windows 7上) 安装(即解压缩)  注意选择个人安装路径 配置环境变量此电脑右键-->属性-->高级系统设置-->环境变量-->系统环境变量-->新建-->变量名MAVEN_HOME (或者M2_HOME,...

2018-11-30 22:07:11 104

原创 使用Ambari在线安装Hadoop集群

Ambari在线安装1.创建虚拟机:导入镜像文件、以光盘启动      本人自己使用3台虚拟机搭建小集群2.关机:修改启动项 -> 硬盘启动、桥接模式3.重启之后:ifconfig、测试网络连通性 ping www.baidu.com            service sshd start            chkconfig sshd on4.xshell操...

2018-11-30 17:06:43 328

原创 Git的简单使用

Git使用Git工具 前需注册GitHub 然后安装Git bash 命令行客户端       安装过程:选目录傻瓜式安装(一直next,install)      两种连接方式:https和SSH    git bash客户端上输入如下:    git config --global user.name "(对应你github的用户名)"    git con...

2018-11-30 16:45:03 88

原创 对Linux系统作简单的配置

Linux搭建集群前的一些配置安装 rzsz 小工具:yum install lrzsz           安装 rzsz 小工具yum -y install gcc        安装c编译器修改主机名:    vim /etc/sysconfig/network    #HOSTNAME=master     vim /etc/sysconfig/networ...

2018-11-30 16:34:49 129

原创 使用Eclipse作开发前的简单配置

使用Eclipse作为开发工具前需作一些简单配置,然后才能快乐的敲代码先下载Eclipse JavaEE版安装包       自行安装即可       Elicpse配置    记得每次切换工作空间都是重新设置project --> Automatically 去d掉勾 去掉自动构建window --> preferences --> Genera --> ...

2018-11-30 16:27:57 184

原创 python安装配置 windows和linux

Windows版配置python需要先下载windows版python安装包安装 傻瓜式安装(注意选安装目录)配置环境变量       此电脑右键-->属性-->高级系统设置-->环境变量-->系统环境变量-->新建-->变量名PYTHON_HOME-->值:安装路径(下面是bin文件夹)       系统环境变量-->Path-...

2018-11-30 16:18:20 148

原创 JDK配置问题,windows和linux

在阅读博客之前最好先有基于系统的jdk安装包,Java官网为https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html建议不要下载过高的版本,1.7是一个使用广泛且相对稳定的版本,Hadoop2对高于自身jdk版本的代码有不兼容的部分,当然如果你不在意以后可能出现的bug的话可以不考虑...

2018-11-30 16:08:46 160

原创 JDBC&DBCP连接Mysql的实现思路及样例

无论是使用JDBC还是DBCP连接池都需要相关jar包依赖,先将jar包到入到项目路径下才能成功获得mysql连接导jar包,本人使用的是eclipse       jdbc依赖的jar包         mysql-connector-java-5.1.32.jar 导到项目目录下的lib文件,右键项目名 Build Path -->Configure Build Path --...

2018-11-30 15:44:05 180

原创 java单例模式的实现 及volatile关键字的简单说明

对Java现有二十三种设计模式之一的单例模式的一种实现思路私有的构造方法私有的单实例对象引用公有的供外部访问单实例的方法使用双重锁检查机制,提高安全性,且降低了锁力度不太耗费性能,只在初次创建对象时加锁 单实例样例public class SingletionDemo {       private static volatile SingletionDemo s...

2018-11-30 09:58:58 1752 3

原创 Hadoop生态圈概述

一、 Hadoop 概述项目起源Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。目前 Hadoop 版本以 Hadoop2.7.x 为主,我个人测试集为 ...

2018-11-28 15:13:57 1298

原创 Hadoop集群环境下的 Yarn shell 命令

Yarn  shell 命令yarn                                                          查看二级命令yarn version                                              产看版本yarn jar jarname mainClassPath               用yarn...

2018-11-28 15:01:58 1092

原创 Hadoop集群环境下的 MapReduce shell 命令

MapReduce shell命令mapred 查看二级命令mapred  job 产看三级命令mapred job -list 查看正在执行的jobmapred job -kill job-id   kill指定job-id

2018-11-28 14:59:25 460

原创 Hadoop集群环境下的 HDFS shell 命令

HDFS shell命令  hdfs --help                            使用该命令查询hdfs命令帮助用法 hdfs dfs 与hadoop fs                       命令对等,推荐使用hdfshdfs dfs -usage  cp                          查看命令用法hdfs dfs -cat...

2018-11-28 14:57:09 635

原创 Linux 环境下的软件安装

软件安装yum安装它是基于RPM包安装的一种方式,如果单独安装RPM包,是无法解决包依赖问题的,要我们安装时手动解决,YUM提供了自动解决依赖的机制,只需要简单几条命令,很快就能把相关软件装到机器上。但是前提是,你的机器一定要能连外网!!!!!查看已安装未安装的软件包总列表 yum  list查看已安装的软件包列表 yum  list  installed比如安装一个方便W...

2018-11-28 14:53:17 185

原创 Linux shell命令学习小结 及一些拓展知识

常用命令-基础命令Linux命令,严格区分大小写!!!!!service sshd status         查看sshd服务运行状态service sshd start          sshd服务开启ifconfig 查看网络状态ping www.baidu.comstartx 开启图型界面service network restart     网络服务重启...

2018-11-28 14:50:13 231

原创 MySQL 部分小结

数据库概述数据(Data)对于计算机来说,数据就是计算机存储的(有用的)信息。既然是计算机存储的,那么实质上它就是一串二进制数据(0、1),但是人始终还是要用这个信息的,所以数据存储不能是毫无章法的,它必须遵循一定的规则,数据格式定义了这种规则。我们之前说过的数据类型就是一种数据格式,比如它规定了整型的数在内存中应该是什么的,浮点型的应该是什么样子。我们讲操作系统的时候,操作系统的...

2018-11-28 14:20:17 125

原创 面向对象 JavaSE 总结 脑图版

之前对学习过的JavaSE部分做了一次小结,整理成了脑图形式后来再看感觉有点麻烦,又重新整理成立文档版,也修改了一些内容和错误先附文档版博客  https://blog.csdn.net/weixin_42231373/article/details/84582989下面是本人整理的脑图版...

2018-11-28 14:12:38 175

原创 javaSE知识学习总结

包(package)作用:分层次,存储类和接口导入(import):java.lang包无需导入枚举类(enum)与单例类似,是含有限个实例对象的类,特殊的类其构造方法私有,但对外提供获得实例对象的方法类(class)定义:一类事物的抽象,一种模板,而对象是这种模板的实例作用:分层次分类:抽象类:关键字abstract修饰的类,即抽象类         ...

2018-11-28 13:53:57 1115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除