自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (1)
  • 收藏
  • 关注

原创 ubuntu完全卸载Docker

ubuntu 完全干净的卸载docker删除某软件,及其安装时自动安装的所有包sudo apt-get autoremove docker docker-ce docker-engine docker.io containerd runc查看删除docker其他有没有没有卸载干净的包dpkg -l | grep docker卸载相应的包sudo apt-get autoremo...

2020-04-13 11:29:06 3530

原创 ubuntu18.04中/etc/apt/sources.list镜像源文件配置错误

W: 目标 * 在 /etc/apt/sources.list:41 和 /etc/apt/sources.list.d/xenial-partner.list:4 中被配置了多次在输入sudo apt-get update后出现我的系统是ubuntu18.04W: 目标 Translations (multiverse/i18n/Translation-zh) 在 /etc/apt/sou...

2020-04-13 11:04:53 10443 4

原创 论一论Token

一直以来,服务都分为单体服务,和分布式服务,在我们学习,甚至是工作中都经常性的接触,构建单体服务,那么单体服务对于用户会话状态的保持大多数使用Session,Cookie等技术手段,这些技术手段存在着老生常谈的问题,1.Session这个家伙保存在服务器端,哎,这就导致着随登陆用户增多,服务器存储的用户信息越来越多,他基本不会达到说击垮服务器的程度,但是这仍然是对珍贵的服务器资源的极大浪费,而且...

2020-04-10 22:27:15 225

原创 ubuntu安装教程

许久不见,记由windows转为linux开发的过程之前一直都是在windows上做开发,总是感觉到不够用,内存,硬盘总是满当当,虚拟环境,远程连接软件各种乱七八糟,再加上windows也真是卡的雅皮,干脆心一横,全盘格式化,搞上了ubuntu来爽一爽.1.首先下载一个ubuntu系统镜像文件地址是https://ubuntu.com/download/desktop2.制作启动盘安装...

2020-04-07 21:34:07 1400

原创 关于Mysql服务的一点积累-Mysql基础

Mysql数据库大体上分为以下几个关键点1.基础的语言部分数据定义语言(DDL)用来定义数据库对象,对数据库,表等结构性对象的增删改操作。数据操纵语言(DML)用来定义数据库记录,对表中记录的增删改操作。数据查询语言(DQL)用来查询记录,对表中数据的查询。数据控制语言(DCL)用来定义访问权限和安全等级,对用户创建和授权。语言分类中,查询(DQL)是最常用,也是最需优化功底的。控制(...

2019-07-05 11:31:39 157

原创 HIve之行转列,列转行操作

行转列将类似如下数据转为,特征值,标记数据表名为test3列c1,c2,c3数据如下a,b,1a,b,2a,b,3c,d,4c,d,5d,f 6多行转换为一列select c1,c2,concat_ws(’,’,collect_set(c3)) from test group by c1,c2结果如下a b 1,2,3c d ...

2019-04-17 12:56:51 888

原创 Kafka安装与整合flume,Sparkstreaming的简单实例测试

Kafka是一种高吞吐量的分布式消息系统,Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。下面介绍有关Kafka的简单安装和使用,想全面了解Kafka,请访问Kafka的官方博客http://kafka.apache.org/首先要玩Kafka必须依赖于zookeeper,所以在安装Kafka之前首先得安装zookeeper安装z...

2018-12-20 21:37:14 631

原创 在hadoop集群上的集成Hive

本文章的各项配置均参考cloudera官网,如有版本变化,导致配置无效,出错,请参考cloudera官网文档。cloudera官网:https://www.cloudera.com输入网址加载成功,导航条拉到最底部。查看日志文件的命令,防止配置时出错,有些同学连错误都找不到,却讲文档有错,好伤心!//查看日志目录ls /etc/logcat 相应的日志内容//第一步,配置Met...

2018-12-17 21:32:15 1341

原创 Hive开发使用-

适用场景1.海量数据的存储处理2.数据挖掘3.海量数据的离线分析3.1目前的Hive的Thrift服务端通常使用HiveServer2,它是HiveServer2改进版本,它提供了新的ThriftAPI来处理JDBC或者ODBC客户端,可以进行Kerberos身份验证,支持多个客户端并发。3.2BeeLineHiveServer2还提供了新的CLI:BeeLine,它是Hive 0.1...

2018-12-16 21:39:34 780

原创 Spark之Spark入门

Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。由于Spark本身是用Scala语言开发的,所以选择了用Scala来开发应用。1.Scala下载Scala官网: http://www.scala-lang.org/download/all.html选择自己需要的版本下载即可,本次采用2.10.5以作学习所用...

2018-12-16 20:11:30 203

原创 Spark入门篇之简介

Spark是Apache基金会的一个顶级项目,也是Apache基金会下目前最活跃的开源项目之一,诞生于加州大学伯克利分校的AMP实验室,是一个开源的基于内存的分布式计算框架。由于Spark是基于内存的计算,相对于MapReduce来说,提高了计算速度,同时Spark也提供了高容错性和可扩展性。1.## 速度快基于内存的数据处理使得Spark比Mapreduce快100个数据量级以上,即使基于硬...

2018-12-16 17:49:03 265

原创 HDFS读写文件流程

1.HDFS写流程客户端要向HDFS写入数据,首先要跟namenode通信以确认可以写文件并获得接受文件block的datanode,并且由接收到block的datanode负责向其他datanode赋值lock的副本如下图所示写详细步骤1.根namenode通信请求上传文件,namenode检查文件是否已存在,父目录是否存在。2.namenode返回是否可以上传3.client会先...

2018-12-16 17:10:15 159

原创 HDFS命令参考

在$HADOOP_HOME/bin/hadoop fs里有更多的命令,/bin/hdfs dfs 可以列出所有可以在fs shell系统上运行的命令。此$HADOOP_HOME/bin/hadoop fs -help命令会显示简短的用法。所有表的操作如下所示,以下是使用参数的一般方式:“” means any file or directory name. “…” means one or m...

2018-12-16 16:15:28 173

原创 scala入门篇之-简介

近期学习到Spark首先花一下午的时间学习一下与之紧密结合的scala脚本语言:首先我们的安装一个运行环境1.根据你选择的scala版本来验证你的JDK版本是否合格,怎么选择,如何考虑,本文不作概述。2.到官网下载合适的scala,进行安装:展示在windows上的安装成果:3.安装好scala后进行一些基础操作。练习一下。Scala与Java没有什么太大的区别,最大的区别大概就是...

2018-12-05 20:43:08 169

原创 Mysql结构简介

MySQL安装成功后会在两个目录中存储文件:C:\ProgramData\MySQL\MySQL Server 5.5\data:DBMS数据库文件(卸载MySQL时不会删除这个目录,需要自己手动删除);D:\Program Files\MySQL\MySQL Server 5.5:DBMS管理程序2、MySQL重要文件D:\Program Files\MySQL\MySQL Server...

2018-12-02 16:13:11 239

原创 Mysql数据库简介

1.1、数据库的概念数据库就是用来存储和管理数据的仓库。数据库存储数据的优点:可存储大量数据;方便检索;保持数据的一致性、完整性;安全,可共享;通过组合分析,可产生新数据;1.2、数据库的发展历程没有数据库,使用磁盘文件存储数据;层次结构模型数据库;网状结构模型数据;关系结构模型数据库:使用二维表格来存储数据;关系-对象模型数据库;MySQL就是关系型数据库。1.3、常...

2018-12-02 16:07:54 4480

原创 js键码对应!

1 js 里面的键盘事件经常用到,所以收集了键盘事件对应的键码来分享下:2 keyCode 8 = BackSpace BackSpace3 keyCode 9 = Tab Tab4 keyCode 12 = Clear5 keyCode 13 = Enter6 keyCode 16 = Shift_L7 keyCode 17 = Control_L8 keyCode 18 = Al...

2018-11-29 09:32:17 275

原创 filter 过滤器,拦截器

web.xml 里面的过滤器配置 和自己写的filter和@WebFilter( ) 注解 和有什么区别 和怎么使用?1.filter 过滤器,也可以做到和 拦截器相同的访问url过滤,filter可以认为是Servlet的一种“加强版”,它主要用于对用户请求进行预处理,也可以对HttpServletResponse进行后处理,是个典型的处理链。2.拦截器,在AOP(Aspect-Or...

2018-11-27 18:13:35 145

原创 Linux中以shell脚本的方式运行MapReduce详解

1.每个命令之间用;隔开说明:各命令的执行给果,不会影响其它命令的执行。换句话说,各个命令都会执行,但不保证每个命令都执行成功。2.每个命令之间用&&隔开说明:若前面的命令执行成功,才会去执行后面的命令。这样可以保证所有的命令执行完毕后,执行过程都是成功的。例如:cat /etc/redhat-release && yum -y

2018-11-27 11:44:31 1380 1

原创 两个MapReduce实现计算出用户间的共同好友

需求和思路1.下面是用户的好友关系列表,每一行代表一个用户和他的好友列表。需要求出哪些人两两之间有共同好友,及他俩的共同好友都有谁。例如从前2天记录中可以看出,C、E是A、B的共同好友,最终的形式如下:(2)实现思路之前的示例中都是一个MapReduce计算出来的,这里我们使用2个MapReduce来实现。1)第1个MapReducemap找出每个用户都是谁的好友,例如:读一...

2018-11-27 10:47:54 1646 1

原创 MapReduce的join操作多个Map多个文件

1、需求与实现思路(1)需求有2个数据文件:订单数据、商品信息。订单数据表order商品信息表product需要用MapReduce程序来实现下面这个SQL查询运算:select o.id order_id, o.date, o.amount, p.id p_id, p.pname, p.category_id, p.pricefrom t_order o join t_pro...

2018-11-26 20:59:11 1572 1

原创 MapReduce的join操作单个Map单个文件

1、需求与实现思路(1)需求有2个数据文件:订单数据、商品信息。订单数据表order商品信息表product需要用MapReduce程序来实现下面这个SQL查询运算:select o.id order_id, o.date, o.amount, p.id p_id, p.pname, p.category_id, p.pricefrom t_order o join t_pro...

2018-11-26 20:56:40 299

原创 MapReduce核心流程梳理

MapReduce的大概流程:(1)maptask从目标文件中读取数据(2)mapper的map方法处理每一条数据,输出到文件中(3)reducer读取map的结果文件,进行分组,把每一组交给reduce方法进行处理,最后输出到指定路径。这是最基本的流程,有助于快速理解MapReduce的工作方式。通过上面的几个示例,我们要经接触了一些更深入的细节,例如mapper的inputform...

2018-11-26 20:49:44 566

原创 MapReduce分组输出到多个文件

数据如下:需要把相同订单id的记录放在一个文件中,并以订单id命名。(2)实现思路这个需求可以直接使用MultipleOutputs这个类来实现。默认情况下,每个reducer写入一个文件,文件名由分区号命名,例如’part-r-00000’,而 MultipleOutputs可以用key作为文件名,例如‘Order_0000001-r-00000’。所以,思路就是map中处理每条记录...

2018-11-26 20:37:50 1901

原创 MapReduce合并小文件

Pom.xml文件内容如下:需求要计算的目标文件中有大量的小文件,会造成分配任务和资源的开销比实际的计算开销还打,这就产生了效率损耗。需要先把一些小文件合并成一个大文件。实现思路文件的读取由map负责,在前面的示意图中可以看到一个inputformat用来读取文件,然后以key value形式传递给map方法。我们要自定义文件的读取过程,就需要了解其细节流程:所以我们需要自定义一...

2018-11-26 20:18:32 1272

原创 MapReducer中的GroupingComparator分组比较器实现

Pom.xml文件为:(2)实现思路先介绍一个概念GroupingComparator组比较器,通过WordCount来理解它的作用。WordCount中map处理完成后的结果数据是这样的:<good,1><good,1><good,1><is,1><is,1&am

2018-11-26 20:00:28 992

原创 自定义分区

数据:在上个例子的统计需要基础上添加一个新需求:按省份统计,不同省份的手机号放到不同的文件里。例如137表示属于河北,138属于河南,那么在结果输出时,他们分别在不同的文件中。(2)实现思路map和reduce的处理思路与上例相同,这里需要多做2步:自定义一个分区器Partitioner根据手机号判断属于哪个分区。有几个分区就有几个reducetask,每个reducetask输出一...

2018-11-26 19:06:33 654

原创 MapReduce自定义对象序列化

MapReduce自定义对象序列化数据如下:首先在本地文件系统这里我使用的是centos6.7图形化界面安装打开终端,最好切换到root用户下,规避需要权限的操作,可以参考我写的l博客linux基础入门要把同一个用户的上行流量、下行流量进行累加,并计算出综合。例如上面的13897230503有两条记录,就要对这两条记录进行累加,计算总和,得到:13897230503,500,160...

2018-11-23 21:21:10 627

原创 JS获取Html标签属性的两种方法

用JS获取Html标签属性用JS获取Html标签属性有两种方法:如Web开发JS代码:var ka=document.getElementByI d(“link”);alert(ka.getAttribute(“id”));alert(ka.id);两种方法都能弹出a标签的ID属性,但从各浏览器兼容上来说用ka.id的方式更好,但对于自定义属性blogname,则就要用getAttr...

2018-09-18 14:44:38 29675 1

原创 C3P0数据库乱码问题

数据库乱码需要在url配置项的后面加上字符编码集的配置但是,此处与JDBC的字符编码集的配置不同的是需要对&符号做转义操作,并且每个配置项后需要加上分号 <?xml version="1.0" encoding="UTF-8"?> <c3p0-config> <default-config> <!-- 连接四大参...

2018-08-29 12:58:58 577

原创 使用CooKie实现数据缓存至客户端

对cookie的使用测试登录界面<%@ page language="java" import="java.util.*" pageEncoding="utf-8"%><% String path = request.getContextPath(); String basePath = request.getScheme() + "://" ...

2018-08-02 21:48:53 1009

原创 JSP解决表单post方式提交时的中文乱码问题

//设置请求参数的编码对于POST请求,若其请求参数包含中文字符,那么我们只需在解析请求参数前加一句如下的代码即可。需要注意的是,这种方式对 Get请求起不到任何作用。此外,由于我们对请求已经重新编码,所以已经不需要使用 String类 再进行转码,否则画蛇添足。最后,对于 POST请求,request.getQueryString(); 返回的查询字符串为 null。 request...

2018-08-02 21:38:56 8085 1

原创 java se知识点初步总结---附件附思维导图

JavaSE基础语法基本数据类型整数型字节型byte8位一个字节 byte最大:127 byte最小:-128短整型short16位 Short最大:32767 Short最小:-32768整数型int32位 int最大:2147483647 int最小:-2147483648长整型long64位 long最大:9223372036854775807 l...

2018-07-29 23:32:57 368

原创 jdbc连接数据库--mysql

jdbc的主要功能:1.建立与数据库或其他数据源的链接 2.向数据库发送sql命令 3.处理数据库的返回结果jdbc应用到的常用类和接口1.驱动程序管理类DriverManager DriverManager类是JDBC的管理类,作用于用户和驱动程序之间。它跟踪在可用的驱动程序,并在数据库和相应驱动程序之间建立连接。另外,DriverManager类也处理诸如驱动程序登陆时间...

2018-07-26 22:43:10 244

Kafka基础操作

Kafka的一些基础命令,包含消费者,生产者的创建和修改等

2019-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除