老子跑的动-CSDN博客

原创 ubuntu完全卸载Docker

ubuntu 完全干净的卸载docker删除某软件,及其安装时自动安装的所有包sudo apt-get autoremove docker docker-ce docker-engine docker.io containerd runc查看删除docker其他有没有没有卸载干净的包dpkg -l | grep docker卸载相应的包sudo apt-get autoremo...

2020-04-13 11:29:06 3530

原创 ubuntu18.04中/etc/apt/sources.list镜像源文件配置错误

W: 目标 * 在 /etc/apt/sources.list:41 和 /etc/apt/sources.list.d/xenial-partner.list:4 中被配置了多次在输入sudo apt-get update后出现我的系统是ubuntu18.04W: 目标 Translations (multiverse/i18n/Translation-zh) 在 /etc/apt/sou...

2020-04-13 11:04:53 10443 4

原创论一论Token

一直以来,服务都分为单体服务,和分布式服务,在我们学习,甚至是工作中都经常性的接触,构建单体服务，那么单体服务对于用户会话状态的保持大多数使用Session，Cookie等技术手段,这些技术手段存在着老生常谈的问题,1.Session这个家伙保存在服务器端,哎,这就导致着随登陆用户增多,服务器存储的用户信息越来越多,他基本不会达到说击垮服务器的程度,但是这仍然是对珍贵的服务器资源的极大浪费,而且...

2020-04-10 22:27:15 225

原创 ubuntu安装教程

许久不见,记由windows转为linux开发的过程之前一直都是在windows上做开发,总是感觉到不够用,内存,硬盘总是满当当,虚拟环境,远程连接软件各种乱七八糟,再加上windows也真是卡的雅皮,干脆心一横,全盘格式化,搞上了ubuntu来爽一爽.1.首先下载一个ubuntu系统镜像文件地址是https://ubuntu.com/download/desktop2.制作启动盘安装...

2020-04-07 21:34:07 1400

原创关于Mysql服务的一点积累-Mysql基础

Mysql数据库大体上分为以下几个关键点1.基础的语言部分数据定义语言(DDL)用来定义数据库对象，对数据库，表等结构性对象的增删改操作。数据操纵语言(DML)用来定义数据库记录，对表中记录的增删改操作。数据查询语言(DQL)用来查询记录，对表中数据的查询。数据控制语言(DCL)用来定义访问权限和安全等级，对用户创建和授权。语言分类中，查询(DQL)是最常用，也是最需优化功底的。控制(...

2019-07-05 11:31:39 157

原创 HIve之行转列，列转行操作

行转列将类似如下数据转为，特征值，标记数据表名为test3列c1,c2,c3数据如下a,b,1a,b,2a,b,3c,d,4c,d,5d,f 6多行转换为一列select c1,c2,concat_ws(’,’,collect_set(c3)) from test group by c1,c2结果如下a b 1,2,3c d ...

2019-04-17 12:56:51 888

原创 Kafka安装与整合flume，Sparkstreaming的简单实例测试

Kafka是一种高吞吐量的分布式消息系统，Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群机来提供实时的消费。下面介绍有关Kafka的简单安装和使用,想全面了解Kafka,请访问Kafka的官方博客http://kafka.apache.org/首先要玩Kafka必须依赖于zookeeper，所以在安装Kafka之前首先得安装zookeeper安装z...

2018-12-20 21:37:14 631

原创在hadoop集群上的集成Hive

本文章的各项配置均参考cloudera官网，如有版本变化，导致配置无效，出错，请参考cloudera官网文档。cloudera官网：https://www.cloudera.com输入网址加载成功，导航条拉到最底部。查看日志文件的命令，防止配置时出错，有些同学连错误都找不到，却讲文档有错，好伤心！//查看日志目录ls /etc/logcat 相应的日志内容//第一步，配置Met...

2018-12-17 21:32:15 1341

原创 Hive开发使用-

适用场景1.海量数据的存储处理2.数据挖掘3.海量数据的离线分析3.1目前的Hive的Thrift服务端通常使用HiveServer2，它是HiveServer2改进版本，它提供了新的ThriftAPI来处理JDBC或者ODBC客户端，可以进行Kerberos身份验证，支持多个客户端并发。3.2BeeLineHiveServer2还提供了新的CLI：BeeLine，它是Hive 0.1...

2018-12-16 21:39:34 780

原创 Spark之Spark入门

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。由于Spark本身是用Scala语言开发的，所以选择了用Scala来开发应用。1.Scala下载Scala官网： http://www.scala-lang.org/download/all.html选择自己需要的版本下载即可，本次采用2.10.5以作学习所用...

2018-12-16 20:11:30 203

原创 Spark入门篇之简介

Spark是Apache基金会的一个顶级项目，也是Apache基金会下目前最活跃的开源项目之一，诞生于加州大学伯克利分校的AMP实验室，是一个开源的基于内存的分布式计算框架。由于Spark是基于内存的计算，相对于MapReduce来说，提高了计算速度，同时Spark也提供了高容错性和可扩展性。1.## 速度快基于内存的数据处理使得Spark比Mapreduce快100个数据量级以上，即使基于硬...

2018-12-16 17:49:03 265

原创 HDFS读写文件流程

1.HDFS写流程客户端要向HDFS写入数据，首先要跟namenode通信以确认可以写文件并获得接受文件block的datanode，并且由接收到block的datanode负责向其他datanode赋值lock的副本如下图所示写详细步骤1.根namenode通信请求上传文件，namenode检查文件是否已存在，父目录是否存在。2.namenode返回是否可以上传3.client会先...

2018-12-16 17:10:15 159

原创 HDFS命令参考

在$HADOOP_HOME/bin/hadoop fs里有更多的命令，/bin/hdfs dfs 可以列出所有可以在fs shell系统上运行的命令。此$HADOOP_HOME/bin/hadoop fs -help命令会显示简短的用法。所有表的操作如下所示，以下是使用参数的一般方式：“” means any file or directory name. “…” means one or m...

2018-12-16 16:15:28 173

原创 scala入门篇之-简介

近期学习到Spark首先花一下午的时间学习一下与之紧密结合的scala脚本语言：首先我们的安装一个运行环境1.根据你选择的scala版本来验证你的JDK版本是否合格，怎么选择，如何考虑，本文不作概述。2.到官网下载合适的scala，进行安装：展示在windows上的安装成果：3.安装好scala后进行一些基础操作。练习一下。Scala与Java没有什么太大的区别，最大的区别大概就是...

2018-12-05 20:43:08 169

原创 Mysql结构简介

MySQL安装成功后会在两个目录中存储文件：C:\ProgramData\MySQL\MySQL Server 5.5\data：DBMS数据库文件（卸载MySQL时不会删除这个目录，需要自己手动删除）；D:\Program Files\MySQL\MySQL Server 5.5：DBMS管理程序2、MySQL重要文件D:\Program Files\MySQL\MySQL Server...

2018-12-02 16:13:11 239

原创 Mysql数据库简介

1.1、数据库的概念数据库就是用来存储和管理数据的仓库。数据库存储数据的优点：可存储大量数据；方便检索；保持数据的一致性、完整性；安全，可共享；通过组合分析，可产生新数据；1.2、数据库的发展历程没有数据库，使用磁盘文件存储数据；层次结构模型数据库；网状结构模型数据；关系结构模型数据库：使用二维表格来存储数据；关系-对象模型数据库；MySQL就是关系型数据库。1.3、常...

2018-12-02 16:07:54 4480

原创 js键码对应！

1 js 里面的键盘事件经常用到，所以收集了键盘事件对应的键码来分享下：2 keyCode 8 = BackSpace BackSpace3 keyCode 9 = Tab Tab4 keyCode 12 = Clear5 keyCode 13 = Enter6 keyCode 16 = Shift_L7 keyCode 17 = Control_L8 keyCode 18 = Al...

2018-11-29 09:32:17 275

原创 filter 过滤器，拦截器

web.xml 里面的过滤器配置和自己写的filter和@WebFilter( ) 注解和有什么区别和怎么使用？1.filter 过滤器，也可以做到和拦截器相同的访问url过滤，filter可以认为是Servlet的一种“加强版”，它主要用于对用户请求进行预处理，也可以对HttpServletResponse进行后处理，是个典型的处理链。2.拦截器，在AOP(Aspect-Or...

2018-11-27 18:13:35 145

原创 Linux中以shell脚本的方式运行MapReduce详解

1.每个命令之间用;隔开说明：各命令的执行给果，不会影响其它命令的执行。换句话说，各个命令都会执行，但不保证每个命令都执行成功。2.每个命令之间用&amp;amp;amp;&amp;amp;amp;隔开说明：若前面的命令执行成功，才会去执行后面的命令。这样可以保证所有的命令执行完毕后，执行过程都是成功的。例如：cat /etc/redhat-release &amp;amp;amp;&amp;amp;amp; yum -y

2018-11-27 11:44:31 1380 1

原创两个MapReduce实现计算出用户间的共同好友

需求和思路1.下面是用户的好友关系列表，每一行代表一个用户和他的好友列表。需要求出哪些人两两之间有共同好友，及他俩的共同好友都有谁。例如从前2天记录中可以看出，C、E是A、B的共同好友，最终的形式如下：（2）实现思路之前的示例中都是一个MapReduce计算出来的，这里我们使用2个MapReduce来实现。1）第1个MapReducemap找出每个用户都是谁的好友，例如：读一...

2018-11-27 10:47:54 1646 1

原创 MapReduce的join操作多个Map多个文件

1、需求与实现思路（1）需求有2个数据文件：订单数据、商品信息。订单数据表order商品信息表product需要用MapReduce程序来实现下面这个SQL查询运算：select o.id order_id, o.date, o.amount, p.id p_id, p.pname, p.category_id, p.pricefrom t_order o join t_pro...

2018-11-26 20:59:11 1572 1

原创 MapReduce的join操作单个Map单个文件

1、需求与实现思路（1）需求有2个数据文件：订单数据、商品信息。订单数据表order商品信息表product需要用MapReduce程序来实现下面这个SQL查询运算：select o.id order_id, o.date, o.amount, p.id p_id, p.pname, p.category_id, p.pricefrom t_order o join t_pro...

2018-11-26 20:56:40 299

原创 MapReduce核心流程梳理

MapReduce的大概流程：（1）maptask从目标文件中读取数据（2）mapper的map方法处理每一条数据，输出到文件中（3）reducer读取map的结果文件，进行分组，把每一组交给reduce方法进行处理，最后输出到指定路径。这是最基本的流程，有助于快速理解MapReduce的工作方式。通过上面的几个示例，我们要经接触了一些更深入的细节，例如mapper的inputform...

2018-11-26 20:49:44 566

原创 MapReduce分组输出到多个文件

数据如下：需要把相同订单id的记录放在一个文件中，并以订单id命名。（2）实现思路这个需求可以直接使用MultipleOutputs这个类来实现。默认情况下，每个reducer写入一个文件，文件名由分区号命名，例如’part-r-00000’，而 MultipleOutputs可以用key作为文件名，例如‘Order_0000001-r-00000’。所以，思路就是map中处理每条记录...

2018-11-26 20:37:50 1901

原创 MapReduce合并小文件

Pom.xml文件内容如下：需求要计算的目标文件中有大量的小文件，会造成分配任务和资源的开销比实际的计算开销还打，这就产生了效率损耗。需要先把一些小文件合并成一个大文件。实现思路文件的读取由map负责，在前面的示意图中可以看到一个inputformat用来读取文件，然后以key value形式传递给map方法。我们要自定义文件的读取过程，就需要了解其细节流程：所以我们需要自定义一...

2018-11-26 20:18:32 1272

原创 MapReducer中的GroupingComparator分组比较器实现

Pom.xml文件为：（2）实现思路先介绍一个概念GroupingComparator组比较器，通过WordCount来理解它的作用。WordCount中map处理完成后的结果数据是这样的：&lt;good,1&gt;&lt;good,1&gt;&lt;good,1&gt;&lt;is,1&gt;&lt;is,1&am

2018-11-26 20:00:28 992

原创自定义分区

数据：在上个例子的统计需要基础上添加一个新需求：按省份统计，不同省份的手机号放到不同的文件里。例如137表示属于河北，138属于河南，那么在结果输出时，他们分别在不同的文件中。（2）实现思路map和reduce的处理思路与上例相同，这里需要多做2步：自定义一个分区器Partitioner根据手机号判断属于哪个分区。有几个分区就有几个reducetask，每个reducetask输出一...

2018-11-26 19:06:33 654

原创 MapReduce自定义对象序列化

MapReduce自定义对象序列化数据如下：首先在本地文件系统这里我使用的是centos6.7图形化界面安装打开终端，最好切换到root用户下，规避需要权限的操作，可以参考我写的l博客linux基础入门要把同一个用户的上行流量、下行流量进行累加，并计算出综合。例如上面的13897230503有两条记录，就要对这两条记录进行累加，计算总和，得到：13897230503，500，160...

2018-11-23 21:21:10 627

原创 JS获取Html标签属性的两种方法

用JS获取Html标签属性用JS获取Html标签属性有两种方法：如Web开发JS代码：var ka=document.getElementByI d(“link”);alert(ka.getAttribute(“id”));alert(ka.id);两种方法都能弹出a标签的ID属性，但从各浏览器兼容上来说用ka.id的方式更好，但对于自定义属性blogname,则就要用getAttr...

2018-09-18 14:44:38 29675 1

原创 C3P0数据库乱码问题

数据库乱码需要在url配置项的后面加上字符编码集的配置但是，此处与JDBC的字符编码集的配置不同的是需要对&符号做转义操作，并且每个配置项后需要加上分号 <?xml version="1.0" encoding="UTF-8"?> <c3p0-config> <default-config> <!-- 连接四大参...

2018-08-29 12:58:58 577

原创使用CooKie实现数据缓存至客户端

对cookie的使用测试登录界面<%@ page language="java" import="java.util.*" pageEncoding="utf-8"%><% String path = request.getContextPath(); String basePath = request.getScheme() + "://" ...

2018-08-02 21:48:53 1009

原创 JSP解决表单post方式提交时的中文乱码问题

//设置请求参数的编码对于POST请求，若其请求参数包含中文字符，那么我们只需在解析请求参数前加一句如下的代码即可。需要注意的是，这种方式对 Get请求起不到任何作用。此外，由于我们对请求已经重新编码，所以已经不需要使用 String类再进行转码，否则画蛇添足。最后，对于 POST请求，request.getQueryString(); 返回的查询字符串为 null。 request...

2018-08-02 21:38:56 8085 1

原创 java se知识点初步总结---附件附思维导图

JavaSE基础语法基本数据类型整数型字节型byte8位一个字节 byte最大：127 byte最小：-128短整型short16位 Short最大：32767 Short最小：-32768整数型int32位 int最大：2147483647 int最小：-2147483648长整型long64位 long最大：9223372036854775807 l...

2018-07-29 23:32:57 368

原创 jdbc连接数据库--mysql

jdbc的主要功能：1.建立与数据库或其他数据源的链接 2.向数据库发送sql命令 3.处理数据库的返回结果jdbc应用到的常用类和接口1.驱动程序管理类DriverManager DriverManager类是JDBC的管理类，作用于用户和驱动程序之间。它跟踪在可用的驱动程序，并在数据库和相应驱动程序之间建立连接。另外，DriverManager类也处理诸如驱动程序登陆时间...

2018-07-26 22:43:10 244

chuxingbubian的博客