韩利鹏-CSDN博客

原创 spark与spring集成做web接口

需要实现的功能：写访问spark的接口，也就是从web上输入网址就能把我们需要的信息通过提交一个job然后返回给我们json数据。成果展示：通过url请求，然后的到一个wordcount的json结果（借助的是谷歌浏览器postman插件显示的，直接在浏览器上输入网址是一样的效果）使用的关键技术： java语言编程，springmvc框架，tomcat容器，spark框架，scala相

2017-11-03 14:40:47 9491 6

java8的新特性1. Lambda 表达式1.1 无参，无返回值1.2 只需要一个参数，无返回值1.3 需要有两个参数，有返回值2. 函数式接口2.1 自定义函数式接口2.2 函数式接口中使用泛型2.3 函数式接口作为参数使用3. 方法引用与构造器引用4. Stream API5. 接口中的默认方法与静态方法6. TODOjava8已经出来了n久了，竟然还有那么多人对java8的这些新功能还是停留在了解的阶段，这么多的提升效率的功能特性，你值得拥有！！！1. Lambda 表达式Lambda 是一

2020-10-23 23:17:56 382

原创 spring事物管理一学就会

spring事物1. 什么是事物2. 事物隔离级别3. 事物传播行为4. 具体实现1. 什么是事物事务是数据库操作最基本单元，逻辑上一组操作，要么都成功，如果有一个失败所有操作都失败。典型场景：银行转账，lucy 转账 100 元给 mary，lucy 少 100，mary 多 100 。事务四个特性（ACID）（1）原子性（2）一致性（3）隔离性（4）持久性2. 事物隔离级别事务有特性成为隔离性，多事务操作之间不会产生影响。不考虑隔离性产生很多问题。有三个读问题：脏读、不可

2020-10-19 22:44:58 236

原创 spring-aop一学就会

spring-aop1. aop概念2. aop术语3. 具体操作3.1 切入点表达式3.2 开启切面扫描3.3 代码示例1. aop概念AOP是面向切面编程（方面），利用 AOP 可以对业务逻辑的各个部分进行隔离，从而使得业务逻辑各部分之间的耦合度降低，提高程序的可重用性，同时提高了开发的效率。通俗描述：不通过修改源代码方式，在主干功能里面添加新功能。aop有两种代理的情况，一种是有接口的情况，使用jdk的动态代理，没有接口的情况使用的是cglib动态代理的方式。（具体代码省略）2. ao

2020-10-18 22:53:39 216

原创 spring-ioc一学就会

spring-ioc1.IOC介绍2.IOC的bean管理2.1 基于xml方式的创建对象2.1.1 基于 xml 方式创建对象2.1.2 基于 xml 方式注入属性2.1.2.1 第一种注入方式：使用 set 方法进行注入2.1.2.2 使用有参数构造进行注入2.1.2.3 注入属性2.1.2.4 xml 注入集合属性2.1.2.5 工厂bean的形式注入2.1.2.6 xml 注入其他类型属性2.2 基于注解创建对象2.2.1 开启注解2.2.2 实例化对象2.2.3 注入对象3. 实例是单实例还是多实

2020-10-18 20:12:56 144

原创 Docker 一篇就够了

Docker 一篇就够了1.Docker简介2.核心概念3.Docker 安装（基于centos7）4.Docker常用命令&操作4.1 镜像操作4.2 容器命令5. 数据共享5.1 端口映射5.2 磁盘挂载（数据卷）6. 生成新镜像6.1 基于容器创建新容器6.2 基于DockerFile创建新容器7. 镜像打包8. 镜像发布9. 案例解析（DockerFile）9.1 centos加上一些功能9.1 .1 编写DockerFile9.1.2 build9.2 自制tomcat9.3 tomcat

2020-10-18 20:03:20 516

原创 Azkaban

Azkaban1. 概述1.1 为什么要是用工作流调度系统1.2 工作流的实现方式以及常见的工作流调度系统2. Azkaban介绍3. Azkaban安装3.1 准备工作3.2 安装3.2.1 azkaban web服务器安装3.2.2 azkaban 执行服器安装3.2.3 创建数据库和导入表结构3.2.4 创建SSL配置3.2.5 更改时区3.2.6 配置文件3.2.6.1 azkaban web服务器配置3.2.6.2 azkaban 执行服务器3.2.6.3 用户配置3.3 启动4. 实战4.1 C

2020-10-18 19:58:15 205

原创案例分析-单车定位

单车定位数据单车日志数据位置信息数据项目说明需求依赖说明项目原理图geoHash原理介绍httpClient使用说明百度地图接口调用说明开发流程工具类使用到的JavaBean构建本地仓库查找位置信息数据单车日志数据这个数据是单车用户使用的后台记录数据，主要是开锁，保修等日志记录。字段说明如下：触发事件访问的url时间用户的id经度维度省份城市区（县）原始数据如下所示：...

2020-10-17 13:11:36 335

原创 Hadoop入门介绍

Hadoop入门介绍Hadoop背景介绍发展钱途什么是HadoopHadoop产生背景Hadoop生态圈国内应用用户画像HADOOP用于网站点击流日志数据挖掘大屏展示离线数据分析案例需求描述数据来源流程解析项目架构图项目效果图Hadoop背景介绍发展钱途什么是HadoopHADOOP是apache旗下的一套开源软件平台HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，...

2020-10-17 13:10:31 363 2

原创 Hadoop-HDFS课件

Hadoop-HDFS学习课件HDFS基本概念前沿HDFS的概念和特性HDFS-shellshell客户端使用客户端支持的命令参数HDFS-JAVA-API操作依赖引入windows下开发说明文件的增删操作使用流的形式访问文件HDFS基本概念前沿设计思想：==分而治之：==将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；在大数据系统中的作用...

2020-10-17 13:08:48 450 2

原创 Hadoop-MapReduce课件

Hadoop-MapReduce为什么要使用MapReduce实战篇程序运行模式本地模式集群运行模式eclipse提交到集群wordCount线段的重合点次数数据去重流量求和共同好友倒排索引求平均值分组求topnjoin篇优化篇combiner数据倾斜之数据打散原理篇数据切块yarn集群提交任务流程完整的任务流程 Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的...

2020-10-17 13:04:34 549

原创 Hadoop集群环境搭建

Hadoop集群环境搭建本机基本配置网卡配置配置主机名关闭防火墙安装ssh客户端克隆虚拟机免密登陆安装jdk安装Hadoop集群本机基本配置网卡配置编辑如下文件配置主机名关闭防火墙安装ssh客户端克隆虚拟机免密登陆安装jdk安装Hadoop集群...

2020-10-17 12:54:49 142

原创 Hadoop高可用集群搭建

Hadoop高可用集群搭建（HA）1. 环境介绍1.1 版本说明1.2 集群规划1.3 HA说明2. HA集群安装配置2.1 搭建Hadoop前期工作2.2 搭建zookeeper2.2.1 解压zookeeper2.2.2修改配置2.2.3 拷贝zookeeper到其他节点2.3 安装配置Hadoop集群（在mini01上操作）2.3.1 解压Hadoop2.3.2 配置环境变量2.3.3 修改...

2020-10-17 12:52:49 108

原创国内有哪些大数据公司？

国内大数据公司名单汇总大数据近几年来可谓蓬勃发展，它不仅是企业趋势,也是一个改变了人类生活的技术创新。大数据对行业用户的重要性也日益突出。掌握数据资产,进行智能化决策,已成为企业脱颖而出的关键。因此,越来越多的企业开始重视大数据战略布局,并重新定义自己的核心竞争力。本文整理了在中国境内活跃的大数据领域最具影响力的企业，它们有的是计算机或者互联网领域的巨头，有的则是刚刚创办不久的初创企业。但它...

2019-01-28 15:55:49 5244 2

案例分析-爬虫（51job网站的信息）

爬虫介绍网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫主要应用有两个方面，一方面用于检索，例如百度，谷歌等网站；另一方面用于爬取指定的有用数据（例如今天要使用的）。...

2019-01-13 16:14:40 842

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息（用户最喜爱的十部电影）2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求实现json解析测试1.每个用户评分最高的10部电影评分信息-实现2.每个用户的uid和评分的平均值-...

2019-01-09 14:42:54 3126

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息（用户最喜爱的十部电影）2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求实现json解析测试1.每个用户评分最高的10部电影评分信息-实现2.每个用户的uid和评分的平均值-...

2019-01-08 21:32:24 1803

原创 mybatis从0到1

mybatis从零到一学习实战依赖的引入配置数据库连接功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入依赖的引入主要...

2019-01-03 15:37:46 330

原创 java基础增强案例-电影评分

原始数据：字段说明： Movie 电影的id Rate 电影评分 Timestamp 评论时间 Uid 用户id需求：每个用户评分最高的10部电影评分信息（用户最喜爱的十部电影）每个用户的uid和评分的平均值最大方(评分平均值高)的n个用户的uid和评分平均值最热门的3部电影id和评价次数热门的定义：评次数多的评价最高的3部电...

2018-12-06 16:33:51 801

原创日志分析

对平台操作行为记录（现版本还没实施，等上线有需求，有数据了做）这个主要通过日志进行记录，这个不是对用户进行展示的，是给我们内部去看的，用来改进我们的产品的。主要进行要记录的日志信息有（这个根据需求来加）ipsessionid 日志级别 userid 点击时间请求的url 请求的方式操作的内容失败的原因请求状态码每一次的点击都记录一条日志，把这些日志进行定...

2018-04-04 11:52:38 346

原创 windows开启WiFi热点

第一步，启用cmd 第二步，在命令行中输入（用来创建一个虚拟网卡）netsh wlan set hostednetwork ssid=您想要的无线网络的名称 key=您想要设置的密码第三步，在命令行中输入（用来启动wifi）netsh wlan start hostednetwork这个时候你会发现已经可以搜索到wifi，并且可以连接上了，但是并不能上网，这个时候你需要吧本地连接...

2018-03-29 13:36:48 3029

原创星形模型和雪花模型

一、概述在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到" 事实表"上时，整个图解就像星星一样，故将该模型称为星型模型，如图 1 。星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，所以数据有一

2018-01-29 14:54:58 830

原创自己写UDF(Hive)

目标：使用java自己写一个UDF函数1、先开发一个java类，继承UDF，并重载evaluate方法package com.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public final class Lower extends UDF{ public

2018-01-28 22:18:07 637

原创 hive累积报表hql

问题：下面是一个员工的业绩数据，数据格式是username,date,money,数据如下A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5加载到hive表中了（t_access_times）。

2018-01-28 22:10:24 1099

原创查看linux负载的情况

查看一个服务器的负载情况一般是从内存，cpu的使用量来看的，还有就是磁盘io和网络io，下面会分别对其进行监控（环境sentos6.7）内存负载情况： free这个命令可以查看内存的使用情况可剩余情况：具体使用如图 cpu的负载情况：使用top来动态的显示，直接在命令行中输入 top 就能显示如下图所示： load average是显示的是cpu的负载情况，三个数分别是1

2018-01-26 14:34:43 7120

原创 linux的awk和sed等命令比较

对于文本的操作分为两种操作，一种是按行操作，一种是按列操作。简单的命令有grep（行操作）和cut（列操作）。复杂点的有sed（行操作）和awk（列操作）。样例文本hello tomhi marryhow are you什么是行操作：简单的例子就是，获取上面文本中带有hello的行就是行操作。什么是列操作：简单的例子就是获取上面文本中的第一列操作。grepp

2018-01-22 15:41:45 1119

原创 jvm参数说明

GC算法标记-清除算法（Mark-Sweep）1、标记出所有需要回收的对象，在标记完成后统一回收所有被标记的对象2、在标记完成后统一回收所有被标记的对象缺点：一个是效率问题，标记和清除两个过程的效率都不高；另一个是空间问题，标记清除之后会产生大量不连续的内存碎片，空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时，无法找到足够的连续内存而不得不提前触发另一次垃圾

2018-01-21 22:22:03 352

转载 Hbase索引

Hbase只有rowkey有索引，其索引形式是LSM.讲LSM树之前，需要提下三种基本的存储引擎，这样才能清楚LSM树的由来：哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺序扫描，对应的存储系统为key-value存储系统。对于key-value的插入以及查询，哈希表的复杂度都是O(1)，明显比树的操作O(n)快,如果不需要有序的遍历数据，哈希表就是yo

2018-01-18 14:38:08 1852

原创 redis-shell操作

zset没有进行说明package javaa.redis;/** * redis的shell操作 * redis的五种类型：String hash set list zset * @author 韩利鹏 * */public class RedisShell { //flushDB清空数据 /** * String操作： * set name han

2018-01-02 14:56:40 1565

原创 redis集群操作-添加节点和删除节点

主要任务：为已有的集群添加节点，其中包括master和slave，master主要给其分槽，删除节点，其中包括master和slave节点，master需要先把数据槽先归还，然后再删除节点。一、原始集群（6节点 3主3从）：（1）启动集群：[root@bhz004 ~]# /usr/local/redis/bin/redis-server /usr/local/redis-cluster/700

2018-01-02 14:51:48 3203

原创 redis跟spring结合

主要是以下配置文件，里面需要添加的redis.properties等这些文件，根据配置自己添加<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance

2018-01-02 14:25:00 311

原创 linux防火墙

方法一：命令行方式 1：开放端口：/sbin/iptables -I INPUT -p tcp –dport 8080 -j ACCEPT 2：保存：/etc/rc.d/init.d/iptables save 3：重启服务：/etc/init.d/iptables restart 4：查看端口是否开放：/sbin/iptables -L -n 方法二：直接

2017-12-29 17:44:38 423

原创 redis配置文件说明

# Redis 配置文件# 当配置中需要配置内存大小时，可以使用 1k, 5GB, 4M 等类似的格式，其转换方式如下(不区分大小写)## 1k =>1000 bytes# 1kb => 1024 bytes# 1m => 1000000 bytes# 1mb =>1024*1024 bytes# 1g => 1000000000 bytes# 1gb => 1024*1024*1

2017-12-29 16:18:48 278

原创大数据面试题

1.你用过哪些机器学习/数据挖掘工具或框架？ 2.你在项目中主要用过哪些机器学习/数据挖掘的算法？ 3.给你公司内部群组的聊天记录，怎样区分出主管和员工？ 4.海量数据分布在100台电脑中，如何高效统计出这批数据的TOP10？ 5.100w个数中找出最大的100个数。 6.海量日志数据，提取出某日访问百度次数最多的那个IP。 7.路段平均车速反映了路况，在道路上布控采集车辆速度，如何对路

2017-12-18 09:20:17 768

原创 pv统计

对日志文件进行页面的访问统计，获取每天点击量比较高的数据，来显示

2017-12-02 15:32:45 1232

原创 tomcat记录访问日志

一般的web server有两部分日志：一是运行的日志，它主要肌瘤运行的一些信息，尤其是一些异常错误日志信息二是访问日志信息，他是记录的访问的时间，ip，url，sessionId等信息。下面来介绍使用tomcat记录访问日志的使用，这个是在tomcat/conf/server.xml文件，需要配置如下的配置：有的版本肯能默认不开启记录，只需要把这解注释就好了，记录的文件放在/

2017-11-30 15:42:17 25573 1

原创 Hello Spary

spray是什么：spary是使用scala编写的高效的rest框架，使用起来很简单，上手比较快下面开始入正题：引入依赖：（我使用的maven，应为sbt一直用不顺，依赖一直下不下来） <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> </properties> <d

2017-11-13 11:24:16 502

原创 SPARK提交job的几种模式

spark常见的提交方式，有local的，有yarn-client，yarn-cluster等，下面来具体的介绍怎么写提交的脚本

2017-10-31 11:52:43 2511

原创 spark性能调优都有哪些方法

1、常规性能调优：分配资源、并行度。。。等2、JVM调优（Java虚拟机）：JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而更多的是，在troubleshooting中，JVM占了很重要的地位；JVM造成线上的spark作业的运行报错，甚至失败（比如OOM）。3、shuffle调优（相当重要）：spark在执行grou

2017-10-30 15:24:15 1384

原创 flume通过公网ip采集到hdfs上

需求描述：公司的服务器在不同的地市都有分布，需要把不同地方的服务器的日志文件都收集到公司的内网hadoop集群中，来进行分析，（公司的hadoop集群和其他地方的集群不在同一内网中，需要借助公网来进行传输）简单的模型图如下失败案例：直接把公网IP放在了hadoop集群的nn（namenode上面），模型如下：然后启动flume往hdfs上面传输日志文件，发现flume端一直抛

2017-10-09 13:36:52 1715 2

mongodb-Linux版本

scala源码-2.11.x.zip

SQLyog Enterprise_jb51.net.zip

java基础题测试

河南理工大学2014年ACM大赛试题

servlet读取jsp中的file内容