自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (9)
  • 收藏
  • 关注

原创 ClassNotFoundException: org.codehaus.janino.InternalCompilerException

Spark SQL创建DF时出现异常异常信息Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1661) at org.apache.spar...

2020-04-19 17:40:04 8260 3

原创 spark源码解析:2.3 start-class.sh脚本分析

上节解析了start-daemon.sh脚本的内容并进行了debug:start-master.sh脚本解析,这节分析spark-class.sh脚本的内容并进行debug1 spark-class内容解析# 判断是否配置了SPARK_HOME,如果没有则手动设置if [ -z "${SPARK_HOME}" ]; then source "$(dirname "$0")"/find...

2019-10-30 23:14:31 281

原创 spark源码解析:2.2 start-daemon.sh脚本分析

上节解析了start-master.sh脚本的内容并进行了debug:start-master.sh脚本解析,这节分析spark-daemon.sh脚本的内容并进行debug1. spark-daemon.sh脚本内容usage="Usage: spark-daemon.sh [--config <conf-dir>] (start|stop|submit|status) &l...

2019-10-30 18:09:09 653

原创 spark源码解析:2.1 start-master.sh脚本分析

1. start-master.sh脚本内容# 判断是否配置了SPARK_HOME,如果没有设置则先通过$0获取当前脚本的文件名# 再通过dirname获取sbin目录,再cd回上级目录,pwd获取绝对路径,以此设置SPARK_HOMEif [ -z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd "`dirname "$0"`"/..; ...

2019-10-30 18:02:52 371

原创 spark源码解析:1、源码下载与导入

环境搭建spark版本:2.3.3jdk版本:1.8maven版本:3.3.9开发工具:ideascala版本:2.11.8视频地址:https://www.bilibili.com/video/av72037856欢迎点赞1. 下载源码下载与服务器上的spark版本相同的源码,地址:https://github.com/apache/spark2. 解压后使用mav...

2019-10-30 12:02:37 942

原创 build scala项目时出现:org.jetbrains.jps.incremental.scala.remote.ServerException

build项目时出现:org.jetbrains.jps.incremental.scala.remote.ServerException或者打包时出现以下情况:[INFO] Scanning for projects...[INFO] [INFO...

2019-10-21 14:27:36 1180

原创 获取当前电脑的总内存量、可用内存量、总核数

import java.lang.management.ManagementFactory;import java.lang.management.OperatingSystemMXBean;import java.lang.reflect.Method;/** * @Author hrong * @Description **/public class Test { publi...

2019-10-20 19:01:44 980

原创 一个使用springboot+mybat-plus+thymeleaf完成的展示性的项目

网站地址:github ,觉得还可以的话给个star呀效果图:

2019-09-14 18:56:16 431

原创 使用springboot构建rest api远程提交spark任务

github代码链接:github地址1. spark集群及版本信息服务器版本:centos7hadoop版本:2.8.3spark版本:2.3.3使用springboot构建rest api远程提交spark任务,将数据库中的表数据存储到hdfs上,任务单独起一个项目,解除与springboot项目的耦合2. 构建springboot项目1. pom配置 <prop...

2019-09-14 18:39:57 10055 21

原创 详解java线程池参数含义,附带简单明了的实例演示

我尽量以浅显的方式讲解,以最快速的方式让你了解线程池

2019-08-15 13:51:58 2513 1

原创 Navicat导入数据库数据结构sql报错datetime(0)

错误发生情况:将数据库从mysql5.7导出为sql,在mysql5.5上进行导入,报sql语句错误:datetime(0)…错误发生原因mysql5.7和mysql5.5的datetime、timestamp不兼容mysql5.7导出的格式为 : datetime(0),mysql5.5则无法识别该语法解决办法将导出语句中datetime(0)改为datetime,或者是t...

2019-08-13 11:41:08 5129 2

原创 【Flink】flink cep对于复杂事件的处理

flink cep简单理解就是使用代码中的定义的规则去匹配流式数据,找出能成功匹配的数据先理一下flink cep的代码流程先定义PatternPattern.begin[X]("start").where(...).next("middle").where(...)通过CEP.pattern()方法将DataStream转化为PatternStreamval cepRes...

2019-06-22 13:47:55 1418 1

原创 生成项目树形结构

当你写博客或者项目描述的时候,想要展示项目的树形结构,怎么办呢?手写?程序员是不可能手写的win+R输入cmd进入dos输入命令:tree 项目根目录 > 生成的树形结构文件保存地址比如:tree E:\workspace\flink-practice > E:\workspace\flink-practice\list.txt进入对应的目录打开list.t...

2019-05-31 17:57:54 1670

原创 【Flink】Flink对于迟到数据的处理

代码地址:https://github.com/18113996630/flink-practice/blob/master/src/main/scala/com/hrong/flink/watermark/WaterMarkFunc02.scala视频讲解:flink迟到数据处理视频讲解waterMark和Window机制解决了流式数据的乱序问题,对于因为延迟而顺序有误的数据,可以根据e...

2019-05-31 17:41:29 6718 3

原创 【Flink】Flink的事件时间及watermark水印讲解-附代码实例

代码链接:https://github.com/18113996630/flink-practice/blob/master/src/main/scala/com/hrong/flink/watermark/WaterMarkFunc01.scala视频讲解:flink水印视频讲解Flink支持根据事件时间处理,数据流中的每条数据都需要具有各自的时间戳,代表着数据的产生时间【事件时间】。...

2019-05-30 22:39:20 4443 6

原创 【mongodb】使用API远程连接mongodb时,27017端口连接不上

开发环境:win10mongodb所在环境:Centos7mongodb版本:mongodb-linux-x86_64-3.6.12先看一下连接mongodb的部分代码:public class MongodbUtil { private static MongoClient MONGODB_CLIENT; private static String MONGODB_IP;...

2019-05-22 08:31:59 2650

原创 【Flink】DataSet Function练习

FlatMapimport org.apache.flink.api.scala.{ExecutionEnvironment, _}object FlatMapFunction01 { def main(args: Array[String]): Unit = { val env = ExecutionEnvironment.getExecutionEnvironment ...

2019-05-15 07:50:23 273

原创 Idea中无法new scala的解决办法

1、首先查看自己是否在pom文件中引入scala依赖2、ctril+alt+shift+s打开项目结构窗口,点击Modules查看scala目录是否是source目录3、点击Global Libraris如果没有scala的sdk,则点击+new一个右键点击scala sdk,点击Add to Modules,加入到你的模块...

2019-05-14 09:40:51 3089

原创 【Flink】Table API和SQL API

Flink具有两个关系API - 表API和SQL - 用于统一流和批处理。Table API是Scala和Java的语言集成查询API,允许以非常直观的方式组合来自关系运算符的查询,例如选择,过滤和连接。无论输入是批输入还是流输入,任一接口中指定的查询都具有相同的语义并产生相同的结果。flink版本:1.8.0scala版本:2.11.81、使用maven引入相关依赖&l...

2019-05-13 17:52:56 1128

原创 【ssh免密登录】ssh免密登录

假设服务器有三台s201 s202 s203,现在想要实现s201免密登录其他的服务器。s201(主节点)s202 s203 (从节点)所有节点执行 如果没有.ssh目录# mkdir .ssh # chmod 700 ~/.ssh【注意】:.ssh文件夹的权限不要给多了,我之前给的775,免密登录失败,改成777,还是失败,改成700就好了主节点上依...

2019-05-13 08:30:43 185

原创 百度网盘不限速破解

具体参考:proxyee-down主页

2019-05-13 08:30:26 19175

原创 tensorflow CIFAR-10数据集实战前奏-下载导入数据集

CIFAR-10数据集CIFAR-10数据集包含60000张32*32的三通道的彩色图像。CIFAR-10一共有10类图片,每一类图片有6000张,有飞机,鸟,猫等图片。1、下载官方代码并解压TensorFlow在github上中同样有一个下载和导入CIFAR数据集的代码文件,地址为:https://github.com/tensorflow/models,可以直接下载z...

2019-05-06 18:28:43 2832 4

原创 centos7离线安装CDH 5.13.1过程记录及安装所遇到问题的解决方案(2019-05-04)

我有三台虚拟机,都是最新安装的centos7,下面是资源分配主机名 ip 内存 磁盘大小 主从 s201 192.168.0.201 10g 40g 主 s202 192.168.0.202 4g 20g 从 s203 192.168.0.203 4g 20g...

2019-05-04 10:22:28 2003

原创 (四)使用TensorFlow完成mnist数据集手写数字识别

目录1、导包2、下载并加载数据集3、可以先来看看数据集中的手写数字到底是什么样的4、定义模型5、定义测试准确率tensor及其他数据6、开启session,迭代训练并验证准确率7、运行查看结果8、完整代码手写数字识别在tensorflow中的地位就像学习python、java过程中的Hello,World一样,本文默认你已经了解了mnist数据集相关的内容。代码...

2019-04-27 16:35:58 716

原创 Tensorflow常见API讲解(带例子)

目录1.tf.random.set_random_seed(seed)/tf.set_random_seed(seed)2. tf.layers.dense()3.tf.placeholder()4.tf.train.Saver()5.print_tensors_in_checkpoint_file()6.tf.slice()7.tf.split()8.tf....

2019-04-23 16:48:25 1506

原创 (三)使用TensorFlow对一元二次函数进行预测

1、导入所需的库import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltpyplot库是用来绘制数据点与预测的一元二次曲线的拟合关系2、数据的准备x_data = np.linspace(-0.5, 0.5, 200)[:, np.newaxis]noise = np.random.n...

2019-03-22 15:48:50 916

原创 (二)使用TensorFlow对一元一次线性方程进行预测

上一章我们讲了TensorFlow中的一些针对变量、矩阵的基本操作,如果忘了可以再点击链接看一下---->查看上一章先来说明如何使用TensorFlow对一元一次线性方程进行预测:假设我们有一堆模拟数据,数据是(x,y)类型的,比如(3,7)(-0.1,0.8)类似数据关于这些数据,我们通过分析,这些数据的特征值只有一个,符合一元一次线性分布y=wx+b,w为权重,b为偏秩。我们...

2019-03-21 17:54:14 306

原创 (一)TensorFlow的基础操作

在TensorFlow中使用图 (graph) 来表示计算任务 在会话(Session)的上下文中执行图 用tensor来表示数据 通过变量Variable来对状态进行维护 使用feed来为操作赋值或者从中取出数据下面这段代码可以让你对TensorFlow有个很直观的感受# -*- coding: UTF-8 -*-import tensorflow as tf# 创建一...

2019-03-21 17:00:32 221

原创 idea使用lombok的时候无法找到log,编译时无法找到log

安装lombok插件,安装完后重启 启用annotation processing 如果在编译的时候仍提示无法找到log,则更改compiler,将eclipse更改为javac

2019-03-08 15:40:01 4053 3

原创 Win10安装anaconda+python3.6+TensorFlow(CPU版本/GPU版本)

1. 下载64位的anaconda(anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项)下载地址:anaconda官网 2. 点击exe执行文件进行安装,一路点next,不用更改默认选择3. 安装好了之后,在path下配置环境变量,比如我安到了:c:\app\Anaconda3下面,则在path...

2019-01-27 10:50:58 2675

原创 防止rm -rm /意外的出现,替代品:-safe-rm及其安装使用说明

众所周知,如果使用rm -rf不当,可能会造成严重的后果,比如rm -rf / 。。。。而safe-rm是一款基于linux自身rm命令的一个软件,安装后功能和rm相同,但是可以设置黑名单,将不能删除的目录加入黑名单,即使使用rm -rf命令也无法删除,有效防止了误操作,下面是具体安装及使用root用户 wget https://launchpad.net/safe-rm/trunk/0...

2019-01-10 15:19:04 3037

原创 Spark2.X-自定义累加器AccumulatorV2

累加器作为spark的一个共享变量的实现,在用于累加计数计算计算指标的时候可以有效的减少网络的消耗 spark中有一个节点的角色是Master,根据配置文件进行分配,Master节点的职责主要是参与worker节点之间的资源调度。 参与spark作业计算的是worker节点上的excutor,在最开始会将原始RDD复制到excutor的各个task进程上以供计算。这时候如果task过...

2018-12-27 16:22:03 1497

原创 Hive学习笔记

目录1、数据类型2、常用命令3、数据操作 4、HiveQL-查询(例子)1、数据类型 tinyint 1byte有符号整数 smalint 2byte有符号整数 int 4byte有符号整数 bigint 8byte有符号整数 boolean 是...

2018-12-18 11:02:11 358

原创 linux给命令取别名,简化常用的linux命令

在linux中很多时候我们会经常性的使用某些命令,比如切换到某个目录,但是目录结构太多,真的很累,这时候我们就可以自定义命令,也就是给命令取别名1.在当前用户的home目录下编辑.bashrc文件2. 比如我想简化命令:cd /usr/local/hadoop则进行如下编辑3. 执行命令:source .bashrc,使上步的编辑生效4. 测试一下,没啥问题...

2018-12-10 22:21:45 3241

原创 Spark数据倾斜解决方案

数据倾斜的原因:        在数据中存在一个或少数数量key对应的数据量特别大,导致在spark处理task进行shuffle的时候,大部分task都很快的执行完毕,剩下的少数task执行时间特别长甚至直接fail。 解决方案:   1、直接从源头进行解决:    1.1 在spark的上游--处理源数据的过程中,直接将可能会发生数据倾斜的数据根据key聚合为一条...

2018-12-06 17:40:55 310

原创 Spark 累加器注意点

注意点:存在多个action算子的时候,accumulator可能存在重复计算的情况验证:第一步先获取一个accumulator//accumulatorLongAccumulator accum = sc.sc().longAccumulator();此时进行累加求和操作:JavaRDD&lt;Integer&gt; map = sc.parallelize(Array...

2018-11-09 17:59:19 505

原创 SimpleDateFormat在格式化大数据量的时间易出现线程问题

  当数据量较大的时候,可能会出现传入处理参数与实际传入参数不一致的问题此时看看SimpleDateFormat源码:由此可知SimpleDateFormat非线程安全,可使用:FastDateFormat public static final FastDateFormat TIME_FORMAT = FastDateFormat.getInstance("yyyy...

2018-11-09 14:57:16 436

原创 org.apache.spark.SparkException: Task not serializable] with root cause

18/11/08 11:27:26 ERROR [dispatcherServlet]: Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Request processing failed; nested exception is org.apache.spark...

2018-11-08 11:33:52 560

原创 Spark-RDD转Dataset及简单的SparkSql操作(java和scala版本)

一、编程式方法(一)java版本public class WordPro { private static SparkSession gloableSpark; private static Logger logger = LoggerFactory.getLogger(WordPro.class); public static void main(String[] args) ...

2018-09-30 14:39:48 2330

原创 Ueditor使用期间遇到的问题汇总

1.图片上传1.1 保存自定义图片上传保存的路径及回显问题UE.Editor.prototype._bkGetActionUrl = UE.Editor.prototype.getActionUrl;UE.Editor.prototype.getActionUrl = function (action) { if (action == 'uploadimage' || a...

2018-09-29 17:25:01 910

RapidMiner Studio.rar

RapidMiner是一款专业的数据挖掘工具,主要功能包括缺失值处理、数据访问、数据探索、数据准备、建模、数据清洗、模型验证、数据分析等,从数据设计到建模到分析都可轻松完成,为数据分析师带来新的解决方案。有需要的朋友可以下载使用。

2019-09-27

spark-2.2.1.tgz

如果官网的下载比较慢的话可以试试下这个,至少比官网快点

2019-09-04

templetes.rar

里面包含三套网站模板,精挑细选出的三套,分别是绿色系装修公司、中国风传媒公司、橙色系传媒公司的官网代码,风格简单大气

2019-07-16

java并发编程与高并发处理.xmind

java并发编程总结,为xmind格式,总结的很详细,包含常见的并发容器,锁等知识

2019-05-16

CDH安装过程记录.txt

cdh5.13的安装文档,详细记录了安装的步骤和一下常见问题的解决办法

2019-05-16

多个大数据学习模拟数据集地址

多个大数据的模拟数据网站地址,对个人学习很有帮助。

2019-04-26

百面机器学习算法工程师带你去面试

百面机器学习算法工程师带你去面试,机器学习必备,面试前必备

2019-04-26

Flink基础教程.pdf

当下大数据方向热门的实时处理框架Flink,入门必备,Flink项目成员执笔,阿里技术专家翻译

2019-04-26

MNIST手写数字数据集

MNIST手写数字数据集,有时候网络不好,无法在线下载,故上传至csdn

2019-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除