光圈1001-CSDN博客

原创 flink设置watermark以及事件时间字段源码分析

flink设置watermark以及事件时间字段源码分析背景1.1、提取时间戳字段，用于事件时间语义处理数据1.2、设置水位线(水印)watermarkTimestampAssigner 核心接口介绍TimestampAssigner 时间分配器接口实现类关系图：提取时间戳字段方法：TimestampAssigner 时间戳分配器, 提取数据流中的时间戳字段，public interface TimestampAssigner<T> extends Function {

2020-12-22 15:39:46 546

原创从根本解决jenkins无法下载插件ssl证书问题

解决jenkins无法下载插件ssl证书问题部分异常：sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested targetat sun.security.provider.certpath.SunCertPathBuilder.build(SunCertPathBuilder.java:141)开始：1、githua下载地址：

2020-12-13 13:52:23 3462 4

原创 linux环境部署zkUI

github地址：https://github.com/DeemOpen/zkui1.1 github上下载源码：1.2 打开自己的idea或者其他的编辑器，mavem打包(个人觉得在服务器上安装maven git麻烦，本地已经有现成的环境了)1.3将打包生成的jar包和配置文件一起上传到服务器，两个文件需要放在同一个目录，源码里肯定读的是相对路径（小槽点：为什么不直接把配置文件打进jar包，vim修改即可）1.4 修改配置文件config.cfg，需要关注的参数：#访问端口serverP

2020-12-12 19:29:48 295

原创面试官：何谓守护线程？简述守护线程创建流程？

线程设置为守护线程的过程之源码分析1 守护线程和用户线程的区别1.1线程分为用户线程和守护线程，默认都是用户线程1.2虚拟机必须确保用户线程执行完毕，但是不会等待守护线程执行完毕1.3守护线程使用场景：操作日志监控内存垃圾回收1.4当用户线程结束，守护线程也会跟着结束2 守护线程是怎么创建的2.1设置为守护线程的方法setDaemon,默认是传false，默认是用户线程，调用这个方法即可将线程设置为守护线程public final void setDaemon(boolean on)

2020-12-10 20:47:06 613

原创面试官：线程的优先级范围是多少？超出范围会如何？

1.1线程优先级范围最小为1最大为101.2 线程默认的优先级默认为51.3 优先级高的并不一定是最先执行的，最终由cpu调用，但是大多数是优先级高的先执行1.4 先设置优先级，再执行start启动线程1.5 如果优先级不在范围内，则抛出异常IllegalArgumentException定义线程优先级源码：/** * The minimum priority that a thread can have. */ public final static int

2020-12-09 22:35:51 1459

原创 root用户linux安装ngix

注意事项：安装用户为root服务器需要连网并能够执行yum下载环境下载包：http://nginx.org/en/download.html安装基础环境：yum -y install gcc gcc-c++ automake pcre pcre-devel zlip zlib-devel openssl openssl-devel解压执行 ./configure编译并安装：执行make 再执行make install查看安装位置 whereis

2020-11-12 10:23:11 155

原创【工具】PL sql 从英文版修改为中文版，不需要下载任何包，版本为14

PL SQL下载地址：https://www.allroundautomations.com/registered-plsqldev/前提：PL SQL安装成功并登录成功进入PL SQL菜单->preferences-> Appearance -> Language 选择 Chinese.lang。点击应用即可，无需重启...

2020-10-26 19:52:17 1024 1

原创【源码】探索String类的equals方法

先看Object里的equals方法这里可以看出，Object类的equals和===是相同的比较的 public boolean equals(Object obj) { return (this == obj); }Object里的hashCode方法 public native int hashCode();Object类中的hashCode()方法，用的是native关键字修饰，说明这个方法是个原生函数，也就说这个方法的实现不是用java语言实.

2020-10-24 13:49:39 120

原创抽象工厂JDK动态代理+InvocationHandler实现

核心接口和类 InvocationHandler newProxyInstanceJDKProxy newProxyInstance 生成代理类的方法返回指定接口的代理类的实例，该接口将方法调用分派给指定的调用处理程序。loader：一个classloader对象，定义了由哪个classloader对象对生成的代理类进行加载interfaces：一个interface对象数组，表示我们将要给我们的代理对象提供一组什么样的接口，如果我们提供了这样一个接口对象数组，那么..

2020-10-23 09:48:42 543 2

原创【知识点】String是如何重写equals方法，比较对象的内容的？

public boolean equals(Object anObject) {if (this == anObject) {return true;}if (anObject instanceof String) {String anotherString = (String)anObject;int n = value.length;if (n == anotherString.value.length) {char v1[] = value;char v2[] = anotherSt

2020-10-17 14:37:52 365

原创 shell后台执行命令常用输出方式总结

1、只是错误输出到文件nohup command > /dev/null 2 >> t.log &2、只是错误输出到屏幕nohup command 2>&1 > /dev/null3、如果什么信息都不要nohup command >dev/null 2>&1 &4、标准输出到文件nohup command > t.log 2>&1 &...

2020-10-15 11:29:46 820

原创 kafka send方法小结

1、kafka的send 默认发送方式应该是同步，而非异步public ApacheKafkaClient(String kafkaServers, boolean sync) throws Exception { super(kafkaServers, sync);}查看父类VersionKafkaClient2、kafka调用send方法有3种方式//单条发送public void send(String topic, String message) throws Excepti

2020-09-16 00:37:44 3199

原创 pl sql远程连接oracle服务器最简单的教程

1.安装一个pl sql （百度）2.找一个oracle的客户端的安装包，官网下载即可，注意版本（百度）3.不需要安装oracle的客户端也不需要创建配置文件环境变量。pl sql配置oracle客户端方法：打开pl sql，不登录，点击关闭，进入pl配置结束----------登录pl即可使用远程连接oracle成功...

2020-08-27 12:35:53 145

原创谷歌浏览器安装es-head插件

es-head插件的方便不多说，由于要安装的电脑不能联网，因此要下载离线的安装包，而且不想编译，折腾了很久，特地记录1.github的地址：https://github.com/mobz/elasticsearch-head2.下载谷歌的crx插件的地址（根据id）：https://chrome-extension-downloader.com/3.下载的插件拖到浏览器，如果crx格式加载报了无效的异常，解决办法：1.文件格式修改为zip2.解压3.浏览器加载解压安装包，记得要选择有.json的

2020-08-19 00:03:32 2999

原创 --------------------------------------集合List去重总结------------------------

java----->集合List去重总结List是实际开发中非常常用的集合，此处简单总结lsit的去重观察源码：继承父类Collection：public interface List extends Collection {}最常用的实现类：public class ArrayList extends AbstractListimplements List, RandomAccess, ...

2019-11-19 16:42:02 894

原创 2019/11/11 测试ow

2019/11/11 测试ow开始记录自己的开发点滴

2019-11-11 21:13:46 878

原创 kibana连接es，一直连接失败，需要安装x-pack

启动kibana的异常信息：X-Pack plugin is not installed on the [data] Elasticsearch cluster进入kibana一直无法连接es出来检查各自的配置文件的地址之外检查es的版本！！！！！如果是es的oss版本，清更换es的版本，不要使用oss版本下载地址：https://www.elastic.co/cn/downloa...

2019-10-30 20:35:11 6255 1

原创 idea 远程docker部署小坑记录

1.idea部署docker ，需要把打了包的文件，放在docker目录下，和dockerfile同级目录，否则会报异常：Error: ResponseItem.ErrorDetail[code=,message=No source files were specified]Failed to deploy ‘docker-server Dockerfile: spring-boot-oaut...

2019-09-20 11:38:03 8112

原创 spring boot 单元测试 could not autowrited no bean of xxx

spring boot 单元测试 could not autowrited no bean of xxx原因：spring boot的启动类，路径不正确，组件注入到spring的容器失败启动的主类扫描的范围：主配置类（@SpringBootApplication标注的类）的所在包及下面所有子包里面的所有组件扫描到Spring容器...

2019-06-26 11:10:35 1501

转载【转】Spark SQL 函数全集

放丢失，转载，感谢大神！https://blog.csdn.net/liam08/article/details/79663018Summary

2019-05-07 21:29:26 900

转载 Spark获取json 对象嵌套Json对象的方法【转】

https://blog.csdn.net/qq_21439395/article/details/80710180格式：{"appId":"10001","platform":"0","visitData":{"topicId":"15465"}}代码：df.select("visitData.topicId").show()结果：+-------+ |topicId| +-----...

2019-05-07 20:43:41 1579

原创 spark sql max函数，计算出的并不是字段的最大值的解决办法

出现的状况：原代码：val timeDF2 = df2.groupBy("userId").agg(max("totalOnlineTime"))select time.userId as timeUserId, max(time.totalOnlineTime) as totalTime ,time.platform as platforms from time group by t...

2019-04-11 16:35:57 5275

转载【转】Spark运行原理

http://www.sohu.com/a/217196727_100065429

2019-03-26 16:33:59 113

转载 [转]Spark中Executor内存中管理机制

https://www.jianshu.com/p/87e060d460e5

2019-03-26 16:32:14 159

转载【转】 Hadoop HDFS本地存储目录结构解析

https://blog.csdn.net/opensure/article/details/51452058

2019-03-26 15:37:51 196

原创 mongodb nosql数据库updates 操作符集锦

$set$set update运算符将字段的值设置为指定的值。set(“quantity”, 11)$setOnInsert$setOnInsert update运算符将字段值设置为给定值，但仅当更新是导致插入文档的upsert时。setOnInsert(“defaultQuantity”, 10)$unset$unset update运算符删除具有给定名称的字段。unset(“q...

2019-03-22 11:36:49 381

原创 spark 提交submit任务的shell脚本

*sudo -u hdfs /usr/hdp/2.6.5.0-292/spark2/bin/spark-submit –master yarn –deploy-mode cluster –driver-cores 1 –driver-memory 2g –num-executors 3 –executor-memory 1g –executor-cores 1 –class mai...

2019-03-22 10:56:58 2230 3

原创关于mongodb的文件存储的使用

gridfs是用于存储和检索超过BSON文档大小限制16 MB的文件的规范。gridfs不将文件存储在单个文档中，而是将文件分为多个部分或块[1]，并将每个块存储为单独的文档。默认情况下，gridfs使用默认块大小255 kb；也就是说，gridfs将文件划分为255 kb的块，最后一个块除外。最后一个块只有在必要的时候才那么大。类似地，不大于块大小的文件只有最后一个块，只使用所需的空间加上一些...

2019-03-22 10:43:39 925

原创关于parkSQL读取Parquet数据源之合并元数据schema

【问题】-在读取小量数据时，会加载出最新的一个新加的列的数据，没有的值，为null，但是当加载的数据量偏大的时候，会出现加载字段不全的情况，没有达到预期【原因】从Spark 1.5.0版本开始，默认是关闭Parquet文件的自动合并元数据的特性的当数据量过大，sparksql，出于性能的考虑，没有合并字段的信息，也就是schema，造成了字段不全的问题【解决办法】read 数据源...

2019-03-13 20:57:15 424

转载 [转载分享]Spark性能优化—资源调优篇

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪...

2019-01-22 10:32:43 95

原创 spark sql 处理数据优化个人总结

1.缓存datafream2.缓存table3.函数算子的使用-----有时间详细总结----

2019-01-22 00:15:08 193

原创破解补丁的方式无限期破解idea

破解补丁的方式无限期破解idea地址：感谢大神的博客，完全参考，仅作分享http://idea.lanyus.com/https://blog.csdn.net/qq_36874292/article/details/81229293破解补丁的方式：1.下载jar包2.jar包放在idea的bin目录下3.idea的bin目录下的：idea.exe.vmoptions 和...

2019-01-22 00:12:16 644

转载 YARN-Cluster和YARN-Client的区别

理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念：Application Master。在YARN中，每个Application实例都有一个ApplicationMaster进程，它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源，获取资源之后告诉NodeManager为其启动Container。从深层次的含义讲YA...

2018-11-13 10:55:55 641

原创 ambari失去心跳同时无法连接其中一台datanode的错误

状况：ssh连接不上、其他的主机无法ping 通、也无法ssh登陆 amabri 集群失去心跳ambari的服务停止无法解决检查了hosts正常检查ip地址！！！！！！！！！可能是由于路由器动态分配了一个新的地址电脑的ip的自动分配，要讲自动分配修改为静态ip，再将自己的ip 和子网掩码配置，即可怎么在linux上永久修改IP地址：https://jingyan.baid...

2018-11-12 20:27:35 860

原创重启集群之后，ambari与主机失去心跳无法恢复的解决办法

启动ambari服务表示已经存在：ERROR: ambari-agent already running异常：the server has not received a heartbeat from this host for more than 3 minutes 3分钟之后失去心跳了**=========================stop 启动和restart 都不行，...

2018-11-12 20:22:02 4663 2

原创 spark性能优化事项参考

(1)使用Kryo进行序列化。在spark中主要有三个地方涉及到序列化：第一，在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输；第二，将自定义的类型作为RDD的泛型数据时(JavaRDD，Student是自定义类型)，所有自定义类型对象，都会进行序列化。因此这种情况下，也要求自定义的类必须实现serializable借口；第三，使用可序列化的持久化策略时，spark会将RDD中的每...

2018-11-12 09:50:48 141

转载 spark-core 和spark-sql的区别

转自：http://www.cnblogs.com/zlslch/p/6685679.htmlSpark SQL构建在Spark Core之上，专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的！　　Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进，　　简单来讲：　　　　Spark SQL 支持很多种结构化数...

2018-11-10 17:45:25 4421

原创测试flume、kafka 组件遇到的几个问题

1.flume采用netcat的方式测试服务是否正常启动的异常：ERROR org.apache.flume.source.NetcatSource - Unable to bind to socket. Exception follows.java.net.BindException: Address already in use原因：flume中的source设置的端口被占用换一个...

2018-11-08 18:41:01 984

原创搭建ambari过程中必需的本地池配置文件repo文件记录

1.ambari.repo#VERSION_NUMBER=2.6.2.2-1[ambari-2.6.2.2]name=ambari Version - ambari-2.6.2.2baseurl=http://master01/ambari/centos7/2.6.2.2-1/gpgcheck=0gpgkey=http://master01/ambari/centos7/2.6.2.2...

2018-11-06 14:54:40 1411 1

原创 ambari集群中spark集群执行jar踩的坑

公司三台测试服务器，测试spark的集群模式是否正常运行遇到的问题：1.spark运行spark任务遇到的，SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application.参考博客：https://...

2018-11-06 14:38:40 1196

PLSQL_14客户端，连接oracle神器

破解work密码以及移除密码

破解excel密码以及解除密码

空空如也