自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (1)
  • 收藏
  • 关注

转载 【转】一文读懂HDFS

在腾讯云社区上看到的一片文章,对于hdfs的整体介绍,比较全面,对应的hdfs版本比较新,2.x以上。这里转载一下,以后可以随时复习一下。原文链接:https://cloud.tencent.com/developer/article/1031641依稀为正文部分:独家 | 一文读懂Hadoop(二)HDFS(上)数据派THU发表于数据派THU订阅502随...

2019-05-12 12:55:53 553

原创 java AQS源码阅读

####addWaiter该方法用于向等待队列中添加一个节点,对于获取独占锁的方法(acquire)传入的mode是EXCLUSIVE,获取共享锁的传入的是SHAREDprivate Node addWaiter(Node mode) { Node node = new Node(Thread.currentThread(), mode); // Try the fast pa...

2019-04-22 00:04:04 262

原创 矩阵最大路径问题

题目:在一个 m*n 的棋盘的每一个格都放有一个礼物,每个礼物都有一定价值(大于 0)。从左上角开始拿礼物,每次向右或向下移动一格,直到右下角结束。给定一个棋盘,求拿到礼物的最大价值。例如,对于如下棋盘1 10 3 812 2 9 65 7 4 113 7 16 5礼物的最大价值为 1+12+5+7+7+16+...

2019-04-15 01:16:56 3550

原创 从 1 到 n 整数中 1 出现的次数

leetCode和剑指offer上都有此题,普通的遍历思路就不说了,时间复杂度是O(nlogn)主要分析一下如下的解题思路:public int NumberOf1Between1AndN_Solution(int n) { int cnt = 0; for (int m = 1; m <= n; m *= 10) { int a = n / m...

2019-04-14 20:43:44 203

原创 ThreadPoolExecutor构造函数各参数意义

ThreadPoolExecutor类是java的线程池实现的核心类,ThreadPoolExecutor类有四个构造方法,其中三个构造方法最终都是调用另一个参数最全的构造方法,这里整理一下各参数的意义及使用时的注意点,同时也能加强记忆。首先贴上jdk源码中的javadoc:/** * Creates a new {@code ThreadPoolExecutor} with the ...

2019-03-10 12:48:31 1766

原创 单例模式

单利模式的一种典型实现方式,双重检验锁。需要说明的是instance必须是volatile修饰的,因为instance = new SingleInstance()这句话在jvm中的执行步骤如下:1. 在堆内存中分配一个新的SingleInstance实例内存空间2. 执行SingleInstance构造函数3. 将新的实例的引用赋值给instance由于jvm会进行指令重排的优化,...

2019-03-08 19:42:07 105

原创 LinkedList源码阅读

拣几个重要的方法说一下:1. 首先是:addAll(int index, Collection&lt;? extends E&gt; c)方法,将给定集合中的所有元素添加到制定的下标处/** * Inserts all of the elements in the specified collection into this * list, starting at the speci...

2019-03-03 12:55:06 310

原创 ArrayList.removeIf 方法源码阅读

先贴上代码:public boolean removeIf(Predicate&lt;? super E&gt; filter) { Objects.requireNonNull(filter); // figure out which elements are to be removed // any exception thrown from the filter...

2019-03-03 00:25:59 495

原创 红黑树插入分析,java实现

不想打字,直接贴手写的稿纸吧^_^代码地址:https://github.com/zhuge134/data-structures-and-algorithm-learn/blob/master/src/main/java/com/zhuge/learn/dsaa/datastructure/tree/RedBlackTree.java实现不是很好,有待改进...

2019-03-02 21:31:48 129

转载 一个不错的网上商城练手项目

http://how2j.cn/k/tmall_ssm/tmall_ssm-1399/1399.html?p=55563

2019-02-14 21:43:04 447

原创 记录一次定位spark shuffle总是报connection reset by peer的问题

问题描述:spark使用dynamicAllocation模式,开启external shuffle service,并且yarn上也正常起了spark-shuffle service ,在shuffle过程中,executor总是报connection reset by peer异常,导致拉取shuffle数据失败,任务失败。尝试了以下措施:1. spark.shuffle.blockT...

2019-01-19 20:34:03 5294

原创 纯洁的微笑个人博客,mark一下,向大神学习^_^

http://www.ityouknow.com/

2019-01-12 23:01:56 683

原创 在notepad里用正则表达式高效替换

假设要将下面这段内容按规则转换:{[/actuator/env],methods=[POST],consumes=[application/vnd.s{[/actuator/env],methods=[DELETE],produces=[application/vnd{[/actuator/info],methods=[GET],produces=[application/vnd.s{[...

2019-01-12 22:06:49 980

原创 spring cloud Finchley版本 刷新配置refresh

spring boot版本2.0.0spring cloud版本finchley1. 起一个config server, 略2. 创建一个config-client模块,  bootstrap.yml简单配置如下:spring: application: name: config-client cloud: config: enabled:...

2019-01-12 21:58:39 291

原创 spark保存的parquet文件在hive中读取报错

报错如下:can not find value at 0 in block ...................这个错误是由于hive中使用的parquet约定与spark中不同导致的,在hive中,decimal类型是固定用int32来表示,而标准的parquet规范约定:1=&lt;精度&lt;=9,使用int32表示;1=&lt;精度&lt;=18,使用int64表示,spar...

2019-01-07 23:02:21 3249

原创 json4s反序列化时对于可选值的处理

将字符串反序列化为java对象,如果对象中的某些属性在字符串中不存在对应的键值对,一般该属性就是默认值,当然也要看不同的json序列化框架,在使用java的json序列化框架时我们很容易处理这些情况。在使用scala时如果想进行json序列化和反序列化,有时并不是那么方便,尤其是在字符串和scala对象之间进行互转,json4s就是一个使用scala写的json序列化框架,可以很好第解决字...

2019-01-07 22:41:57 489

转载 关于dubbo和spring cloud比较的文章,总结得非常好

转载自:https://mp.weixin.qq.com/s/aYlHAXNbwiXq7DPFOYTK6A? 阿里Dubbo疯狂更新,关Spring Cloud什么事?纯洁的微笑 纯洁的微笑 2017-11-20最近,开源社区发生了一件大事,那个全国 Java 开发者使用最广的开源服务框架 Dubbo 低调重启维护,并且 3 个月连续发布了 4 个维护版本。 我上次在写“放...

2019-01-06 21:51:19 386

转载 spring 定时任务执行两次的问题

@SpringBootApplication@EnableScheduling@EnableConfigurationProperties({TimerTask.class})public class ScheduleTaskApp { public static void main(String[] args) { SpringApplication.run(Sc...

2019-01-01 14:04:36 523

转载 spring boot中使用jackson出现java.lang.NoClassDefFoundError: Could not initialize class com.fasterxml.jack

Jackson Dependency Issue in Spring Boot with Maven BuildIn this article, a Spring Boot 1.3.3 dependency issue is explored and an override is provided. by John Thompson    · May. 23, 16 · Java ...

2018-12-31 16:28:01 7320

转载 idea通过git将项目上传到github

一、 创建github仓库参考:http://www.jianshu.com/p/be9f0484af9d 1. 打开github官网:https://link.jianshu.com/?t=https://github.com/ 2. 填写信息,点击sigh up for github 3. 按照个人需要填写仓库名、仓库描述等,建议勾选“Initialize this repository ...

2018-12-28 21:15:25 1236

原创 yaml语法注意点——空格

spring boot默认使用yml文件作为配置文件,yml语法因为其简介并且表现力强而得到诸多项目的使用,但是初学yml语法还是会趟一些坑,比如空格的使用;idea中对yml也是支持的,对于一个正常的配置项会显示为蓝色如果将name和baba之间的空格去掉,就不会显示蓝色这种情况下应用在启动的时候就会报 java.lang.IllegalStateException: ...

2018-12-16 19:57:04 11275

转载 Spring Boot 中文索引

包括一些springboot教程,以及一些开源项目http://springboot.fun/

2018-12-16 12:42:11 648

原创 java中出现超出预期的异常可以捕获throwable来定位

一般在写java代码时习惯捕获Exception, 实际上java中异常的顶级父类是throwable, 经常会出现一些并非exception继承分支中的异常,比如scala中有大量的异常都不是继承自exception, 又如classnotdefexception , abstractmethoderror等继承自Error的一些异常。异常情况超出我们的预期,导致程序逻辑直接中断,很多时候我们会...

2018-11-23 07:29:34 1203

原创 记录一次thrift传输binary类型遇到的问题

问题描述:项目中使用thrift作为rpc框架,其中构建的一个服务的接口中使用到了binary类型,也就是字节数组。在thrift生产的java代码中,binary实际上被映射为nio的ByteBuffer类型。使用时一般是利用ByteBuffer.wrap方法将byte[]包装成ByteBuffer对象,然后传到接口方法中。在调试过程中发现接收端接收到的ByteBuffer内容和发送端的不一...

2018-09-23 17:08:39 5390 2

转载 潘国庆:基于 Spark Streaming 构建实时计算平台实战解析

http://gitbook.cn/books/59c1dde5987dbf24338e7df1/index.html

2018-03-27 14:51:36 193

原创 提高spark sql翻页查询性能的想法

一般每一页的数据量比较小,1000条以内。大概的想法就是把要查询的数据先一次性查出来缓存在内存中,之后翻页查询的时候直接取结果就行了,这样只是第一次查的比较慢,后面从内存中直接取数据就非常快了。但是这又带来一个问题,如果结果集太大,比如有100w行数据,而且有很多列,这样就会占用大量内存,使执行内存变小,反而会降低查询性能,因此需要分段缓存结果集。具体的做法就是:每次缓存的数据量为:每页行数*10...

2018-03-26 22:55:51 673 3

转载 Phoenix综述(史上最全Phoenix中文文档)

1. Phoenix定义Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。put the SQL back in NoSQLPhoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Pho...

2018-03-26 22:18:31 1551

转载 开发Kafka通用数据平台中间件

目录:一. Kafka概述二. Kafka启动命令三.我们为什么使用Kafka四. Kafka数据平台中间件设计及代码解析五.未来Kafka开发任务 一. Kafka概述  Kafka是Linkedin于2010年12月份创建的开源消息系统,它主要用于处理活跃的流式数据。活跃的流式数据在web网站应用中非常常见,这些活动数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内...

2018-03-25 01:10:51 359

转载 浅谈Phoenix在HBase中的应用

一、前言业务使用HBase已经有一段时间了,期间也反馈了很多问题,其中反馈最多的是HBase是否支持SQL查询和二级索引,由于HBase在这两块上目前暂不支持,导致业务在使用时无法更好的利用现有的经验来查询HBase。虽然HBase本身不支持SQL,但业界还是有现成的方案来支持,如Hive、Impala、Phoenix等。众多方案各有各的优势,本文主要对Phoenix作一个大概的介绍。Phoeni...

2018-03-25 01:09:10 2200 2

转载 awk进阶操作

7.1、awk命令形式         awk命令在shell脚本基本形式通常由四部分组成: [-F|-f|-v] (参数选项)、BEGIN语句块(初始化代码块)、pattern{commadns}(能够使用模式匹配的通用语句块)、END语句块(结束代码块),这四部分是可选择的,任意一部分都可以不出现在脚本中,后面三部分通常是被单引号或双引号括起来,awk命令形式如下所示:awk [-F|-f|-...

2018-03-24 20:58:29 189

转载 Using the High Level Consumer

Using the High Level ConsumerWhy use the High Level ConsumerSometimes the logic to read messages from Kafka doesn't care about handling the message offsets, it just wants the data. So the High Level C...

2018-03-23 00:15:23 158

转载 kafka知识点整理

一、为什么需要消息系统123456789101112131415161.解耦:  允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余:  消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存...

2018-03-23 00:11:24 197

转载 流处理框架对比

分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程,与MapReduce一样是一种通用计算框架,期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示,用它来描述流处理作业的拓扑。在选择不同的流处理系统时,通常会关注以下几点:运行时和编程模型:平台框架提供的编程模型决定了许多特色功能,编程模型要足够处理各种应用场景。函数式原语:流处理平台应该能提供...

2018-03-22 23:59:59 1885

转载 kafka 高阶api使用示例

一、基本概念  Kafka集成了Producer/Consumer连接Broker的客户端工具,但是在消息处理方面,这两者主要用于服务端(Broker)的简单操作,如:    1.创建Topic    2.罗列出已存在的Topic    3.对已有Topic的Produce/Consume测试  跟其他的消息系统一样,Kafka提供了多种不用语言实现的客户端API,如:Java,Python,Ru...

2018-03-22 23:19:57 1729

转载 kafka 协议层API示例

众所周知,Kafka自己实现了一套二进制协议(binary protocol)用于各种功能的实现,比如发送消息,获取消息,提交位移以及创建topic等。具体协议规范参见:Kafka协议 这套协议的具体使用流程为:1.客户端创建对应协议的请求2.客户端发送请求给对应的broker3.broker处理请求,并发送response给客户端虽然Kafka提供的大量的脚本工具用于各种功能的实现,但很多时候...

2018-03-22 22:56:11 418

转载 Hive java api示例

基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口,直接进入正题。 1、Hive 安装:        1)hi...

2018-03-22 22:27:16 1233

原创 利用flume增量采集关系数据库的配置

网上关于flume采集关系数据库如mysql的资料比较多,但是大部分都是复制粘贴,一错皆错,而且对于配置参数的介绍不太完整,或者未说明参数意义,由于最近在使用flume,所以在这里对配置参数简单总结一下。这里只介绍sql-source的配置agent.channels=ch1agent.channels.ch1.type=memoryagent.sources=sql-sourceagent.so...

2018-03-21 21:37:36 4112

原创 spark streaming应用提交到yarn上一直处于ACCEPTED状态,也未报错

原因已经找到,这里做个记录,防止下次再犯类似的错误。实际上是因为代码中将运行模式设置为本地模式,在提交到yarn上后driver端的代码正常运行,并且也正常运行了很多批次。但由于是本地模式,所以driver不会向resourcemanager申请资源,所以也就不会向rm注册自己,这也就解释了为什么在yarn记录的应用的日志中提示应用未向rm注册。...

2018-03-21 21:10:52 6733 1

转载 在yarn fairScheduler中使用node-label特性

连接地址:http://doc.mapr.com/display/MapR/Label-based+Scheduling+for+YARN+Applications#Label-basedSchedulingforYARNApplications-CreatingQueueLabelsLabel-based Scheduling for YARN ApplicationsSkip to end o...

2018-03-13 23:45:58 1506 1

今日总结

1. shell中字符串的截取主要有两种,一种使用$符配合%,#,*实现截取;另一种也是$符,不过要和数字配合使用;此外使用cut也能实现截取str=abcde假设现在想截取c左边的字符,应该是ab,如下:echo ${str%c*}  截取c右边的字符:echo ${str#*c}这里有个记忆方法,键盘上#号在左边,%号在右边,如果想截取左边 ,就要去掉右边,就用%号,用%号代表要截取的字符,向...

2018-03-12 23:30:26 155

spark模型选择搜集网页资料

spark机器学习模型选择以及超参数调优相关的网页资料的搜集整理

2019-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除