自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

中郎将的博客

大数据技术持续学习者

  • 博客(5)
  • 收藏
  • 关注

原创 大数据存储框架的更新和删除操作

在数据量非常大的情况下,进行更新和删除是非常耗时的,需要加载数据修改再写出,类似于hbase和kudu,hive支持更新和删除操作,了解下实现原理,也为相似业务场景提供思路HBase:在执行删除的时候,会插入一条删除数据,标记为delete,和时间戳,查询到时候如果标记删除并且最新,确认删除更新的时候也插入跟新的数据,会有个新的时间戳,读取的时候读最新的时间数据这样有个问题就是数据会不断增...

2019-11-12 15:27:09 425 1

原创 可以ping通,xshell连不上

检查虚拟机的IP是否和本机IP一样

2019-11-01 22:48:13 3198

原创 对分布式存储和并行计算的一点思考

分布式存储:首先是文件在HDFS上面以128M块大小存储(3份),这三块是在不同节点的(机架感知),我觉的好处是容错还有当计算是这个节点资源不够可以去块所在的另一节点执行,不用拉取数据。可以通过fs.getfileblocklocation()获取块位置并行计算:1、MR使用默认的输入格式,一个块就是一个切片,切片数就是并行度,就是MapTask个数,所有数据块同时计算,reduceTas...

2018-12-30 16:40:35 958

原创 关于面试中的HashMap

底层结构:哈希表JDK7:数组+链表、Entry[ ]、table直接初始化容量为16JDK8:数组+链表+红黑树、Node[ ]、table没有初始化,在第一次添加元素时才初始化特点:1、允许null键null值。2、不保证键的顺序hashmap线程不安全,可以使用JUC包中的ConcurrentHashMap解决添加元素过程:创建HashTable对象时,table数组没有初始...

2018-12-23 18:27:24 115

原创 大数据存储基石HDFS

这篇文章主要介绍HDFS的概述、读写流程,常用的shell操作以及一些HDFS 2.X的新特性HDFS(Hadoop distributed file system),通过目录树来定位文件,文件实际以块分布式存在各个节点优点:通过副本容错,在廉价机上存储海量数据。缺点:不能高效存储小文件(1、占用大量NameNode内存。2、寻址时间会超过读取时间),一个文件不允许多线程写入,数据只能追加不...

2018-12-23 17:26:29 187 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除