自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 HDFS数据块大小设计策略

默认大小:HDFS中的文件在物理上是分块存储(block),默认大小在hadoop2.x版本中是128M,老版本中是64M。为什么是64/128M?:原因:文件块越大,分割数越少,寻址时间越短,但磁盘传输时间越长;文件块越小,分割数越多,寻址时间越长,但磁盘传输时间越短;寻址时间:*HDFS中找到目标文件块(block)所需要的时间。目的:尽可能保持使寻址时间仅占传输时间的1%如果寻址时间约为10ms,而传输速率为100MB/s我们要将块大小设置约为100MB。默认的块大小128MB。块

2020-05-30 09:57:22 355

原创 linux快速生成为大文件用于测试

生产文件(占硬盘空间):#生成6G的file 文件,文件内容为全0(因从/dev/zero中读取,/dev/zero为0源)。dd if=/dev/zero of=file bs=1M count=6000#此命令生成的文件会写入硬盘,文件产生的速度和硬盘读写速度有关系,读写速度越快,产生文件越快。示例图片:生产文件(不占硬盘空间)#如果只想产生一个大文件的数据,但是并不需要占用磁盘空间,则可以使用如下命令:dd if=/dev/zero of=file bs=1M count=0 see

2020-05-30 09:20:59 810

原创 HDFS回收站机制

回收站机制:HDFS会为每一个用户创建一个回收站目录:/user/${user.name}/.Trash。用户删除文件时,文件并不是彻底地消失了,而是mv到了/user/${user.name}/.Trash这个文件下。注意:如果用户的回收站中已经存在了用户当前删除的文件/目录,则HDFS会将这个当前被删除的文件/目录重命名,命名规则很简单就是在这个被删除的文件/目录名后面紧跟一个编号(从1开始直到没有重名为止)定期删除机制:在HDFS内部的具体实现就是在NameNode中开启了一个后台线程Empti

2020-05-30 09:08:52 355

转载 Hive创建dual测试表

#创建dual表create table if not exists dual(test string);#插入一条数据insert into table dual values('');#测试select 1+2 as add from dual;

2019-05-24 10:21:51 417

原创 Hive查询结果导出

导出到本地#未登陆hive客户端时#第一种: #其中test.csv文件无效预先创建hive -e "select * from test" >> /tmp/test.csv #第二种:#其中test.hql为查询语句hive -f test.hql >> /tmp/test.csv #已登陆hive客户端时 其中/tmp为目录 默认生成00000_...

2019-05-24 10:04:30 1577 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除