自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

转载 Hive 数据倾斜问题定位排查及解决

Hive数据倾斜问题定位排查及解决

2022-08-01 14:27:04 357

原创 HDFS小文件危害以及如何解决

HDFS小文件危害以及如何解决小文件的定义文件大小小于或者等于30M的文件hdfs小文件带来危害(1)HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存甚至撑爆内存(2)HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间。hive或者spark计算的时候会影响他们的速度,因为sp

2021-01-18 14:26:22 1933

原创 网站行为日志信息统计分析

网站行为日志信息统计分析开发环境:Windows + JDK1.8 + Hadop-2.9.2+Eclipse+linux软件架构:Hadoop-2.9.2,MapReduce,Hive,hdfs开发时间/开发周期:2019.1系统目标: 通过对多个网站进行信息采集,对数据清洗,打标签,分析网站的访问量,跳出率,网络连接状态,单个ip流量的总和等 ,对网站进行研究和分析系统实现:1、数据采集清洗、分类、合并上传HDFS集群把数据采集下来后对数据进行清洗,过滤掉无用的字段或残字段,把文件上

2020-06-23 17:14:13 672

原创 用户双11购物行为分析

一、用户购物行为系统课题名称:用户双11购物行为系统 2018年6月(一)课题概述搭建hbase集群。根据需求对用户进行查询分析,按照一定规则进行过滤。做出可视化界面。(二)非关系型数据库集群的搭建–hbase的搭建2.1 架构设计服务器的IP:192.168.56.30端口:3306元数据数据存位置:/user/hive/warehouse此部分主要描述系统的架构规划,比如服务器的IP,功能,端口和数据存位置。)2.2 服务器的搭建1、修改、usr/lo

2020-06-22 15:38:26 1590

原创 Error: GPG check FAILED The command ‘/bin/sh -c yum -y install binutils’ returned a non-zero code: 1

Docker安装redis时Error: GPG check FAILEDDocker,安装redis时,报错You can remove cached packages by executing ‘dnf clean packages’.Error: GPG check FAILEDThe command ‘/bin/sh -c yum -y install binutils’ returned a non-zero code: 1环境:centos7vi DockerfileFROM ce

2020-05-28 15:40:50 4795

jdk1.7_8.0

jdk1.7_8.0和jre1.7_8.0,免费下载哦,去官网下载需要orcel账号,现以下载好,无需去官网下载,下载后直接安装即可。

2020-12-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除