CodeZhuxh-CSDN博客

原创浅谈Hive SQL的优化

目前团队的数据处理都在Hadoop集群上，一是因为需要处理的数据量都是亿级的，这种规模的数据适合用Hadoop集群并行处理；二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具，它将存储在HDFS上的结构化的文件映射成一张关系型数据库表，提供简单的SQL查询功能。本文结合Hive SQL的运行原理谈一谈Hive SQL的优化问题。1. 数据过滤应尽早做，同时只选择所需要的列这个原则在传统的RDMS数据中应该也适用，因为数据提前过滤了之后进行join或者其他操

2022-02-17 14:01:32 5938 6

原创 Spark SQL distinct分析优化总结

Spark count distinct原理由于distinct过程会导致数据膨胀，导致shuffle、reduce双端数据倾斜，因此distinct算子操作特别慢distinct慢的主要原因：数据膨胀原理：select count(distinct id), count(distinct name) from table_a distinct算子在处理过程中是将distinct后的字段和group by字段共同作为key传入reduce，导致shuffle.

2021-03-29 19:07:28 6544 7

原创 Spark SQL PERCENTILE分析调研

Spark percentile原理https://zhuanlan.zhihu.com/p/340626739https://www.cnblogs.com/myseries/p/10880641.htmlHive percentile采用的是特殊的数据结构，先通过一轮聚合把每个数值出现的次数用元组的形式存储起来，再通过内存中元组的取值排序取到分位值。所以 Hive 需要在 UDAF 的计算中将数据进行压缩或预处理，那么 Mapper 是需要在生成时不断通过聚合计算更新，其内部实现基于 h

2021-03-29 19:12:37 1791

原创推荐算法-基于协同推荐(CF)

推荐算法CF写在前面概念分类基于用户(User-based)的推荐基于物品(Item-based)的推荐归一化总结冷启动写在前面最近几天将之前学习的CF基于协同过滤推荐算法笔记整理了一下，。CB算法在上一篇文章中有做整理。时光机：基于内容推荐算法-CB有需要的同学可以点赞收藏一下概念基于协同是在基于内容的基础之上发展而来的，协同过滤是一种在推荐系统中广泛采用的推荐方法。这种算法基于一个“物以类聚，人以群分”的假设，喜欢相同物品的用户更有可能具有相同的兴趣。基于协同过滤的推荐系统一般应用于有用户

2020-07-07 19:38:09 3227 3

原创推荐算法-基于内容推荐(CB)

推荐算法CB一为什么要做推荐系统二基于内容推荐是什么？1 引入Item属性的Content Based推荐2 引入User属性的Content Based推荐三正排表与倒排表正排倒排一为什么要做推荐系统由于信息过载，导致对信息反映的速度远远低于信息传播的速度；信息量远远的高于用户受众所能消费、承受和需要的信息量；且有大量无关的冗余数据信息会严重干扰用户的视线以及降低用户的产品体验。于是推荐系统便是为了解决此类问题而产生。当然搜索系统也能解决此类问题二基于内容推荐是什么？基于内容的推荐

2020-07-07 15:08:53 1520

原创天下武功-唯快不破-Spark

Spark写在前面知识点整理什么是Spark？spark和hadoop作业的区别Spark相对于MR解决了什么问题RDD（弹行分布式数据集）：spark参数调优spark开发调优spark常用组件写在前面最近抽时间在看hadoop权威指南以及spark快速大数据分析两本书，整理了一些知识点。需要的请点赞收藏。知识点整理什么是Spark？spark是一个用来实现快速而且通用的集群计算平台。在速度方面，spark拓展了广泛使用的MR计算框架，而且更高效的支持更多计算模型，例如交互式查询和流式处理。

2020-07-02 20:43:37 284

原创 Druid踩坑记录

写在前面写此文章主要是为了分享工作当中Druid遇到的一些问题，有不对之处还请指出一起讨论踩坑整理java.sql.SQLException: Cannot create PoolableConnectionFactory: java.sql.SQLException: Access denied for user ‘user’@‘127.0.0.1’ (using password: YES)1、由于迁移了机器节点，Bns白名单没有随之加上导致的元数据库连接失败2、还有一种可能是参数写错

2020-07-01 16:39:11 642

原创 hadoop批量计算框架--MapReduce

写在前面结合自身的经验记录，mapreduce中的一些知识点以及一个wordcount小实践MR知识点整理核心思想：分而治之file：文件要存储在HDFS上，每个文件切分城多个一定大小(128MB)的block块（默认3个备份）存储在对个节点（DataNode，一下简称DN）上InputFormat：分位两部分：数据分割和记录读取器数据分割(split):每个split分片包含着后一个block块中的开头部分（解决了跨block的问题）记录读取器（Record Reader）：每读取一条数

2020-06-28 21:16:12 433

原创 Hadoop分布式文件系统-HDFS概要以及2.0的新增功能介绍

HDFSHDFS的设计HDFS的概念数据块NameNode和DataNodeSecondary NameNodehadoop2.0新增的功能HDFS的设计超大文件"超大文件"是指具有几百MB、GB甚至是几百TB大小的文件。流式数据访问一次写入、多次读取不适合低时间延迟的数据访问不适合大量的小文件由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。每个文件、目录和数据块的存储信息大约占150字节。假设块大小为12

2020-06-28 19:12:19 649

原创 Hadoop2.6.1集群环境搭建

Hadoop2.6.1环境搭建环境及版本删除机器自带的JAVA环境三台机器均需关闭防火墙获取hadoop、JAVA设置环境变量配置ssh免密登入hadoop配置文件修改将hadoop分发给slave1，slave2启动集群环境及版本CentOS7JAVA8Hadoop2.6.1集群环境master: 192.168.27.130slave1: 192.168.27.131slave2: 192.168.27.132以下未做说明操作均在master节点上删除机器自带的JAVA

2020-06-28 12:50:03 267

Code_zhu的博客