熊猫姐姐90-CSDN博客

原创 union 和 union all的区别

union 和 union all的区别

2022-11-04 11:04:37 276

原创 hive中日期和字符串的转换

hive中日期和字符串之间的转换

2022-08-23 10:46:32 4752

原创 hive中的空值处理函数 nvl、 nvl2、if、 coalesce

hive中的空值处理函数

2022-06-27 10:20:34 3266

原创 ClickHouse中的数据字典

数据字典数据字典是ClickHouse中提供的一种非常简单实用的存储媒介。数据字典中的数据会主动或被动加载到内存，并支持动态更新，由于数据字典常驻内存的特性，所以它非常适合保存常量或经常使用的维度表数据，以避免不必要的join查询。ClickHouse中扩展字典类型及特点...

2022-02-08 18:29:43 507

原创 ClickHouse的数据定义

ClickHouse的数据类型1、基础类型基础类型中没有布尔类型，但可以使用整型中的0或1代替目前时间类型中没有时间戳类型，时间类型最高的精度是秒，如果需要处理毫秒，微秒等大于秒分辨率的时间，只能借助UInt类型实现。2、复合类型3、特殊类型...

2022-02-08 15:59:39 694

ClickHouse的架构设计ClickHouse架构设计中的核心模块1、Column 与FiledColumn和Filed是ClickHouse数据最基础的映射单元，作为一款百分之百的列式存储数据库，ClickHouse按列存储数据2、DataTypeDataType负责数据的序列化和反序列化DataType虽然负责数据的序列化工作，但是不负责数据的直接读取，而是从Column和Filed对象获取3、Bolck与Block流ClickHouse内部的数据操作是面向Block对象进行的，并

2022-02-08 15:12:35 364

原创 ClickHouse

ClickHouseClickHouse最初设计的目标是服务公司的一款web流量分析工具。基于前方探针采集到的行为数据，进行一系列的数据分析。在采集数据的过程中，一次页面click（点击）,就会产生一个event（事件）,整个系统的逻辑就是基于页面的点击事件流，所以ClickHouse的全称是Click Stream,Data WareHouse。ClickHouse适用场景基本能够胜任各种数据分析类的场景，非常适用于商业智能领域（BI领域），能够被广泛应用于广告流量，web,app流量，电信，金融，

2022-01-29 11:59:00 2336

原创数据架构简析

简单了解大数据Hadoop最初指代的是分布式文件系统HDFS和Mapreduce计算框架，但是它一路高歌猛进，在此基础之上像搭积木一般快速发展成为一个庞大的生态（包括Yarn,Hive,HBase,Spark等十种之多）为解决海量数据下分析查询性能问题，数据仓库的基础上衍生出的概念1、对数据仓库进行分层，通过层层递进形成数据集市，减少最终查询的数据体量2、提出数据立方体的概念，通过对数据预先处理，以时间换空间，提升查询性能。BI系统在Hadoop技术的加持下，在海量数据下要实现多维分析的实时应答，

2022-01-29 11:30:45 3058

原创 SQL查询条件巧用

sql查询条件中直接写boole类型的字段，而不标注要查询的是哪部分数据，默认查询的为true的数据consent_status 为布尔类型,true代表用户已授权，false代表为访客select * from mid_user_channel where consent_status;查询出来的数据全部为已授权用户...

2021-12-28 10:37:06 513

原创 hive中字段长度

获取字段长度 length()获取数组长度 size()

2021-11-30 10:58:11 3263

原创 hive中将文本拆分为键值对str_to_map()

str_to_map(字符串参数, 分隔符1, 分隔符2)分隔符1将文本分成K-V对，分隔符2分割每个K-V对。对于分隔符1默认分隔符是','，对于分隔符2默认分隔符是'='。举例user_id tag_value 1 62@2021-11-28 2 92@2021-11-28#93@2021-11-29 3 98@2001-1-17 select user_id,str_to_map(tag_value,'#',"@') as tag from t..

2021-11-29 13:54:30 1248

原创 hive ----获取json字符串中指定字段名的值

id info 1 {"con_id":"105","doctor_id":"134"} 2 {"con_id":"107","status":"True"} select get_json_object(info,'$.con_id') from test运行结果：info 105 107

2021-11-23 18:17:16 1535

原创商品类别区分

SPU：苹果6（商品聚合信息的最小单位），如手机->苹果手机->苹果6，苹果6就是SPU。SKU：土豪金 16G 苹果6 （商品的不可再分的最小单元）。

2021-10-18 10:55:27 128

原创 hive常用函数

nvl() 函数nvl(score,0) 判断score的值是否为空，如果为空则为0,0为默认值，否则为score本身split()函数split(skin_code,'\ /') 对skin_code切割字符串skin_code '1_ABCD/3_ABCD/5_ABCD' '6_ABCD/5_ABCD/3_ABCD' 执行函数split(skin_code,'\ /')skin_code [1_ABCD,3_ABCD,5_ABCD] [6_ABCD,5_ABC

2021-10-13 15:25:29 102

原创 Hadoop~~MapReduce

MapReduce将计算过程分为两个阶段：Map和ReduceMap阶段并行处理输入的数据Reduce阶段对Map结果进行汇合。

2021-09-26 16:53:40 35

原创 Hadoop~~Yarn

Yet Another Resource Negotiator 简称 YARN是Hadoop的资源管理器。<1> ResourceManager(RM):整个集群资源（内存，CPU等）的老大<2>NodeManager(NM):单个节点服务器资源老大。<3>ApplicationMaster(AM):单个任务运行的老大。<4>Container:容器，相当于一个独立的服务器，里面封装了任务运行所需要的资源（比如内存，CPU，网络，磁盘等

2021-09-26 16:21:18 42

原创 Hadoop~~HDFS

Hadoop Distributed File System,简称HDFS，分布式文件系统HDFS架构概述NameNode(nn):存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。DataNode(dn) :在本地文件系统存储文件块数据，以及块数据的校验和。Secondy NameNode(2nn):每隔一段时间对NameNode元数据备份。...

2021-09-26 16:02:45 42

原创 hadoop

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop的优势：1、高可靠性：Hadoop底层维护多个数据副本，所以即使某个计算元素或存储出现故障，也不会导致数据丢失。2、高扩展性：在集群间分配任务数据，可方便扩展数以千计的节点...

2021-09-26 15:24:10 66

原创 hive调优----查询条件

数据处理中，不怕数据量大，就怕数据倾斜1、慎重使用count(distinct col)distinct会将col列所有数据保存在内存中，形成一个类似hash的结构，速度很快；但是在大数据背景下，因为col列所有值都会形成以key值，极有可能发生OOM(内存用完）解决方案：可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION BY col)方式代替COUNT(DISTINCT col)...

2021-09-13 09:58:44 259

原创 hive 调优----参数

1、分区设置hive.exec.dynamic.partition = False设置 True 表示开启动态分区功能。hive.exec.dynamic.partition.mode = strict ;设置成 nonstrict 表示允许所有分区都是动态的。hive.exec.max.dynamic.partitions.pernode = 100 ;每个mapper 或reducer 可以创建的最大动态分区个数。如果每个mapper或reducer 尝试创建大于这个

2021-08-31 11:55:00 687

原创 HIVE中，order by、sort by、 distribute by， cluster by区别和意义

1. oreder by 主要做全局排序只要hive的sql中指定了order by，那么所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block，只会启动一个reducer ）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数。因为：所有的数据都会在同一个reducer端进行，数...

2021-08-30 18:26:09 457

原创集成学习

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统，基于委员会的学习等。集成学习的一般结构：先产生一组个体学习器，再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生。如果决策树集成中全是决策树，神经网络集成中全是神经网络，这样的集成是同质的。同质集成中的个体学习器亦称基学习器，相应的学习算法称为基学习算法。集成也可以包含不同类型的个体学习...

2019-10-16 16:12:07 311

原创机器学习之聚类

在无监督学习中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。此类学习任务中研究最多，应用最广的是聚类。聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇。通过这样的划分，每个簇可能对应于一些潜在的概念（类别）；需说明的是，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇所对应的...

2019-10-16 16:06:30 457

yuanyuan___的博客

原创 python计算两个日期间的工作日天数

原创运营分析模型----人货场

原创运营分析模型----AARRR模型

原创运营分析模型----RFM模型

原创运营分析----用户行为理论

原创运营分析模型-----5W2H分析法

原创常用运营分析模型-----QQ模型

原创财务报表分析

原创 SQL查询中的模糊匹配

原创 XGboost和GBDT的异同

原创 XGboost原理