自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 python计算两个日期间的工作日天数

计算两个日期间的工作日天数

2024-04-23 19:04:01 182 2

原创 运营分析模型----人货场

用户运营

2023-11-16 09:18:59 103

原创 运营分析模型----AARRR模型

用户运营,AARRR

2023-11-15 12:48:40 93

原创 运营分析模型----RFM模型

产品运营,RFM

2023-11-14 13:01:51 70

原创 运营分析----用户行为理论

用户生命周期,用户运营

2023-11-09 21:51:51 43

原创 运营分析模型-----5W2H分析法

运营,用户运营

2023-11-09 21:40:57 28

原创 常用运营分析模型-----QQ模型

运营分析模型

2023-11-09 21:11:18 26

原创 财务报表分析

财务,财务报表

2023-11-09 20:57:17 27

原创 SQL查询中的模糊匹配

SQL 模糊查询

2022-11-21 17:14:28 3443

原创 XGboost和GBDT的异同

xgb

2022-11-04 11:16:00 259

原创 XGboost原理

XGboost

2022-11-04 11:10:55 200

原创 union 和 union all的区别

union 和 union all的区别

2022-11-04 11:04:37 276

原创 SQL调优

SQL调优

2022-11-04 10:57:39 55

原创 hive中日期和字符串的转换

hive中日期和字符串之间的转换

2022-08-23 10:46:32 4752

原创 hive中的空值处理函数 nvl、 nvl2、if、 coalesce

hive中的空值处理函数

2022-06-27 10:20:34 3266

原创 hive中行转列

hive数据统计

2022-06-21 18:13:59 3709

原创 用户连续登录天数hive

用户连续登录天数hive统计

2022-06-13 18:24:45 528

原创 ClickHouse中的数据字典

数据字典数据字典是ClickHouse中提供的一种非常简单实用的存储媒介。数据字典中的数据会主动或被动加载到内存,并支持动态更新,由于数据字典常驻内存的特性,所以它非常适合保存常量或经常使用的维度表数据,以避免不必要的join查询。ClickHouse中扩展字典类型及特点...

2022-02-08 18:29:43 507

原创 ClickHouse的数据定义

ClickHouse的数据类型1、基础类型基础类型中没有布尔类型,但可以使用整型中的0或1代替目前时间类型中没有时间戳类型,时间类型最高的精度是秒,如果需要处理毫秒,微秒等大于秒分辨率的时间,只能借助UInt类型实现。2、复合类型3、特殊类型...

2022-02-08 15:59:39 694

原创 ClickHouse的架构设计

ClickHouse的架构设计ClickHouse架构设计中的核心模块1、Column 与FiledColumn和Filed是ClickHouse数据最基础的映射单元,作为一款百分之百的列式存储数据库,ClickHouse按列存储数据2、DataTypeDataType负责数据的序列化和反序列化DataType虽然负责数据的序列化工作,但是不负责数据的直接读取,而是从Column和Filed对象获取3、Bolck与Block流ClickHouse内部的数据操作是面向Block对象进行的,并

2022-02-08 15:12:35 364

原创 ClickHouse

ClickHouseClickHouse最初设计的目标是服务公司的一款web流量分析工具。基于前方探针采集到的行为数据,进行一系列的数据分析。在采集数据的过程中,一次页面click(点击),就会产生一个event(事件),整个系统的逻辑就是基于页面的点击事件流,所以ClickHouse的全称是Click Stream,Data WareHouse。ClickHouse适用场景基本能够胜任各种数据分析类的场景,非常适用于商业智能领域(BI领域),能够被广泛应用于广告流量,web,app流量,电信,金融,

2022-01-29 11:59:00 2336

原创 数据架构简析

简单了解大数据Hadoop最初指代的是分布式文件系统HDFS和Mapreduce计算框架,但是它一路高歌猛进,在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn,Hive,HBase,Spark等十种之多)为解决海量数据下分析查询性能问题,数据仓库的基础上衍生出的概念1、对数据仓库进行分层,通过层层递进形成数据集市,减少最终查询的数据体量2、提出数据立方体的概念,通过对数据预先处理,以时间换空间,提升查询性能。BI系统在Hadoop技术的加持下,在海量数据下要实现多维分析的实时应答,

2022-01-29 11:30:45 3058

原创 SQL查询条件巧用

sql查询条件中直接写boole类型的字段,而不标注要查询的是哪部分数据,默认查询的为true的数据consent_status 为布尔类型,true代表用户已授权,false代表为访客select * from mid_user_channel where consent_status;查询出来的数据全部为已授权用户...

2021-12-28 10:37:06 513

原创 hive中字段长度

获取字段长度 length()获取数组长度 size()

2021-11-30 10:58:11 3263

原创 hive中将文本拆分为键值对str_to_map()

str_to_map(字符串参数, 分隔符1, 分隔符2)分隔符1将文本分成K-V对,分隔符2分割每个K-V对。对于分隔符1默认分隔符是',',对于分隔符2默认分隔符是'='。举例user_id tag_value 1 62@2021-11-28 2 92@2021-11-28#93@2021-11-29 3 98@2001-1-17 select user_id,str_to_map(tag_value,'#',"@') as tag from t..

2021-11-29 13:54:30 1248

原创 hive ----获取json字符串中指定字段名的值

id info 1 {"con_id":"105","doctor_id":"134"} 2 {"con_id":"107","status":"True"} select get_json_object(info,'$.con_id') from test运行结果:info 105 107

2021-11-23 18:17:16 1535

原创 商品类别区分

SPU:苹果6(商品聚合信息的最小单位),如手机->苹果手机->苹果6,苹果6就是SPU。SKU:土豪金 16G 苹果6 (商品的不可再分的最小单元)。

2021-10-18 10:55:27 128

原创 hive常用函数

nvl() 函数nvl(score,0) 判断score的值是否为空,如果为空则为0,0为默认值,否则为score本身split()函数split(skin_code,'\ /') 对skin_code切割字符串skin_code '1_ABCD/3_ABCD/5_ABCD' '6_ABCD/5_ABCD/3_ABCD' 执行函数split(skin_code,'\ /')skin_code [1_ABCD,3_ABCD,5_ABCD] [6_ABCD,5_ABC

2021-10-13 15:25:29 102

原创 Hadoop~~MapReduce

MapReduce将计算过程分为两个阶段:Map和ReduceMap阶段并行处理输入的数据Reduce阶段对Map结果进行汇合。

2021-09-26 16:53:40 35

原创 Hadoop~~Yarn

Yet Another Resource Negotiator 简称 YARN是Hadoop的资源管理器。<1> ResourceManager(RM):整个集群资源(内存,CPU等)的老大<2>NodeManager(NM):单个节点服务器资源老大。<3>ApplicationMaster(AM):单个任务运行的老大。<4>Container:容器,相当于一个独立的服务器,里面封装了任务运行所需要的资源(比如内存,CPU,网络,磁盘等

2021-09-26 16:21:18 42

原创 Hadoop~~HDFS

Hadoop Distributed File System,简称HDFS,分布式文件系统HDFS架构概述NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。DataNode(dn) :在本地文件系统存储文件块数据,以及块数据的校验和。Secondy NameNode(2nn):每隔一段时间对NameNode元数据备份。...

2021-09-26 16:02:45 42

原创 hadoop

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop的优势:1、高可靠性:Hadoop底层维护多个数据副本,所以即使某个计算元素或存储出现故障,也不会导致数据丢失。2、高扩展性:在集群间分配任务数据,可方便扩展数以千计的节点...

2021-09-26 15:24:10 66

原创 hive调优----查询条件

数据处理中,不怕数据量大,就怕数据倾斜1、慎重使用count(distinct col)distinct会将col列所有数据保存在内存中,形成一个类似hash的结构,速度很快;但是在大数据背景下,因为col列所有值都会形成以key值,极有可能发生OOM(内存用完)解决方案:可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION BY col)方式代替COUNT(DISTINCT col)...

2021-09-13 09:58:44 259

原创 hive 调优----参数

1、分区设置hive.exec.dynamic.partition = False设置 True 表示开启动态分区功能。hive.exec.dynamic.partition.mode = strict ;设置成 nonstrict 表示允许所有分区都是动态的。hive.exec.max.dynamic.partitions.pernode = 100 ;每个mapper 或reducer 可以创建的最大动态分区个数。如果每个mapper或reducer 尝试创建大于这个

2021-08-31 11:55:00 687

原创 HIVE中,order by、sort by、 distribute by, cluster by区别和意义

1. oreder by 主要做全局排序 只要hive的sql中指定了order by,那么所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block,只会启动一个reducer )。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点区别:如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数。因为:所有的数据都会在同一个reducer端进行,数...

2021-08-30 18:26:09 457

原创 集成学习

集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统,基于委员会的学习等。集成学习的一般结构:先产生一组个体学习器,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生。如果决策树集成中全是决策树,神经网络集成中全是神经网络,这样的集成是同质的。同质集成中的个体学习器亦称基学习器,相应的学习算法称为基学习算法。集成也可以包含不同类型的个体学习...

2019-10-16 16:12:07 311

原创 机器学习之聚类

在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。此类学习任务中研究最多,应用最广的是聚类。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇。通过这样的划分,每个簇可能对应于一些潜在的概念(类别);需说明的是,这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的...

2019-10-16 16:06:30 457

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除