自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 收藏
  • 关注

原创 SLI、SLO和SLA,一文彻底搞懂!!!

前言SLO和SLA是大家常见的两个名词:服务等级目标和服务等级协议。云计算时代,各大云服务提供商都发布有自己服务的 SLA 条款,比如 Amazon 的 EC2 和 S3 服务都有相应的 SLA 条款。这些大公司的SLA看上去如此的高大上,一般是怎么定义出来的呢?本文就尝试从技术角度解剖一下 SLA 的制定过程。说 SLA 不能不提SLO,这个是众所周知的,但是还有一个概念知道的人就不多了,那就是 SLI(Service Level Indicator),定义一个可执行的 SLA,好的 SLO

2021-09-11 22:38:49 31902 1

原创 在分布式系统中,如何生成全局唯一的 ID?SnowFlake算法了解一下。

随着互联网的高速发展,信息时代数据增速加快,为了缓解传统关系型数据库的单点压力以及处理能力,我们不得不考虑分布式架构,在此背景下为了记录数据的唯一性,往往需要一个全局唯一 ID,那我们如何获取呢?方法一:UUID UUID 是通用唯一识别码 (Universally Unique Identifier),在其他语言中也叫 GUID ,可以生成一个长度 32 位的全局唯一识别码。为了保证 UUID 的唯一性,规范定义了包括网卡MAC 地址、时间戳、名字空间(Na...

2021-09-02 17:11:05 578

原创 宽表:数据仓库 - “宽表”之争?

昨天在技术交流群里一个问题引发了激烈的讨论,我决定把它记录下来。问题如下:DWD 中有宽表么? 作为扫盲文章,基础知识我们再普及一下,先介绍下基础相关概念。数仓分层(来自:个人理解) ODS、DWD、DWS、ADS 等,具体含义不做解释,数仓分层是大家为了抽象业务,简化计算,从设计上遵循高内聚低耦合的思想,经过漫长积累,业界普遍遵从的逻辑分层。初入数仓行业你可能会被这些东西限制住,但当你融会贯通时就会做到活学活用,代码无分层,心中有...

2021-08-20 11:40:26 3786 1

原创 项目管理实战-第十三章 相关方管理

相关方也叫干系人(stakeholder)案例:劫匪劫车劫色,项目往往是死在被忽略的相关方手里共创思维相关方管理 谁是你的相关方? 他们有什么期望? 他们的影响有多大? 怎么调动他们的积极性? 如何与他们沟通? 怎么解决利益冲突?相关方分析相关方类型参与项目的人(正面影响和负面影响)、不参与项目的人(正面影响和负面影响)...

2020-12-10 13:33:22 378

原创 项目管理实战-第十二章 采购管理

建筑信息模型 BIM可视化:3D、4D、5D……协调性:设计碰撞检查、设计、采购、施工、各专业分包模拟性:可展现未来建造过程和成果优化性:变更随时更新模型,随时出新图持续性:从规划、设计、加工、安装、维修到报废国际标准采购合同范本FIDIC:国际咨询工程师联合会AIA:美国建筑师学会ICE:英国土木工程师学会WORLD BANK:世界银行敏捷场景下的采购管理 通过主要服务协议(MSA)来管辖整体协作关系,用附录或补...

2020-12-09 21:26:43 293

原创 项目管理实战-第十一章 风险管理

风险管理的含义和类别风险敞口 未加保护的风险,也成“风险暴露”。 在某个项目、项目集或项目组合中,针对任一特定对象,而适时作出的对所有风险的潜在影响的综合评估。单个项目风险 vs 整体项目风险案例:田忌赛马、杀毒软件变异性风险(黑天鹅事件、剧情反转、屌丝逆袭、没按套路出牌、亮瞎了眼)模糊性风险(需求?不了解 !未来?看不清!规律?搞不懂!趋势?猜不透!我读书少!)项目韧性 项目遭遇风...

2020-12-06 22:25:16 632

原创 项目管理实战-第十章 沟通管理

沟通管理 为确保项目信息及时且恰当地规划、收集、生成、发布、存储、检索、管理、控制、监督和最终处置所需要的各个过程。有效的沟通 以正确的形式、在正确的时间把信息提供给正确的受众,并且使信息产生正确的影响。乔哈里窗:适当公开隐秘区,这样开放区可能会越来越大。书面沟通的 5C 原则规划沟通管理需要考虑的要素沟通模型沟通漏斗沟通路径 ...

2020-12-03 21:41:41 511

原创 项目管理实战-第九章 项目资源管理

资源管理的过程自组织团队 最好的架构、需求和设计出自:自组织团队 --《敏捷宣言》 知识工作者必须要自我管理,他们必须有自主权 -- Peter Drucker 《二十一世纪的管理挑战》权利矩阵项目资源特点:临时性、流动性、松散性、复杂性项目与企业人力资源管理的区别 企业人力资源:选用育留 项目人力资源:借用育还团队章程:团队价值观、沟通指南、决策标准和过程、冲突处理过程...

2020-12-02 21:36:30 453

原创 项目管理实战-第八章 质量管理

等级与质量 精确度与准确度规划质量管理管理质量控制质量等级 VS 质量等级高质量不一定高,等级低质量不一定低,质量低一定不好。精确度:样本之间的距离都非常小准确度:样本和目标的距离小质量管理水平、质量管理的发展发展历程:工匠自检、专职质检、QC 质量控制、QA 质量保证、DfX、TQM 全面质量管理质量管理的发展趋势和代表人物趋势一:客户满意 代表人物 朱兰 核心思想:...

2020-11-30 21:59:48 503

原创 项目管理实战-第七章 成本管理

成本的分类、盈亏平衡分析 7.1 规划成本管理 7.2 估算成本 7.3 制定预算 7.4 控制成本成本管理的目标:在批准的预算内完成项目的工作成本的分类方式 直接成本 & 间接成本:微笑曲线 固定成本 & 可变成本:盈亏平衡分析 机会成本:选择项目时,所有项目中能给你带来最大的潜在收益,就是机会成本 必须是客观上可以选择的方案...

2020-11-29 21:35:55 714

原创 项目管理实战-第六章 进度管理

时间的特征:时间不等人、投入有上限、对谁都公平看板工具WIP(work in process)在制品看板系统特点:拉动式看板的六大核心实践1,可视化工作流程2,限制在制品(WIP)3,管理和度量流动4,显示化流程规则5,建立反馈环路6,协作式改进洋葱圈规划时间管理的过程具有未完项的迭代进度计划:未完成活动或持续性活动敏捷开发滚动式开发...

2020-11-28 23:49:32 490

原创 项目管理实战-第五章 项目管理范围

范围管理的目标 要做什么 只做什么范围管理包括产品范围:产品、服务或成果所具有的特性和功能项目范围:为交付产品、服务或成果而必须完成的工作范围管理过程:确保项目团队、项目发起人和项目相关方,对项目的可交付成果,以及对形成这些可交付成果所进行的工作达成共识不同生命周期的范围管理对比如何收集需求?头脑风暴、访谈、焦点小组、问卷调查、标杆对照、联合应用设计或开发(JAD)范围与需求:范围来自于需求,范围又不等于需求范围...

2020-11-26 21:44:12 505

原创 项目管理实战-第四章 项目整合管理

4.1 整合管理说的是什么整合管理的发展趋势:使用自动化工具、可视化管理工具、项目知识管理、增加项目经理的职责、混合型方法整合什么?敏捷场景中的整合管理整合管理的过程制定项目章程制定项目管理计划指导与管理项目工作管理项目知识监控项目工作实时整体变更控制结束项目或阶段项目章程1,由项目启动者或发起人发布的2,正式批准项目成立3,并授权项目经理动用组织资源开展项目活动的文件项目章程标志...

2020-11-24 15:35:24 757

原创 项目管理实战-第三章 项目经理的角色

项目经理就是神一样的存在!敏捷的项目经理 敏捷项目中并不存在项目经理的角色,要求每个人都具备项目管理的能力,人人都是项目经理项目中的三个角色 产品负责人(Product Owner): 开发团队(Dev Team): 敏捷专家(Scrum Master):维持团队的规则和秩序(警察)、保护开发团队不受外界干扰(保安)、为团队提供周到的支持和服务(保姆)、带领大家认识规则和方法(教练)项目经理的角色和影响范围项目经理要具有两面性:在领导面...

2020-11-21 00:09:52 724

原创 项目管理实战-第二章 项目运行环境

组织运行环境 事业环境因素EEFs:组织内部的(愿景、使命、价值观等,企业内部的软、硬件条件);组织外部的(法律、法规、标准、规范、市场、经济、自然环境) 组织过程资产OPA:过程、政策和程序(模版、手册、指南、流程、政策、程序);组织知识库(只是、经验、教训、数据、信息、资料) 组织系统OS:组织治理框架(规则、政策、程序、项目、项目集、项目组合);管理要素;组织结构类型总结: - - 事业环境因素EEFs是被动接受,遵守的关系,组织过程资产OPA是主动参与,...

2020-11-18 21:25:38 405

原创 MacOS 中解压缩(unzip)出现 illegal byte sequence 的解决方案

当压缩包中包含中文时,会出现此问题或者用解压软件遇到err22.无效的参数导致无法解压异常截图:可在终端中输入以下命令:ditto -V -x -k --sequesterRsrc filename.zip destinationfilename为压缩文件的文件名 destination为解压的文件存放的文件夹名成功解压!...

2020-11-17 15:52:54 1775

原创 项目管理实战-第一章 引论

项目管理水平的高低不等于≠项目成果好坏项目管理水平高项目不一定成功,但是能大大提高成功率敏捷宣言个体与交互 胜过 过程和工具可用的软件 胜过 完备的文档客户协作 胜过 合同谈判响应变化 胜过 遵循计划敏捷敏捷思想:和尚烧水柴火困境敏捷中范围是可以变动的,利用有限的资源满足客户的刚需1,考虑哪些是必须做的2,快速开发3,接受市场的验证,才是对资源最大的尊重与出题人有着同样的价值观方法论十个成语未雨绸缪 计划、风险防微杜渐 监控、纠正资源.

2020-11-16 21:35:46 1325

原创 遍历二叉树(三种遍历方式:左根右(中序), 根左右(先序), 左右根(后序))

二叉树遍历:  顺着一条搜索路径访问二叉树中的节点,每个节点均被访问一次,且只被访问一次。遍历目的:  得到树中所有节点的一个线性排列。遍历用途:  是二叉树元素增删改查等操作的前提。波兰式(先序)、逆波兰式(后序)等://定义节点typedef struct BiNode{ElemType data;//数据域struct BiNode *lchild, *rchild;...

2020-11-06 11:12:17 27598

原创 GFS、MapReduce和BigTable:Google的三种大数据处理系统

Google 在搜索引擎上所获得的巨大成功,很大程度上是由于采用了先进的大数据管理和处理技术。Google 的搜索引擎是针对搜索引擎所面临的日益膨胀的海量数据存储问题,以及在此之上的海量数据处理问题而设计的。众所周知,Google 存储着世界上最庞大的信息量(数千亿个网页、数百亿张图片)。但是,Google 并未拥有任何超级计算机来处理各种数据和搜索,也未使用 EMC 磁盘阵列等高端存储设备来保存大量的数据。2006 年,Google 大约有 45 万台服务器,到 2010 年增加到了 100 万台,截

2020-11-04 10:49:15 1747

原创 实时数仓实践从0到1之路之kafka安装部署以及案例程序演示

STEP 1: GET KAFKADownload installation package:kafka https://mirrors.bfsu.edu.cn/apache/kafka/2.6.0/kafka_2.12-2.6.0.tgz$ tar -xzf kafka_2.12-2.6.0.tgz$ cd kafka_2.12-2.6.0STEP 2: START THE KAFKA ENVIRONMENT注: 本地环境Java 8 以上按正确的顺序启动以下命令:开

2020-10-26 15:08:13 245

原创 hive笛卡尔积优化、join或left join 无on条件优化

正常业务中我们是不希望看见笛卡尔积的,因为它会造成数据膨胀,数据成倍增长,极有可能使得计算崩溃。但是有时因为业务需要,我们又不可避免笛卡尔积,那我们该如何做呢?接下来我们来看一种场景。业务背景imeis_table表中只有imei字段 数据量40亿条左右dim_table表一张维表,数据量800+条目的是的imeis_table表与dim_table表做笛卡尔积,结果就是40亿*800+条,显然数据量是非常大常规写法(pyhton脚本)import osCMD = ...

2020-10-14 15:57:45 3798 3

原创 实时数仓实践从0到1之路之flink安装部署步骤

实时数仓在业界炒的火热,作为专注于数仓的博主来说不得不掌握。虽然博主对于实时数仓有着很深的理解,但一直在工作没有实践,不甘落后的我们决定自启项目。我们将从零到一搭建实时数仓,进行业务开发,数据分析,完成完整的实时数仓项目实践。我们将从本篇博客开始由浅入深的完成实时数仓落地。项目将放在git(持续更新)上:https://github.com/lanfz/flink-dw,期待你的关注或加入,喜欢的看官可以手动给个star!!!!环境准备:linuxflink https://...

2020-10-13 15:00:20 286

原创 Spark/PySpark中map与flatMap

map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回map函数的源码:def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each element of this RDD. >>> rdd = sc.parallelize(["b", "a", "c"]) >>> s

2020-10-10 10:26:04 2782 1

原创 DataWorks训练营第五讲-DataWorks数据分析介绍

2020-09-22 16:59:43 577

原创 DataWorks训练营第四讲-DataWorks PD

意义不大没有记录

2020-09-22 16:58:54 129

原创 DataWorks训练营第三讲-DataWorks数据建模介绍

模型工具:datablaudatamodelerERwinPowerDeign

2020-09-17 13:47:19 727

原创 DataWorks训练营第二讲-DataWorks数据集成介绍及最佳实践

2020-09-16 12:38:25 368

原创 阿里巴巴大数据开发治理平台DataWorks训练营第一讲

数据仓库研发规范:https://help.aliyun.com/document_detail/115496.html数据模型架构规范: https://help.aliyun.com/document_detail/117432.html数据质量保障原则: https://help.aliyun.com/document_detail/1168...

2020-09-14 21:00:36 342

原创 数据仓库维度设计

维度设计:维度是维度建模的基础与灵魂,度量成为事实环境描述为维度维度的作用一般是查询约束、分类汇总以排序等如何获取?业务交谈中,按照sqlby中代理键 无业务含义自然键 有业务含义设计方法:1、维度唯一性,相同含义有且只允许有一个维度定义2、确定主维度3、确定相关维度4、确定维度属性:1、从主维度中生成或新建维度 2、从相关维度表中生成或新建维度特殊维度:行为维度:时间维度、快照维度、分组行为维度、复杂维度多值维度:数据发散、维表中多...

2020-09-14 19:11:36 287

原创 数据仓库事实表设计

事实表分为:事务事实表、周期快照事实、累计快照事实设计原则1,尽可能包含所有与业务过程相关的事实2,只选择与业务过程相关的事实3,分解不可加事实为可加的组件 比如订单的优惠率,应该分解为订单原价金额与订单优惠金额两个事实存储在事实表中。4,在选择维度和事实之前必须先声明粒度 (时间粒度:年季月周日时 类目粒度:各级类目、产品)5,在同一个事实表中不能有多重不同粒度的事实 金额与订单票数不能同时进入度量选入,会造成重复计算6,事实的单位要保持一致7,对事实的n...

2020-09-14 19:10:51 342

原创 Hive按特定时间窗口分组求和实例

样例数据: > select * from tmp.lanfz_log;2020-09-14 13:47:12,771 [ForkJoinPool-1-worker-3] INFO cn.jpush.spark.parser.SqlStatisticsParser - queryId : e1a036de-3463-4ab9-a3e9-9ba6e6229227usera lb 2020091410 60 ..

2020-09-14 13:57:18 1816

原创 数据仓库分层之ODS、CDM、ADS、DWD、DWS

三层设计:(参考阿里One Data)ODS操作数据层CDM:公共维度模型层 CDM划分为DWD 明细数据层 DWS汇总数据层ADS 应用数据层划分原则:1,高内聚和低耦合2,核心模型与扩展模型分离 (扩展模型定制化需求)3,公共处理逻辑下沉及单一4,成本与性能平衡5,数据可回滚(多次运行)6,一致性(上下层,相同名称含义一致)7,命名清晰,易理解...

2020-09-07 21:51:20 21807

原创 HiveSQL或SparkSQl中group by与grouping sets、with cube和with rollup用法演示

GROUPING SETS: 根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果集进行UNION ALL数据准备:建表语句:create table tmp.gb(a string,b string,c int)row format delimited fields terminated by '\t' stored as textfile;案例数据:1 1 12 1 22 2 22 2 32 1 21 2 2使用案例:第一种组合:select

2020-09-04 17:35:49 1119 1

原创 SparkSql MAPJOIN优化之小表left join大表

首先我们要了解MAPJOIN优化原理,这里简要说明下Spark Broadcast hash join(Hive map join同理)1,把小表广播到所有大表分布的节点上,在每个节点上分别进行单机hash join2,left join时只能广播右表执行基本条件:小表必须小于参数spark.sql.autoBroadcastJoinThreshold, 默认为10Msql场景小表需要leftjoin大表 小表150M左右 大表1T左右原始sql(广播...

2020-09-03 11:16:52 7939 3

原创 数据仓库规范定义

规范定义指以维度建模为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、派生指标经验总结:1,数据字典 2,统一字段,性别、时间戳 3,字段池 4,简写描述 5,名词术语定义 6,建表规范 7,书写规范名词术语:数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一个个不可拆分的行为事件,在业务过程之下,可以定义指标;维度是指度量的环境,如买家下单事件,买家是维度。为保障整个体系的生命力,数据...

2020-09-02 22:04:23 1153

原创 数据仓库模型数据仓库四大模型

ER模型(BillInmon 比尔·恩门)提出 (大型企业底层构建)1,整体性考虑:全面了解企业业务和数据2,实施周期长3,建模人员的能力要求高步骤:高层模型:考虑所有上层主题,主题之间的关系中层模型:细化上层主题数据项物理模型:基于性能,存储,平台特点,数据合并,分区设计维度建模(RalphKimball 拉尔夫·金博尔)提出 (当前最主流的模型)星型:所有维表直接连接到事实表雪花型: 当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到...

2020-09-02 22:02:13 2444

原创 为什么要进行数仓建模???

数仓建模的好处1,性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐2,成本:减少数据冗余、计算结果复用、从而降低存储和计算成本3,效率:改善用户使用数据的体验,提高使用数据的效率4,改善统计口径的不一致性,减少数据计算错误的可能性...

2020-09-02 21:59:21 1527

原创 数据治理知识架构图全网唯一

2020-09-02 15:08:32 911

原创 Spark 3.0 AQE Adaptive Query Execution详解

在Spark 3.0中,AQE框架具有以下三个功能: Dynamically coalescing shuffle partitions (动态整合shufflepartitions数量) Dynamically switching join strategies ( 动态切换连接策略) Dynamically optimizing skew joins( 动态优化倾斜连接) 以下各节将详细讨论这三个功能。Dynamically coalescing shu...

2020-08-17 10:43:57 1099

原创 dataframe中head() first() take() collect() show() tail() limit()的关系

first() = head(1) head() 底层调用 take()show() 底层调用的take()多了一层类型转换将值转化为字符串 多了truncate参数,截取字符串功能take() 调用collect() + limit()collect()触发runjob()执行任务tail() 返回dataframe最后一行,可能会OOM方法及源码截图和部分函数描述collect()limit()take()Take the fir...

2020-08-06 22:46:40 1450

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除