自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

一个用户增长数据分析师的博客

数据分析、用户增长

原创 PowerBi指标下钻查询

利用PowerBI的跨报表钻取功能，能非常方便的实际指标下钻查询的功能。需求背景：从计算的指标值（到店、到月、到指标）下钻查询到明细级（凭证明细）的指标。实现步骤：1、数据准备将所有指标拆解至明细级的指标窄表。可以通过星形维度事实表关联，也可直接生成一张结果表。我是一般先建一张指标事实表，并将指标下钻分录行转列。将所有的指标对应的凭证号和分录号以‘-’相连，并将所有的明细以‘，’连接成字符串存储为一个字段（注意这种字段如果明细值极多可能会超过存储的范围）。再与另一张凭证的事实表进行关联生产

2021-07-26 11:05:24 2252

转载平台型组织——数字化时代的组织智商鉴定器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-07-11 17:58:33 258

转载 Presto 使用 Alluxio

Presto是一个开源的分布式 SQL 查询引擎，用于对数据进行大规模的交互式分析查询。本指南介绍了如何使用 Alluxio 作为分布式缓存层运行 Presto 进行查询，其中数据源可以是 AWS S3、Azure Blob Store、HDFS 和许多其他数据源。使用此设置，Alluxio 将帮助 Presto 访问数据（不论是何数据源），并透明地将频繁访问的数据（例如，常用的表）缓存到 ...

2019-12-15 22:48:18 717

转载 Alluxio简介及安装

一.Alluxio概述Alluxio（前身Tachyon）是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。Alluxio项目源自加州大学伯克利分校AMPLab，作为伯克利数据分析堆栈（BDAS）的数据访问层。Alluxio是增长最快的开源项目之一，吸引了来自300多家机构的1000多名贡献者，包括阿里巴巴，Alluxio，百...

2019-12-15 22:38:17 1274

转载有赞数据仓库元数据系统实践

有赞数据仓库背景业务系统使用mysql数据库，有统一的DDL规范和SQL规范数据仓库基于Hive构建业务快速变化，员工数量持续增加第一版：手工维护的表格在有赞大数据平台发展初期，业务量不大，开发者对业务完全熟悉，从ETL到统计分析都可以轻松搞定，当时没有想过要做一个元数据系统。随着公司规模扩大，开始有专职的数据分析师，作为大数据平台的新用户，希望能够记录和查看核心表的信息。最...

2019-11-29 11:32:10 333

转载 Jupyter再开发-美团民宿的应用实践

前言做算法的同学对于Kaggle应该都不陌生，除了举办算法挑战赛以外，它还提供了一个学习、练习数据分析和算法开发的平台。Kaggle提供了Kaggle Kernels，方便用户进行数据分析以及经验分享。在Kaggle Kernels中，你可以Fork别人分享的结果进行复现或者进一步分析，也可以新建一个Kernel进行数据分析和算法开发。Kaggle Kernels还提供了一个配置好的环境，以及...

2019-11-29 10:04:16 679

转载工作流引擎比较：Airflow、Azkaban、Conductor、Oozie和 Amazon Step Functions

Airflow Azkaban Conductor Oozie AWS Step函数所有者 Apache （以前是Airbnb） LinkedIn Netflix公司阿帕奇亚马逊社区很活跃有点活跃活性活性 N / A 历史 4年 7年 1.5年 ...

2019-11-19 10:12:30 3681 2

转载 MySQL锁机制与用法分析

本文实例讲述了MySQL锁机制与用法。分享给大家供大家参考，具体如下：MySQL的锁机制比较简单，其最显著的特点是不同的存储引擎支持不同的锁机制。比如，MyISAM和MEMORY存储引擎采用的是表级锁；BDB存储引擎采用的是页面锁，但也支持表级锁；InnoDB存储引擎既支持行级锁，也支持表级锁，但默认情况下采用行级锁。MySQL这3种锁的特性可大致归纳如下：（1）表级锁：开销小，加锁快...

2019-11-14 09:44:13 105

转载数据库分库分表思路

一. 数据切分关系型数据库本身比较容易成为系统瓶颈，单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后，由于查询维度较多，即使添加从库、优化索引，做很多操作时性能仍下降严重。此时就要考虑对其进行切分了，切分的目的就在于减少数据库的负担，缩短查询时间。数据库分布式核心内容无非就是数据切分（Sharding），以及切分后对数据的定位、整合。数据切分就是将数据分散存...

2019-11-12 10:38:02 356

转载 Zeus资源调度系统介绍

摘要：本文主要概述阿里巴巴Zeus资源调度系统的背景和实现思路。本文主线：问题、解决方案、依赖基础知识、工程实践、目标、经验分享。立足企业真实问题、常规解决策略，引出依赖的容器技术、实践方案，所有这些落实到工程实践，要解决那些问题、实现哪些目标、技术大趋势的影响。最后给出阿里巴巴的实践经验。本序列文章并不是突出架构上重大突破，毕竟这个领域已经发展了10多年了。而是，实践过程中的一些细节、一些特...

2019-11-11 21:38:04 720

转载美团点评酒旅数据仓库建设实践

在美团点评酒旅事业群内，业务由传统的团购形式转向预订、直连等更加丰富的产品形式，业务系统也在迅速的迭代变化，这些都对数据仓库的扩展性、稳定性、易用性提出了更高要求。对此，我们采取了分层次、分主题的方式，本文将分享这一过程中的一些经验。技术架构随着美团点评整体的系统架构调整，我们在分层次建设数据仓库的过程中，不断优化并调整我们的层次结构，下图展示了技术架构的变迁。Hotel dw l...

2019-11-11 21:32:35 209

转载携程大数据实践：高并发应用架构及推荐系统案例

本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍，互联网二次革命的移动互联网时代，如何吸引用户、留住用户并深入挖掘用户价值，在激烈的竞争中脱颖而出，是各大电商的重要课题。通过各类大数据对用户进行研究，以数据驱动产品是解决这个课题的主要手段，携程的大数据团队也由此应运而生；经过几年的努力，大数据的相关技术为业务带来了惊人的提升与帮助。以基础大数据的用户...

2019-11-11 21:28:25 624

转载 Canal+Camus快速采集MySQL Binlog到数据仓库

数据仓库的同步方法我们的数据仓库长久以来一直使用天级别的离线同步方法：采用Sqoop或DataX按天定时获取各个MySQL表的全量或增量数据，然后载入到Hive里对应的各个表中。这种方法门槛低，容易操作，在数仓建设阶段能够快速启动。但是随着时间的推移，它暴露出了一些缺点：从MySQL获取数据只能靠select，如果一次select数据量过大，会造成慢查询，甚至影响线上业务；随着业务量的...

2019-11-06 20:15:16 1981 1

转载 2019 年值得关注的 23 个开发者博客

如果你正在寻找编程技巧，或是想了解编程界发生了哪些新鲜事？那么，今天我们带来的 2019 年最佳开发者博客列表，一定是你的菜。这些博客将会帮助你发现新的工具，并带给你编程技巧的启发。让我们一起先睹为快吧！1.The Netflix Tech Blog如果你还没有听说过 Netflix，恐怕就有点“与世隔绝”了。近年来，在线流媒体平台可谓发展迅猛。自 1997 年上线以来，Net...

2019-11-01 17:33:02 306

原创京东商城关键词SEO优化总结

背景－商城APP端的场景特征1.碎片化购物的顺畅感＝>界面布局、展示的合理性商品推荐的准确、实时＝>商品推荐算法商品家搜索关键词的精确触达＝>SEO优化2、聚焦感主题、调性、场景的合理设置＝>打造小店的自有品牌特征3、个性化商品呈现、基础体验、页面风格＝>创造与众不同的商品风格4、场景化线上线下打通＝>增强用户粘性内容...

2019-11-01 09:40:36 3339

转载敏捷型数据仓库的构建及其应用

前言互联网公司一般发展迅速. 一方面, 业务飞速发展, 当前应用的形式和模型每天都在变化; 企业的产品也在经历不断的下线上线过程. 数据仓库如何拥抱变化, 是难点之一.互联网的运营人员从了解经营状况转化为精细化运营, 这就于要求数据仓库具有提供高效明细数据能力, 数据仓库如何在庞大数据量的前提下, 实现满足不同层次的数据提出和分析, 是难点之二.数据经过ETL最终到达使用数据者手里; ...

2019-11-01 08:54:46 3837

转载有赞埋点实践

一、前言大数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集做为源头，在确保全面、准确、及时的前提下，最终加工出来的指标结果才是有价值的。而埋点作为一种重要的采集手段，可以将用户行为信息转化为数据资产，为产品分析、业务决策、广告推荐等提供可靠的流量数据支持。在业务需求少的情况下，可以运用一些简单的方法快速采集用户行为。但如果业务线、终端众多，数据需求多样，就需要设...

2019-10-31 22:00:38 1682 1

转载 SnappyData与Presto,Druid,Kylin,ES的对比-2

OLAP简介On-Line Analytical Processing，简称OLAP，即联机分析处理，其主要的功能在于方便大规模数据分析及统计计算，对决策提供参考和支持。OLAP发展到现在的阶段，很多的查询分析需求具有以下4种显著的特点： 1234 1、数据量大2、高速响应3、灵活交互4、多维分析根据存储类型，OLA...

2019-10-30 15:00:54 1729

转载 MySQL Binlog实用攻略

1.概述binlog是Mysql sever层维护的一种二进制日志，与innodb引擎中的redo/undo log是完全不同的日志；其主要是用来记录对mysql数据更新或潜在发生更新的SQL语句，并以”事务”的形式保存在磁盘中；作用主要有：[x] 复制：MySQL Replication在Master端开启binlog，Master把它的二进制日志传递给slaves并回放来达到mas...

2019-10-30 09:11:10 105

转载 MySQL 数据库设计总结

规则1：一般情况可以选择MyISAM存储引擎，如果需要事务支持必须使用InnoDB存储引擎。注意：MyISAM存储引擎 B-tree索引有一个很大的限制：参与一个索引的所有字段的长度之和不能超过1000字节。另外MyISAM数据和索引是分开，而InnoDB的数据存储是按聚簇(cluster)索引有序排列的，主键是默认的聚簇(cluster)索引，因此MyISAM虽然在一般情况下，查询性能比In...

2019-10-30 08:56:53 127

转载 MySQL 索引及查询优化总结

一个简单的对比测试前面的案例中，c2c_zwdb.t_file_count表只有一个自增id，FFileName字段未加索引的sql执行情况如下：在上图中，type=all，key=null，rows=33777。该sql未使用索引，是一个效率非常低的全表扫描。如果加上联合查询和其他一些约束条件，数据库会疯狂的消耗内存，并且会影响前端程序的执行。这时给FFileName字段添加一个...

2019-10-30 08:49:59 80

原创 SAS代码－运用宏做分类变量热独编码

%let lib=weier;%let target=y;%let id=uid;%macro oh_class(dsin,dsout);/*one-hot for var of class*/data credit_model;set &lib..&dsin;run;proc sql noprint;select name into :vard separ...

2019-10-29 09:51:45 437

原创 SAS代码－决策树法选择变量重要性输出

%let lib=temp;data credit_model;set &lib..credit_model;run;%let NumSamples = 5; /* number of bagging resamples *//* 2. Generate many bootstrap samples */proc surveyselect data=credit_...

2019-10-29 09:36:41 1874

转载开源OLAP引擎测评报告－Hive、Sparksql、Presto、Impala、Hawq等对比

导读现在大数据组件非常多，众说不一，在每个企业不同的使用场景里究竟应该使用哪个引擎呢？这是易观Spark实战营出品的开源Olap引擎测评报告，团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎，在原生推荐配置情况下，在不同场景下做一次横向对比，供大家参考。每年易观都会发布一次这样的大数据开源测评报告，欢迎...

2019-10-29 09:20:11 759

转载 XGBoost缺失值引发的问题及其深度分析

1. 背景XGBoost模型作为机器学习中的一大“杀器”，被广泛应用于数据科学竞赛和工业领域，XGBoost官方也提供了可运行于各种平台和环境的对应代码，如适用于Spark分布式训练的XGBoost on Spark。然而，在XGBoost on Spark的官方实现中，却存在一个因XGBoost缺失值和Spark稀疏表示机制而带来的不稳定问题。事情起源于美团内部某机器学习平台使用方同学的反...

2019-10-29 08:57:55 344

转载美团DB数据同步到数据仓库的架构与实践

背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(Operational Data Store)数据。在互联网企业中，常见的ODS数据有业务日志数据（Log）和业务DB数据（DB）两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解...

2019-10-28 11:19:16 105

转载 OneData建设探索之路：美团SaaS收银运营数仓建设

背景随着业务的发展，频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划，导致后期数仓出现了严重的数据质量问题，这给数据治理工作带来了很大的挑战。在数据仓库建设过程中，我们总结的问题包括如下几点：缺乏统一的业务和技术标准，如：开发规范、指标口径和交付标准不统一。缺乏有效统一的数据质量监控，如：列值信息不完整和不准确，SLA时效无法保障等。业务知识体系散乱不集中，导致不同研...

2019-10-28 09:43:34 570

转载增长的接力棒——从营业收入拆解看商业模式

深度好文收藏　　零、G兽的困惑　　在财务分析的时候，G兽曾经是胡乱地扒研报来看，也曾经自己写过一点投资分析。当时做恒瑞医药分析的时候，营业收入和净利润增长速度计算了，企业毛利率和净利率也计算了，包括企业净利润对应着的经营现金流净额也做出了一定分析。乍眼一看，恒瑞医药可以说是一家高增长，能盈利，盈利能回来的现金流质量还不错的企业。另外，研发支出、研发团队和海外欧美销售收入乃至股权激励等代...

2019-10-22 14:29:02 2004

转载互联网后半场：三分之一即是全程

1.量子天花板互联网的后半场，发生了两件小事：信息流动和被消化的速度都超过以前任何时候；科技公司对资源调动的效率超过以前任何时候；第一点决定了在大部分的市场，基于各种不对称带来的套利空间已经非常小，一个领域，一旦被某个玩家撬开一个口子，证明可行（至少看起来可行），那么这个信息会迅速被充分扩散，被市场充分消化。我入行之初，原先只有BAT这样的大公司有战略部或者战投...

2019-10-22 14:19:30 128

原创 SAS代码－商品对应分析

一、数据字段（此数据来源于网络）二、运用SAS做商品对应分析非常简单几行命令搞定%macro dyfx(infile,var);PROC CORRESP mca ALL DATA=&infile OUTC=COOR1;/*对应分析，寻找行（客户特征）和列（产品特征）的关系*/tables &var. ;run;%plotit(data=COOR1,dataty...

2019-10-21 19:43:56 956

转载我在阿里三年的运营经都在这儿了

虽然是一篇老文，但值得每个做运营的人收藏。想起写这篇文章时，是我在阿里的最后一周，所有工作要交接出去。我在阿里做了2年的行业运营，1年半的市场。当我交接完手上的市场相关的工作，机智的实习生开始问我运营相关的东西(真是要趁老人走，把价值榨干啊!)。也正是在讲述中，我发现以前觉得琐碎、苦逼的事儿，那么有价值，那么值得告诉新人，也留下来给那些年努力的自己。BAT里面，阿里的运营素来在行业内口碑...

2019-10-21 09:46:20 1279

原创 SAS宏代码-运用决策树计算最佳分箱数

在运用逻辑回归－计算 WOE值时,需要对变量进行分箱，如何计算最佳分箱数呢，本例采用决策树法对连续变量计算最佳分箱数。%let lib=temp;data credit_model;set &lib..credit_model_ch5;drop target_mode home_n_mode;run;%macro creat_binnum(dsin,dvvar,dsout);...

2019-10-16 11:29:48 1999

原创一张图看清客户价值－运用Tableau作RFM客户价值分析（二）

在上一篇已经简单的对RFM客户价值图进行了分析，如何运营TABLEAU对流失客户状态进行更详尽的分析呢上图，是将消费券占比作为气泡大小，下图结合注册时间和最后一次消费时间来分析流失用户的生命周期状态1、左图结合用户的注册时间，最下部分红色的流失客户，有一些注册时间较早的老用户，需要从产品和运营角度思考为什么他们会流失。2、同时结合右图可以发现这里面有些消费频率较高的，消费金额较...

2019-10-16 10:00:12 902

转载商业分析－FAST指标解读

本文精选自【前瞻经济学人APP】作为一个面向行业用户，可以交流的资讯平台，前瞻经济学人APP提供行业深度资讯，有数据有行研报告、有实时产经新闻也有全球趣闻动态。数字化导向下，消费者管理体系从GMV转向FAST随着线上销售的渗透率逐渐提高，传统的流量运营已经无法满足中国电商消费品与零售行业长期发展战略的要求了。如何在传统流量运营之上挖掘消费者价值成为了品牌商和阿里巴巴数字化平台共同的奋斗...

2019-10-15 10:08:38 8023

原创在MYSQL下解决－连续登陆天数大于N天的用户明细并与窗口函数对比

本文是本人原创，转载请注明链接！在MYSQL不能运用窗口函数，要解决连续访问或登陆用户的计算还是要费些工夫的。/*选出用户连续登陆天数最多天数 */SELECT *FROM (SELECT * FROM ( SELECT uid, max(days) lianxu_days,#最大连续天数 min(login_d...

2019-10-14 21:19:08 3452

原创 SAS代码－暴力衍生新变量

本文是原创文章，转载请注明；在实际数据挖掘建模过程，如果已有的变量也目标变量相关性不强，可以有多种衍生变量的方法，本代码提供一种暴力衍生的方式，对相关性最强的变量进行随机抽取，可按多种方式进行衍生，并选择与目标变量最相关度前n个变量入训练集，并映射到测试集。代码在9.4m2环境测试可用。%let lib=weier;%let target=y;%let id=uid;data c...

2019-10-14 19:50:19 918

转载 SAS代码－Adaboost提升树

转一个国外大牛的代码/* Real AdaBoost: a boosting library for binary classification ----- Paul Edwards ([email protected], [email protected]) -- Comments, questions, bug reports and ...

2019-10-14 18:22:32 706

原创一张图看清客户价值－运用Tableau作RFM客户价值分析

本文是原创文章，如有转载敬请注明。在对电商用户的分析中RFM客户价值分析是非常有效的一种分析方法，而在这方面Tableau体现了他强大的BI数据展示和分析功能。一、RFM分析方法简单介绍RFM分析是从周期内最近下单时间R、下单频率F、下单金额平均值M来分析用户价值的一种方法，这个三个维度分别代表了用户的购买的忠诚度、购买粘性、购买力的信息、再结合价格敏感度(本例用户优惠券占比计算）可以...

2019-10-14 17:53:15 2640

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_40954107 CSDN认证博客专家 CSDN认证企业博客

码龄6年

IP 属地：上海市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

10: 原创

41万+: 周排名

223万+: 总排名

5万+: 访问

: 等级

660: 积分

22: 粉丝

19: 获赞

4: 评论

158: 收藏

私信

关注

热门文章

分类专栏

运营分析 13篇
AIRFLOW 1篇
MYSQL 5篇
可视化 4篇
大数据 14篇
数据挖掘 9篇
数据仓库 15篇
用户增长 3篇

最新评论

有赞埋点实践
想买高配mac的小垃圾: 非常想知道因为埋点字段不固定最后的hive库是怎么设计的
工作流引擎比较：Airflow、Azkaban、Conductor、Oozie和 Amazon Step Functions
大数据流浪法师: 机器翻译了个寂寞
工作流引擎比较：Airflow、Azkaban、Conductor、Oozie和 Amazon Step Functions
A叶子叶: 前排支持一下,可以的话来我博客看看吧
Canal+Camus快速采集MySQL Binlog到数据仓库
hffzkl: # JSON消息中的时间戳字段，用来做分区的 # 注意这里采用Binlog的业务时间，而不是日志时间 camus.message.timestamp.field=es 对于上面的地方有一个疑问，这一块好像不太对，代码中的文档写的也有点问题。这个参数虽然实现了kafka的事件到CamusWraper的解析，你也通过json的es字段对CamusWraper时间戳进行了赋值，如果你采用的分区方式为TimeBasedPartitioner，这个分区方式的是以ETLKey的时间来分区的，而ETLKey作为map的key采用的是消费kafka的当前消费时间，如下： @Override public String encodePartition(JobContext context, IEtlKey key) { return Long.toString(DateUtils.getPartition(outfilePartitionMillis, key.getTime(), outputDirFormatter.getZone())); } 感觉这个功能没有实现，或者说你们改变了分区策略。因为我也需要通kafka的事件记录时间分区，但是还没有找到合适的方式。

最新文章

提示

确定要删除当前文章？

取消删除