自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 数据分析RFM模型 Python实现

数据分析RMF模型之Python实现一、RFM模型接地气解读1.身边的RFM2.业务中的RFM3.RFM分类种类二、Python实现1.思路概要(1)数据(2)计算字段(3)评分(4)分类2.Python方法应用建议一、RFM模型接地气解读对于小白来说,沾了“模型”的词汇听起来都会高深莫测,但是所有的高深莫测都要落地、接地气才能被业务真正用上。RFM模型的作用简单来说就是做用户的分层、分类,到这里听起来还是虚无缥缈。分完类又能干点啥,能为帮助业务做什么呢?1.身边的RFM比如我月底没钱了,我要和身

2021-08-01 16:38:35 1455

原创 美团财报数据初步分析

美团财务报告分析背景美团业务组成背景本次分析偏向商务经营方面,主要探索的是美团(原名为美团点评)业务组成、业务趋势、利润组成、未来发展4个方面,数据范围从2019Q1到2020Q2。但分析深度较浅,仅对交易额、营收、利润等进行了探索分析,希望大家能分享更多的建议与思路。为方便大家学习,点击即可获取美图财报数据与携程财报数据,请注意携程财报数据是全英文的。美团业务组成美团业务主要由3部分组成,分别是餐饮外卖,酒店旅游,新业务。...

2020-11-19 23:13:29 12716

原创 美国旧金山共享单车数据分析

美国共享单车数据分析数据说明数据清洗空值删除数据类型转化统计值概览异常数据数据筛选新增小时、周、月纬度探索性分析数据概览数据异常分析bike_plan与会员关系小时、周、月纬度分析高峰时间骑行数据订阅会员分析工作日与周末出行情况站点热度分析结论数据说明本次分析的数据是美国旧金山地区共享单车的骑行信息,时间范围2018-01-01至2018-12-23,点击可进行下载csv文件。数据约180万条,共14个特征。骑行秒数开始时间结束时间开始站点ID开始站点名称开始站点纬度开始站点经度

2020-11-01 00:25:06 2571 3

原创 天猫订单数据分析

天猫订单地域数据分析背景分析目标数据清洗数据读取数据预处理数据分析订单分类TOP地域数据观察下单日期/时间趋势分析下单、付款间隔时间分析结论背景天猫订单数据,为2月份的部分数据内容,已脱敏处理。保留数据特征见下表,共计28010条数据。数据集来自和鲸社区,点击链接即可下载数据集。订单id订单总金额订单实际支付金额收货地址下单时间付款时间退款金额order_idorder_moneypay_moneyaddressorder_ctp_trefund1.订

2020-10-20 21:55:54 4180 2

原创 淘宝用户行为数据分析

淘宝用户行为数据分析背景分析目标数据清洗数据读取数据预处理数据分析总体了解每日行为数据统计转化率用户行为时间分布RFM用户价值模型结论背景从阿里天池中获取淘宝用户行为数据UserBehavior.csv.zip,数据集下载解压后约9个G。以下是数据的5个特征,其中行为id包括浏览、加购、收藏、购买(pv、cart、fav、buy)用户id商品id类目id行为id时间戳user_iditem_idcate_idact_idtime数据集约7千万条数据,选取了10万

2020-10-07 21:09:56 2180

原创 AARRR模型常见指标

AARRR模型常见指标一、获客渠道数量渠道转化率日新增用户量DNU日下载APP数量获客成本CAC二、激活日活DAU周活WAU月活MAUPV页面浏览量(WEB)UV独立访客数量(APP)三、留存次日留存率 = 在次日中活跃的第一天的活跃的DNU数量 / 第一天总DNU数量三日留存率 = 第三天中第一天的活跃的DNU数量 / 第一天总DNU数量七日留存率 = 第七天中第一天的活跃的DNU数量 / 第一天总DNU数量三十日留存率 = 第三十天中第一天的活跃的DNU数量

2020-07-17 00:25:29 2055

原创 kikusyou的脚本神器!!!!

常用脚本

2023-09-25 23:29:19 98

原创 GCP本地文件上传桶java

【代码】GCP本地文件上传桶java。

2023-06-28 15:13:06 257

原创 googlecloud谷歌云的初学体会(1)

小白一枚,有些地方表述不专业,仅供参考。大家一起进步!多练、多查,总会解决大多数的问题。

2023-06-09 11:05:28 779

转载 自用资料springboot看星辰隔山海1101

自用资料看星辰隔山海1101

2023-03-26 11:54:51 90

原创 MAC Python 虚拟环境配置方法&parcharm

python虚拟环境配置 苹果电脑

2022-12-19 21:53:21 2933

原创 JAVA IO流read方法基础使用

java read 使用方法

2022-07-26 10:08:13 2614

原创 环境变量是什么?一看就懂

环境变量到底是个啥一、环境变量介绍二、富翁的房子二、富翁的爱好三、神奇管家四、配置环境变量一、环境变量介绍相信你和我一样,第一次都被这个词搞晕了,不用担心,看完你就学会了。现在暂时先忘记“环境变量”4个字。二、富翁的房子现在我们都摇身变成亿万富翁,而且在全球各地有着50多万套房子。作为富翁,你非常爱收藏东西,各种稀奇古怪的东西,而且这些东西都散落在全球各个地区的房子的房间里的某个箱子里面的盒子的袋子中。二、富翁的爱好有一天,你想把玩一个八音盒,但是这个八音盒在你的北京的某个房子里面的房间里面的柜

2022-05-19 00:57:09 2638 7

原创 数仓开发拉链表

数仓开发拉链表1.拉链表介绍2.首次全量同步数据3.处理每天新产生的数据(1)新产生的数据主要分为2种:(2)新产生数据的开链和闭链4.对拉链表中发生修改的数据进行开链和闭链5.整合所有数据6.总结1.拉链表介绍假如有一个业务数据表user_info,里面记录了用户的基本信息,主键、姓名、年龄、性别、地址、电话、数据更新日期。由于用户可能会修改个人信息,为了更好地记录、溯源,所以建立了拉链表来对所有的历史修改的数据进行记录。主要就是对每条数据增加了数据的有效期区间bdate和edate,就是说这条数

2022-05-14 22:52:07 4942 4

原创 数据仓库知识点滴~字段顺序摆放【1】

数据仓库

2022-01-16 23:36:00 776

原创 sys_refcursor使用案例

sys_refcursor使用案例一、介绍二、sys_refcursor是一种数据类型一、介绍工作中看到了sys_refcursor的类型,之前没接触过,所以就上网搜一搜。可能是我技术比较垃圾,网上大部分的介绍都看不懂,没有一个最基础的介绍,最后我在微信公众号中看到了小白案例,在这里分享一下。二、sys_refcursor是一种数据类型sys_refcursor是一种数据类型,定义游标的数类型,网上介绍了什么各种静态、动态什么的,大家可以去参考,这里只介绍最基本的用法。create or repl

2021-12-18 22:22:04 2690

原创 kettle常见业务操作表输入-表输出

kettle常见业务操作一、kettle主要功能二、简述1.kettle过程描述2.输入控件3.输出控件4.kettle三、表输入-表输出1.建表2.造数据3.表输出四、新建转化一、kettle主要功能接触kettle很长时间了,现在已经改名为Pentaho Data Integration,就是数据整合的意思和原来的水壶很相像,数据从壶口装入,壶嘴统一输出。kettle的功能很多,我当时用的最多的就是跨数据库同步数据的功能,举例,把mysql数据库中的商品信息导入到orcle,因为涉及到跨数据库,手

2021-11-13 16:42:37 9038 1

原创 ORACLE 数据全量/增量同步 merge into 方法

ORACLE 数据全量/增量同步 merge into 方法一、业务介绍二、创建表三、准备数据四、merge into语法使用介绍1.主要综合学习了其他大佬的内容2.如果想全部插入3.删除数据一、业务介绍有old和new两张表,new是每天最新业务数据,old是上一天的业务数据,需要将new表中的数据更新或插入到old的主表中。二、创建表--创建第一张表create table old( id number(10) , name varchar2(20) , age num

2021-11-08 21:47:28 3708 2

原创 滑雪教练室外雪场收入估算

滑雪教练收入估算一、序言二、室外滑雪场的运营周期三、雪场分布区域四、收入结构1.底薪2.提成3.教学时常4.教学单价五、收入结果与修正六、教练收入区间估计七、总结一、序言最近滑雪火了,把滑雪教练也带火了,外界都说滑雪教练几十万地挣钱,到底是不是真的呢?本次将通过公开的数据拆解分析滑雪教练的收入情况,带大家了解最接近真相的滑雪教练收入,正式开始前需了解以下内容:周期:11月-3月区域:国内室外滑雪场教练:滑雪场专职教练与滑雪教练收入紧密相关的指标:收入结构淡旺季底薪教学单价教学时

2021-09-28 00:00:15 1449

原创 爬虫手记【01】

爬虫手记【01】一、序言二、爬虫逻辑理解三、爬一张图片一、序言记录自己练习爬虫的始末,这次用下载图片展示主流程。二、爬虫逻辑理解网页上所有的内容几乎都是在服务器上面的,上网查东西的时候,就类似于我们对服务器说:‘我要看滑雪的图片’,服务器首先是听到你的喊话,然后嗯了一声,就开始把服务器里面有关滑雪的图片和网页用代码传给你,数据当然是二进制的,所以你需要把数据编码成人类能看懂的东西。最后你想要的图片就展示出来了,你可以下载保存在电脑里面。整个过程就是,有人要东西,服务器听到了有人要东西,服务器把东西

2021-09-22 23:08:24 100

原创 货拉拉sql互联网大厂面试真题在线练习

货拉拉sql面试真题在线练习一、sql刷题目的二、互联网大厂货拉拉sql面试题1.货拉拉sql数据表介绍2.货拉拉订单练习题sql语句(1)用车方和司机被禁止(banned=1)的比率分别为?明确问题:解题思路:参考答案答案思考时间(2)2020年1月25日的订单完成率为?明确问题:解题思路:参考答案:答案:思考时间:(3)用车至少两次,且主动取消过至少1次的用车方有多少名?明确问题:解题思路:参考答案:答案:思考时间:(4)北京、上海的非禁止用户的用车取消率分别为?明确问题:解题思路:参考答案:答案:思考

2021-09-20 01:22:31 1685

原创 关于数据运营的简单想法

如何通过数据进行增长简述产品最核心的功能是什么?用户我们真正了解自己的用户吗?竞对最了解自己的只有对手好奇心好奇心会让我们发现更多简述单独的数据是没有多大的作用,只有把数据与业务结合起来,进行各个方向的探索与尝试,这样才能走向‘增长’,缺少谁都不行。用户留存和增长的原因就是产品的价值,无论是娱乐、知识等等,通过运营我们可以将产品的短期价值传递给用户,最终的留存是产品长期的价值,只有空壳子,没有充实的价值和理念,终究走不远。产品最核心的功能是什么?当我们准备去‘增长’的时候,是否仔细想过,自己家产

2021-09-17 00:03:40 302

原创 对分数进行分段统计

分段统计题目描述吃力办法快捷办法题目描述有一个班的学生考试得分在[0, 100]范围中,老师想按每5分一个分段统计各段都有多少学生。吃力办法我当时用的是case when 对学生的成绩进行了20次的判断,进行分类,然后在进行分组计数快捷办法对所有学生的分数除5,将取整后的结果新增为一列,这样就直接将学生分数映射到了每5分的一个区间里面。3,4,2,1的得分,他们的取整都是0,所以都是在[0, 5)的区间中,其他分数同理。这样在直接进行分组统计就可以了,无需写20个判断条件。...

2021-09-13 22:51:05 545

原创 python OS标准库常见练习

Python OS 标准库常见练习一、系统相关1.显示系统名称2.显示环境变量显示路径分隔符4.显示环境变量分隔符5.显示换行符二、文件路径操作1.查看当前工作路径2.查看路径下包含的文件和文件夹列表3.更改当前目录4.新建目录5.删除空目录递归创建目录一、系统相关1.显示系统名称# 首先导入os标准库import os# 查看系统,Linux会显示posixprint(os.name)2.显示环境变量# 查看系统变量print(os.environ)显示路径分隔符# 查看路径分

2021-08-29 13:56:15 226

原创 用户行为分析之时间间隔mysql实现

用户行为分析之时间间隔一、问题简介二、举例数据(login_data)三、实现方法1.lead()函数2.left join + row_number一、问题简介实际业务中会有很多关于时间间隔的分析,例如有30%用户使用产品或某一功能的时间间隔是2天,50%用户产品使用间隔是7天,15%用户产品使用间隔是10天,5%用户产品使用间隔大于15天。那么以上各类用户对应的人均付费情况、人群画像是否有什么区别,是否还有特殊的隐形行为,是否可以进行转化?大家可以发散思路,这里只是举例二、举例数据(login

2021-08-08 16:57:53 902

原创 求用户最大连续登陆天数mysql实现

用户连续登陆一、规定时间内用户最大连续登陆天数二、user_login表字段(所有用户登陆信息)三、分解步骤1.where初步筛选2.窗口函数分组排序4.计算获得连续的字段5.分组计算连续天数6.求得结果7.连续SQL8.使用函数总结(1)timestampdiff(unit, start, end)(2)窗口函数排序(3)date_sub()一、规定时间内用户最大连续登陆天数为了看有哪些忠实用户,积极使用产品,需要计算用户的连续登陆天数。二、user_login表字段(所有用户登陆信息)u

2021-08-06 23:32:40 2000

原创 2021-08-02

数据分析RFM模型 mysql实现RFM基本概念mysql关键点navicat操作主要使用方法建议RFM基本概念关于RFM的基本概念大家可以参见我上一篇文章数据分析RFM模型 Python实现mysql关键点本次主要是分享通过mysql的方法实现RFM,进行分析前需要对数据集进行清洗,清洗数据尽量还是使用python,感觉效率会高一些,10W行的数据,简单的left join加分组运算,navicat300多秒都不止。我这里只选择了200行数据做示例,原因是查询真的是太慢了。但是mysql确实展

2021-08-02 22:50:34 107

原创 02/13单板教学内容概要

02/13全天教学内容概要一、雪板、固定器讲解1.雪板检查雪板2.固定器穿固定器3.安全知识二、基本站姿三、单脚平地练习四、单脚直滑降五、推坡练习六、阶梯式转弯练习七、展望一、雪板、固定器讲解1.雪板板面板底板头板尾前刃后刃检查雪板是否完好无损长度是否合适固定器间距2.固定器背板大绑带小绑带穿固定器梳理分开绑带鞋跟紧贴背板系大绑带系小绑带3.安全知识持板:小臂托住上固定器,竖持雪板放板:打开固定器,雪板扣放雪到上,确保稳定不移动二、基本站

2021-02-12 19:41:50 433 4

原创 Airbnb北京地区探索数据分析(1)

Airbnb北京地区探索数据分析(1)背景数据清洗数据探索总结背景本次主要对Airbnb在北京地区2020年10月的部分数据,由于数据内容较少,本次仅进行的数据探索,点击可下载数据。数据共计16列,2万7千余条。其中字段包括房源ID,房源姓名,房主ID,房主姓名,社区组,区域,纬度,经度,房间类型,价格,最低入住时常,最近一条评论,月评论占比,可出租房数量,可出租天数。数据清洗导入常用库import pandas as pdimport numpy as npimport matplotli

2020-11-13 01:18:06 776

原创 奥运会数据可视化展示

奥运会数据可视化展示背景数据说明历届奥运会奖牌数量历届奥运会奖牌在项目中的分配情况奥运会参赛运动员的性别占比情况运动员平均参赛年龄/身高/体重各国家获奖排行榜获奖最多的运动员中国获奖数量中国获奖最多的运动员中国获奖最多的项目背景本次对历届奥运会数据进行可视化分析展示,工具为tableau。分析展示内容包括:历届奥运会奖牌数量历届奥运会奖牌在项目中的分配情况奥运会参赛运动员的性别占比情况运动员平均参赛年龄/身高/体重各国家获奖排行榜获奖最多的运动员中国获奖数量中国获奖最多的运动员中国

2020-10-21 23:31:52 5219 2

原创 mysql 用户留存率计算(每日新增DNU,次日留存率,3日留存率,7日留存率)

我是先学习了这位大神留存率的写法,然后我自己完善了一下。@阿柯@首先声明一下留存的概念次日留存:1月1日注册的新用户,在1月2日登陆了app。即登陆日期 - 注册日期 = 1天。3日留存:1月1日注册的新用户,在1月3日登陆了app。即登陆日期 - 注册日期 = 2天。7日留存:1月1日注册的新用户,在1月8日登陆了app。即登陆日期 - 注册日期 = 6天。但是目前不同公司对留存的定义不太一样,所以以具体的规则为准,这里只是为了方便大家理解。表user_infor,包含user_id(用户

2020-09-26 22:07:33 12751 10

原创 用户行为分析,指定操作顺序

用户行为表tracking_log用户id操作编号操作时间user_idopr_idlog_time计算每天的访客数和他们的平均操作次数。select date(log_time), count(distinct user_id) as 访客数量, count(opr_id) as 操作次数, count(opr_id) / count(distinct user_id) as 平均操作次数from tracking_loggroup by date(log_

2020-09-24 22:26:31 378

原创 SQL面试题 拼多多

活动运营数据表表orders用户id订单金额下单时间user_idorder_payorder_time表act_apply活动编号报名用户id报名时间act_iduser_idact_time统计每个活动对应所有用户在报名后产生的总订单金额,总订单数。(每个用户限报一个活动,题干默认用户报名后产生的订单均为参加活动的订单)。select act_id, sum(order_pay) as 总订单金额, count(orde

2020-09-24 20:18:13 761

原创 mysql常见日期函数用法

mysql 常见日期函数用法-- 获取当前日期 NOW()输入:SELECT NOW();输出:2020-07-25 14:38:39-- 获取当前日期的年 YEAR(date)输入:SELECT YEAR(NOW());输出:2020-- 获取当前月份 MONTH(date)输入:SELECT MONTH(NOW());输出:7-- 获取当前日期 DAY(date)输入:SELECT DAY(NOW());输出:25-- 获取本周为今年第多少周 WEEKOFYEAR(da

2020-07-25 16:21:26 307

原创 SQL索引,什么是索引,索引的作用,为什么使用B+Tree

接触sql小半年了,网上大神说索引非常重要!!!!但是一直很蒙,相信很多朋友也是这样,这里特来和大家分享一下我是如何明白的。明白的前提:1.了解基本数据结构内容:树形结构、二分查找、时间复杂度2.了解磁盘和内容之间的数据读取IO索引是什么:索引是帮助mysql高效提取数据的一种数据结构网上大神进行的总结,当你理解索引后,你会感觉这个说法感觉超级棒!!索引的基础就是排序,这一点很重要。 然后结合二分查找,时间就会大幅度降低,远低于线性查找。这就是采用树型数据结构的前提之.

2020-07-09 22:57:36 492

原创 Sigmoid函数

Sigmoid 可以将结果集映射到(0, 1)之间,可以方便地将数据进行归类,一般结果大于0.5则归类为1,小于0.5则归类为0。0与1仅代表不同的分类,没有大小之类的联系。...

2020-05-04 20:56:59 669

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除