自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 抽样知识整理

这里写自定义目录标题浅谈简单随机抽样和分层抽样简介:最近在工作上负责一个项目,需要从110万样本中抽出4万个样本,尽可能的代表四级标题五级标题六级标题浅谈简单随机抽样和分层抽样简介:最近在工作上负责一个项目,需要从110万样本中抽出4万个样本,尽可能的代表四级标题五级标题六级标题...

2020-09-07 11:19:02 8612

原创 玩转tableau动态工具提示,让地图生动起来

前言:今天为了展示一个不同城市的月售,门店数,店均等数据分布,准备采用地图形式展示,然后突然想到之前看到的一个示例,可以在鼠标悬停在某个省份的时候,在工具提示里面会显示该省份各城市的数据分布,觉得非常好,也想学一下,因此有了这篇学习记录文章;翻了tableau的文档说明,发现原来这张悬浮的图是单独另起的一张工作表,因此首先要建一张by city的工作表,但是因为我的省份城市表和销售额是两个不同的数据源,导致无法根据省份变换下面的省份。另外,我在制作地图的时候,一开始是以销售额为主数据源,省份表为辅数

2020-09-06 15:58:52 2226 1

原创 基于k-means的某品牌用户分群实战

背景:某品牌线上经营着2000多家门店,在实施运营方案的时候,原来的方法是单纯的根据订单数判断门店的好坏,从而实施不同的方案,但是种方法有较大的弊端。首先,它没有考虑订单数高低的影响因素,明显订单数是诸多因素综合作用的结果,掌握了这些因素才能对不同门店的运营做出有针对性的建议;其次,它没有考虑门店所处的环境,如果一个门店处在比较 劣势的位置,可能它的订单水平在周围其它门店中已经是佼佼者,它的成长空间实在是有限,那么从订单数将其归为差的门店肯定是不公平的,对于这种门店,错误的归到差门店,下了很大力气去改造,

2020-09-04 15:46:05 654

原创 数据分析笔试sql题_连续问题

前言:有一场篮球赛,参赛双方是A队和B队,场边记录员记录下了每次得分的详细信息:team:队名number:球衣号,name:球员姓名,score_time:得分时间,score:当次得分问(用sql表达):1)输出每一次的比分的反超时刻,以及对应的完成反超的球员姓名2)输出连续三次或以上得分的球员姓名,以及那一拨连续得分的数值1.输出每一次的比分的反超时刻,以及对应的完成反超的球员姓名select team,score_time,number,namefrom ( sele

2020-08-29 22:54:44 1088

原创 基于dbscan和k-means算法的北京某品牌门店聚类实战

项目背景:之前提到,小编是一名外卖运营的分析师,因为某个品牌的外卖经营着将近3000家门店全国,无法及时发现哪个片区的门店问题比较多,希望能对门店进行分级,再进行聚合,

2020-08-28 16:23:33 1215

原创 在windows安装kettle过程

目录:1.下载java和kettle得安装包2.配置java到环境变量3.修改kettle得spoon.bat配置文件1.下载java和kettle得安装包JAVA下载链接:https://www.oracle.com/java/technologies/javase-downloads.html注:Java版本不能太低,jdk1.6以上版本才行,具体的可以查看spoon.bat配置文件。kettle下载链接:如果没有java得一定得先安装,如果有的话则不需要安装,直接跳过;2.配置ja

2020-08-26 17:16:53 1569

原创 tableau计算同环比

在上一节的日历图的启发下,我改版了一下制作了如下的同环比图;一般数据分析的开篇都是业务情况的概述,因此对核心指标进行同环比的比较尤其重要;步骤1:将订单日期拉入行,选择“年”,将订单日期再次拉入列,选择“月”步骤2:计算销售额同比和环比数据环比数据:这个比较简单,将利润总额拉到文本上,会显示成文本,然后右击添加“快速表计算”——“百分比差异”,默认的是和上一个比较,如果需要修改,可以在编辑表计算里面进行修改,这个计算出来的就是相较于上一个月的环比数据;同比数据:同比数据我是想用当前月份找

2020-08-24 16:59:07 6861 1

原创 tableau制作日历图学习

前言:在tableau的《示例-背景机场大气》仪表盘里面看到一个日历图,觉得很漂亮,于是有了今天的这篇学习操作的文章,记录自己的实操过程本文主要借鉴了用Tableau做个别具特色的日历图一文,最终的效果图如下所示:数据源:示例-超市主要使用字段:订单日期,利润金额,利润率(利润率=利润总额/销售额,通过创建字段计算可得),具体的字段可以根据实际业务场景进行增删改补;具体步骤:1.step1订单日期拉到列,右击选择“更多”,选择“工作日”订单日期拉到行,右击选择‘年’,再次拉到行,右击选择

2020-08-24 15:26:43 2129 2

原创 基于python的excel分析报告自动化输出

背景:接领导要求,要求产出几份关于外卖品类的分析报告,在需求数据和模板确定后,要按照这个模板生成多个品类的报告,每个品类相同的目标出一份报告,如下图所示:

2020-08-19 18:21:07 1483

原创 基于机器学习的文本情感分类

背景:上一节介绍了基于情感词典的文本情感分类方法,这一节主要介绍采用机器学习的方法,对已有分类的数据集进行训练并测试,我从网上下载了一些关于外卖评论的情感语料,分成两个txt文件,一个是正向评论的文本文档,一个是负面评论的文本文档,如下图所示,本文基于此进行分类学习。目录:1.读取数据2.分词3.提取特征向量4.机器学习之分类1.读取数据import numpy as npimport pandas as pdimport jiebafrom sklearn.model_selec

2020-08-18 12:09:40 8805 12

原创 windows远程提示credssp加密数据库修正问题解决

背景:今天登录公司远程服务器的时候报如下错误(如下图所示),百度查了一下各种方法最终解决了,记录一下过程,防止以后遇到同样的问题需要再找,也可以为其它遇到同样问题的人提供帮助。步骤一. 修改注册表我先按照我们运维给我的一个链接进行修改,里面介绍说微软官方 2018 年 5 月更新了凭据安全支持提供程序协议(CredSSP)相关补丁和身份验证请求方式。当出现以下任一配置策略时会出现该连接错误:配置策略一:客户端的策略为未修补,服务器端策略为强制更新的客户端。配置策略二:客户端策略为强制更新的客户端

2020-08-11 18:04:54 8420 1

原创 显示正文的邮件自动发送

业务场景:公司最近展开的一项业务中,需要与另一家公司合作,两边就会产生数据方面的交换,需要发送邮件每日更新两边的业务合作的数据情况,毕竟邮件里面会有双方领导在看,所以希望邮件正文内容可以直接显示一些汇总的信息,而不是必须打开附件,显的更professional一点,因此写了如下邮件脚本。实现过程:1. 数据查询及导出数据查询完成后直接导出到本地文件夹,生成csv文件hive -e ‘sql语句’在bash中直接通过hive -e命令,并用 > 输出流把执行结果输出到制定文件2.读取cs

2020-07-31 18:35:58 284

原创 基于Apriori算法的菜品组合挖掘

背景:我们在点外卖的场景中,经常会看到菜品A+菜品B+菜品C的组合,这种组合的产生主要是为了节省用户的点餐时间,方便客户从海量菜品中找到理想菜品,通过引入Apriori推荐算法,得到菜品之间的关联度指标,找到最有可能的"啤酒和尿不湿"的组合,以供运营可以为商家的菜品组合套餐作为参考。由于商家的标准sku里面会有米饭,可乐,单点不送,锅底这种非正常菜品的sku,为了将其排除在外,对单价小于5快钱的菜品(参考了可乐,米饭等菜品的集中价格)做了过滤。1.Apriori算法简介选择物品间的关联规则也就是要寻

2020-07-30 13:36:55 1447 5

原创 基于Python的异常值处理汇总

背景:不论是在机器/深度学习还是普通的业务场景的描述性统计分析等,我们首先要做的就是了解拿到的基础数据,观察数据结构,类型,缺失值,异常值等情况。其中,异常值是指数据集中存在的不合理的点,这些异常点如果不加以剔除或者修正而错误的包括进数据的计算分析过程中,那么会对结果产生非常不好的影响,导致结果偏差。因此,重视异常值的出现,分析其产生原因,并对异常值进行剔除或者修正就显得尤其重要。本篇幅主要列举了本人遇到的一些异常值的处理方法,如有更好的,欢迎指正!1. 如何发现异常值?异常值的方法想法有很多种,基于

2020-07-23 14:28:46 7334

原创 基于高德POI搜索的地址类型判断

背景:我是一家做外卖运营公司的BI分析师,刚进入公司,运营找到我说希望能帮助每一家外卖店定位其半径3公里(正常的配送范围)内商务写字楼多还是住宅类型多,这样可以方便在工作日和周末区分指定策略,住宅类的店家那么可以将折扣预算倾斜在周末,而商务类的可以周一到周四进行活动倾入,那么如何判断该公司是住宅类的还是商务类的就成了一个需要研究的问题。1.高德搜索POI要调用高德的API服务,首先需要注册高的开发者账号,去控制台创建应用,获取一个KEY,然后就可以开始使用高德API服务啦!其中,POI是“Point

2020-07-22 20:38:50 1333 2

原创 校园招聘影响因素分析

数据来源:本文数据来源于Kaggle提供的数据集campus_recuritment.csv(获取链接:https://www.kaggle.com/benroshan/notebook)数据问题:字段说明:ssl_no:serial numbergender:性别ssc_p:secondary education percentage -10th grade 中学百分比-十年级ssc_b:board of education-central/others 教育委员会hsc_p:higher

2020-07-22 17:11:52 1296

原创 精细化运营之用户生命周期模型

1.什么是RFM模型?RFM

2020-07-22 16:43:41 1430

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除