自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(194)
  • 收藏
  • 关注

原创 【统计学习方法概论】

高斯于1823年在误差e1 ,…回归问题中,损失函数是平方损失,正则化可以是参数向量的L2范数,也可以是L1范数。此时L2范数(残差平方和)最小时,h(x) 和 y 相似度最高,更拟合。结果显示过拟合, 引入正则化项(regularizer),降低过拟合。: numpy.poly1d([1,2,3]) 生成。当M=9时,多项式曲线通过了每个数据点,但是造成了过拟合。, 加上一个正太分布的噪音干扰,用多项式去拟合。一般的H(x)为n次的多项式。最小二乘法就是要找到一组。(残差平方和) 最小。

2023-08-30 14:38:25 154

原创 【Python】Python连接数据库pmysql

Pymysql基本操作

2022-06-17 15:44:12 318 2

原创 【数据分析】决策树预测用户流失

决策树预测用户流失情况

2022-06-15 08:44:19 1678 3

原创 【数据分析】京东平台用户画像分析

1.用户信息标签用户信息的收集包括用户基础要素、用户场景、行为偏好、心理个性、交际等多方面。可以用静态标签、动态标签两大类来划分。静态数据:用户相对稳定的信息,主要包括人口属性、商业属性等方面数据;这类信息果企业有真实信息则无需过多建模预测动态数据: 用户不断变化的行为信息,主要是用户的网络行为。包括搜索、浏览、注册、登陆、签到、发布信息、收藏、评论、点赞、分享、加入购物车、购买、使用优惠券、使用积分……等一系列的行为。通过统计真实的用户行为,给用户打上不同的行为标签,然后建立模型标签。比如人口

2022-05-29 13:42:28 7990 3

原创 【数据分析】京东订单数据分析思路及Python代码

京东订单数据介绍● 2020年5月25日● 10%抽样数据● 大家电-家用电器-冰箱● 70k+用户属性user_log_acct用户账号user_site_city_id用户城市IDuser_site_province_id用户省份IDuser_lv_cd用户等级订单属性sale_ord_id订单IDsale_ord_tm订单创建时间sale_ord_valid_flag订单是否有效cancel_fl

2022-05-28 17:13:36 3011 2

原创 【数据分析】业务分析之ABtest

A/B测试AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。为什么要进行A/B测试1.产品的新功能对KPI影响有多大?新版本哪个更好,按钮。。。产品对KPI的影响有多大2.什么时候适合进行A/B测试决定是不是要使用新的产品设计和功能新的产品和功能对我们的数据指标有多大的影响通过真实数据和理论的比较

2022-05-28 12:23:40 2642

原创 【数据分析】搭建数据导向的业务工作流程

1.数据分析是如何驱动互联网产品迭代的?通过业务数据的反馈从而使公司的工作流程变成一个闭环,用户数据会成为运营团队想法策略的重要输入,工作目标和团队协作围绕数据展开。2.从数据埋点到构建指标体系针对特定用户行为或事件 进行捕获、处理和发送的相关技术及其实施过程。由一系列具有相互联系的指标所组成的整体,可以从不同的角度客观的反映现象总体或样本的数量特征。3.如何构建数据指标体系?一级指标分析业务需求,确定核心指标二级指标业务分类AARRR产品功能三级指标拆解指标3.1

2022-05-28 11:05:10 200

原创 【数据分析】业务分析常见漏斗模型

AID(M)A模型AIDMA模型是在AIDA模型(AttentionInterestDesireAction)的基础上,增加了Memory形成的注意→兴趣→欲望→记忆→行动(购买)的模型。AIDMA用来吸引消费者的注意力,到引起用户可以转向欲望的兴趣,并能够记忆住足够的时间,以便用户作出行动。AIDMA模型主要用于品牌营销。缺点:难以量化,非即时,缺乏用户反馈 AISAS模型随着互联网用户尤其是移动互联网用户不断增多,用户行为模式发生了改变,随之衍生出了AISAS模型(Attention..

2022-05-28 10:52:02 1038

原创 【数据分析】业务分析中常见模型-波士顿矩阵、逻辑回归模型

1 .逻辑回归模型:个性化推荐系统个性化推荐系统是充分根据用户历史行为、地理位置、社交关系等推荐一些用户想要的个性化结果。推荐的核心问题是如何发现用户对潜在商品的偏好,在用户没有明确意图的情况下,帮助用户发现自己偏好的商品。个性化推荐系统在互联网行业非常普遍:比如音乐推荐、电影推荐、性化阅读推荐、社交网络好友推荐、朋友圈推荐以及基于位置的服务推荐等。据统计,Netflix有60%多的电影因推荐而被观看,Google News因推荐提升40%的点击率,亚马逊因推荐被购买的销售占比高达38%。1.1

2022-05-28 10:22:35 792

原创 【数据分析】业务分析中常见模型-漏斗模型

1. 漏斗模型是一套流程式数据分析模型,用来反映用户在流程里的关键行为以及从起点到终点各阶段转化和流失情况1.1 如何建立漏斗模型梳理主要路径和流失节点–>选定核心路径–>观察和比较数据● 选择开口大的路径● 漏斗环节不能太多● 漏斗环节间的量差不能太大● 纵向对比● 横向对比(指标拆分,多维度比较)1.2 漏斗模型在电商广告优化中的应用展现量体现了品牌和产品的曝光度,是广告投放的首要任务点击量和访问量体现了品牌和产品曝光的效果,是不是吸引观众进一步了解产品提升点击率

2022-05-28 10:08:04 4066 2

原创 【数据分析】数据分析师3板斧

某项线上活动的流量情况如下,怎样从数据分析师的角度来发现问题?1.找出问题:精确使用描述性统计精确使用描述性统计可以对样本的基本情况和特征进行说明。在日常业务中经常被使用的描述性统计量:中位数:按照从大到小排列,处于中间位置的数字平均数:算数平均数、几何平均数、加权平均数分位数:按照从小到大排序、第x位置的数异常值:Q1-1.5IQR、Q3+1.5IQR方差/标准差:描述数据离散程度描述性统计数值平均值95174中位数12826四分位数上四分位数

2022-05-27 21:14:01 232 1

原创 【数据分析】产品关联度分析和购物篮分析(1)

产品关联度分析关联分析是发现交易数据库中不同商品(项)之间的联系,主要应用于电商网站推荐、线下零售门店商品摆放等场景中。关联规则:1.支持度(support):数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了A和B的次数是50次,那么此关联的支持度为5%。2. 置信度(Confidence):在数据集中已经出现A时,B发生的概率,置信度的计算公式是 :A与B同时出现的概率/A出现的概率。3.提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产

2022-05-26 10:53:03 2847

原创 【数据分析】用户复购指标

复购指标算法

2022-05-25 10:09:44 243

原创 【数据分析】电商平台订单报表分析思路及案例

1.1 互联网数据分析一般思路找出问题 描述性分析数值分析:数量、均值、极差、标准差。。。分布规律:正态分布、长尾、均匀分布可视化:柱状图、散点图。。。。分析问题 诊断性、预测性分析、仿真分析线性回归、逻辑回归解决问题 数据报告+决策性分析2.1 相关数据商品编号、商品名称、商品价格、票号、座位、联系地址2.2 订单数据分析一般思路数据抓取 数据库数据调取数据清洗无效数据清洗、有效数据筛选数据分析用户属性判别、品牌渗透都判别、订单时间/地区分布……2.3 订单数

2022-05-24 19:22:58 3555 1

原创 【数据分析】电商- 转化率影响要素及发现问题

提高转化率,首先要了解不同阶段的转化率影响因素①售前、售中阶段②售后阶段转化要素六句要点:流量来源是关键承接好坏看页面用户选购品拼商品商品背后是服务物流库存莫忽视竞品动态要追踪转化率诊断优化4部曲转化率优化4问法我的店铺转化率健康吗?我的问题出在哪里?我的改善计划?计划的执行效果?① 如何判断②找问题来源流量来源分析 访客量 跳失率页面问题分析 点击次数 活动页分析找问题商品 top流量商品成交转化 top销量商品转化率查看问题商品的来源 如果来源主要.

2022-05-24 18:50:31 328

原创 【Python数据分析】AAARR模型实现

一、通用的漏斗图from pyecharts import options as optsfrom pyecharts.charts import Funnelfrom pyecharts.faker import Fakerc = ( Funnel() .add( series_name="", data_pair=[list(z) for z in zip(Faker.choose(), Faker.values())],# s

2022-05-05 09:41:01 811

原创 【商业数据分析】CPC广告投放系统的要素介绍

CPC广告展示量(曝光量)涉及要素1.关键词搜索曝光量大关键词、广告转化好的关键词。。。。2. 单次点击竞价竞价过低无展现,广告主不赚钱;竞价过高涉及到预算、ROI表现3. 广告预算4. 用户画像包(自建/第三方)CPC广告点击量涉及要素曝光形式(文本/图文/视频/个性化内容……)曝光内容(IP/明星/色系/清晰度/加载速度……)曝光目的(用户信息/订单/下载……)原生性(原生产品形式+原生产品内容)例如微信原生态广告形态采用类似于普通朋友圈文案的形式广告、知乎原生广告内容采用

2022-05-04 17:52:49 511

原创 【商业数据分析】 CPC广告优化在复杂业务环境下需要考虑的要素

1、每个月的广告预算是否平均分配?经验判断:大部分工薪族于每月10~15日发薪→每月上半月提升预算数据判断:将单月每日广告支出做分布分析,根据分布状况分配预算2、是否用户行为深度与用户喜好一定呈正相关性?正相关性:点赞→收藏→弹幕→评论→重复观看反相关性:点踩→弹幕/评论(负面)→举报3、CPC广告的关键词筛选有什么方法?从需求角度出发:选择用户搜索量大的词汇从供给角度出发:选择优秀广告主使用量大的词汇4、如何降低恶意点击对CPC广告的影响?精细化广告投放:实时调整单次竞价+曝光物料+

2022-05-04 17:34:49 298

原创 【python实现数据分析之数学仿真计算】

如果你现在是一名“原神”游戏策划,且拥有测试权限即抽奖次数无限多,请用数学 仿真法计算平均获得一名五星角色的概率是多少?该概率与基础概率相比有多大区别?一般概率: 抽中五星角色的基础概率为0.6%保底机制: 最多90次抽奖必定获得一个五星角色import randomnum = 0 ##统计中奖次数rate = 0 ##记录保底数据for j in range(1,600000): ##仿真60万次抽奖 if random.randint(1,1000)<=6: ##如果抽中

2022-05-02 19:50:06 2040

原创 【数据分析面试常见问题1】

Q1:流量波动,数据突然涨了怎么分析——考察分析师的经验怎么样举例:美团外卖近期的订单量突然下降 5%,给出解释并提供下一步建议常识判断:最近是否有比较重大的节日,用户外出度假旅游导致订单量有所下降。竞品数据:竞品最近的数据有没有大涨,最近有没有做一些营销活动导致我们的订单量下降。外部事件:社会上有没有针对外卖的一些负面事件,是否对品牌本身造成影响。产品变化:用户订单下降的产品本身有没有发布最新的版本,部分功能有缺陷导致用户无法下单。用户行为:整体的订单量下降是因为全国的订

2022-04-26 16:27:10 540

原创 【项目02】 基于Python的算法函数小项目

题目1:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的两位数?都是多少?n = 0 # 计数变量 for i in range(1,5): for j in range(1,5): if i != j: n += 1 print("满足条件的数字为:%i%i" %(i,j))print('总共有%i个结果' %n) 题目2:输入三个整数x,y,z,请把这三个数由小到大输出,可调用input()。(需要加判断:判断

2022-04-26 15:34:53 119

原创 C端之互联网基本逻辑

移动互联网C端规模可以看做3个核心变量的乘积:活跃用户数、单用户使用时长、移动流量价值所有C端互联网的演化逻辑 归纳为3点:流量的获取、流量的分发、流量的变现。1. 流量的获取内容型流量节点主要包含游戏、视频、资讯、直播、社交,特征是用户粘性高,在线时间长、以线上流量为主,线下流量占比少服务型流量节点主要包含电商、本地生活服务、新零售等,特征是用户使用频次高、但是在线时长短、以线下流量为主腾讯系、阿里系、头条系、百度系已经控制了绝大数的流量节点,已经完成了内容型和服务型的全景布局。

2022-02-06 16:03:07 1492

原创 电商服务【MCN】

MCN全称 Mutli-channel Network ,主要依托电商、社交、视频等平台 整合内容创作者资源 (如网红 UP主 大V等),进行持续内容生产 、输出并实现商业变现 ,MCN机构具体业务主要为网红签约、孵化、内容创作、社区运营、内容分发、平台对接等。国内MCN发展历程MCN商业模式主要盈利方式为内容变现 包括C端红人电商 、直播打赏、知识付费、及B端的商业合作、流量分成、广告营销、IP授权等;变现方式分为电商类、营销类、内容类。MCN核心竞争力标准化网红孵化持续孵化、培育直

2022-02-06 13:43:16 1358

原创 ABtest原理及python代码

ABtest 原理:根据中心极限定理当样本量大于30时,可以通过Z检验来检验测试组和对照组两个样本均值差异的显著性。样本量小于30时,可进行T检验最小样本量:根据显著性水平和两组样本方差计算 最小样本量例子:library(pwr)pwr.t.test(d=.8, sig.level = .05, power = .9, type = “two.sample”, alternative = “two.side”)前五个中,输入任意4个值,都会输出另外一个n = 33.82555..

2021-08-01 15:02:25 855

原创 通过功能留存分析矩阵提高留存率

功能留存分析矩阵是什么意思?通过这个矩阵,帮你分析出产品中的哪个功能对留存的价值最高。功能对留存的价值分为2个维度,使用用户的人数和连续使用功能的用户占比(功能留存率),功能留存分析矩阵帮我们解决的是,如果你想要提高留存,要去优先优化哪项功能。如果说惊喜时刻帮我们定义了激活用户的指标,那么功能留存分析矩阵就帮我们从具体的功能角度,定义了用户留存的指标。一般我们计算留存率是按照整体用户来看的,这个周期使用产品的用户除以上个周期使用产品的用户,来计算留存率,但这种宽泛的定义,如果我们想提高留存,就无从下手。

2021-05-18 17:53:19 700

原创 内容留存:通过PUSH消息提高用户活跃和留存

PUSH消息是什么?APP给你推送的各种消息,营销广告邮件营销短信网站上蹦出来的弹窗公众号的每日推送PUSH消息就是官方主动发送给用户的一切内容,可以是文字、图片、语音、视频,目的只有一个,让用户点进来看,看完了在APP里打着滚的接着看写一条PUSH难么?不难啊,一条APP的PUSH消息不超过15个字,一条短信不超过70个字,一封邮件也不超过几百个字(太长了没人看啊),那么难在哪呢?在效果,用户会不会点进来,点进来以后会不会看其他的消息,今天点进了PUSH,明天会不会主动打开应用,PUSH的

2021-05-18 17:49:34 564

原创 sklearn聚类方法汇总

# -*- coding: utf-8 -*-"""Created on Thu May 13 16:06:43 2021@author: Administrator"""import sklearnprint(sklearn.__version__)# 综合分类数据集from numpy import wherefrom sklearn.datasets import make_classificationfrom matplotlib import pyplot# 定义数据

2021-05-18 17:46:21 462

原创 pandas实现各品类销量排行

import pandas as pdimport numpy as npdd = pd.read_csv('./ddbb_20.txt',sep='\t',keep_default_na=False,na_values="0")bb = pd.read_csv('./bbbb_2020.txt',sep='\t',keep_default_na=False,na_values="0")dd_n=dd.merge(bb,how='left',on='订单编号')#dd_n.to_excel

2021-05-18 17:44:44 505

原创 HOOK模型

如果你需要策划一个裂变增长活动,要分为几步?比如说一次课程的分销活动。这一节我们会学到HOOK模型,通过HOOK模型来设计裂变增长活动的话,一共分为4步:第一步:触发用户,也就是吸引用户的兴趣。裂变活动最终呈现给用户的是一张海报,这个海报里会有裂变活动的主题、分销奖励、大咖推荐、课程大纲等内容,这些内容构成了吸引用户听课或参与分销的元素;第二步:用户行动,这里需要考虑的是用户得到的是不是超过了用户的付出,以及用户有没有付出的能力,比如这个课买19块钱,分销给3个人,用户就可以赚到19块钱,那么用户是.

2021-05-18 17:35:28 359

原创 用户激活 活跃 留存之关系

激活:激活是针对新用户来说的,引导用户去完成某些指定动作,目的是让用户体验到产品的价值,产生使用兴趣。新用户下载APP可能带有一定的预期,比如下载共享单车的APP是为了骑车,如果下载完APP发现想骑车的时候找不到车,或者第一次骑车就碰到了一辆坏的,那么这就和用户的预期不符,用户没办法体验到共享单车带来的便捷性,就没法感受到这个APP的价值。共享单车想要激活用户,就是多投放单车数量,新用户可以很顺利的骑车,至于车好不好骑,骑某个品牌的单车帅不帅,这些都是建立在能找到车的基础上。所以说,激活用户,让用.

2021-05-18 17:07:04 530 1

原创 运营数据分析中指标体系关注点

在日常的运营数据分析中,包括推广数据、活跃数据、留存数等多项数据,从这3个维度,增长黑客需要关注以下指标1.推广数据更关注转化用户的后续行为渠道效果包括渠道曝光量、渠道转化率、渠道转化ROI、下载量、注册量等表象数据,但这类表象数据并没有有效体现产品的核心指标,因此被列入虚荣指标,过分关注虚荣指标会带来运营方向的偏差。在推广数据上,增长黑客更关注以下数据:(1)渠道数据变化曲线:通过观察相同渠道在不同主题活动、不同时间因素的影响下,在曝光量、转化率、转化ROI等方面的数据变化,发现数据量高或数据量低

2021-05-18 17:02:27 255

原创 pandas 处理日期列to_datetime Peroid

pandas 处理日期列to_datetime和 Peroid这两种方法对于日期处理够用啦 西西df_ztc['日期']=pd.to_datetime(df_ztc['日期']).dt.datedf_ztc['日期']=pd.to_datetime(df_ztc['日期']).dt.yeardf_ztc['日期']=pd.to_datetime(df_ztc['日期']).dt.monthdf_ztc['日期'] df_ztc['日期']=df_ztc['日期'].apply(lambda

2021-05-12 16:57:24 251

原创 oracle regexp_substr和hive split转换

oracle中的语句是:select REGEXP_SUBSTR(‘cvdfer–gth–mn’,’[^–]+’,1,2) from dual;hive改写后:select nvl(split(‘cvdfer–gth–mn’,’–’)[1],‘cvdfer–gth–mn’);

2021-03-19 13:34:31 415

原创 Oracle常用函数

create or replace function get_request_code return varchar2 AS -- 函数的作用:自动生成单号 v_mca_no mcode_apply.mca_no%TYPE; -- 新建一个形参v_mca_no,是以mcode_apply表中的mca_no字段的类型相同 CURSOR get_max_mca_no IS -- get_max_mca_no 游标 SELECT max(substr(mca_no, 11, 3)) --

2020-07-28 11:20:03 117

原创 HIVE shell命令

Hive命令行语法结构hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明:1、 -i 从文件初始化HQL。2、 -e从命令行执行指定的HQL3、 -f 执行HQL脚本4、 -v 输出执行的HQL语句到控制台5、 -p connect to Hive Server on port number6、 -hiveconf x=y Use this to

2020-07-23 17:07:19 239

原创 HIVE常用命令

show databases; # 查看某个数据库use 数据库; # 进入某个数据库show tables; # 展示所有表desc 表名; # 显示表结构show partitions 表名; # 显示表名的分区show create table_name; # 显示创建表的结构# 建表语句# 内部表use xxdb; create table xxx;# 创建一个表,结构与其他一样create table xxx like xxx;#

2020-07-23 17:04:10 110

原创 关于Python中 auto_arima的安装问题

pip install pmdarimafrom pmdarima.arima import auto_arima

2020-07-17 15:58:34 1707

原创 LSTM时间序列分析--3

import timeimport warningsimport numpy as npfrom numpy import newaxisfrom keras.layers.core import Dense, Activation, Dropoutfrom keras.layers.recurrent import LSTMfrom keras.models import Sequentialimport matplotlib.pyplot as pltwarnings.filterwa

2020-07-14 11:04:48 193

原创 LSTM时间序列分析--2

from keras.layers.core import Dense, Activation, Dropoutfrom keras.layers.recurrent import LSTMfrom keras.models import Sequentialimport lstm, time #helper librariesX_train, y_train, X_test, y_test = lstm.load_data('sp500.csv', 50, True)#Step 2 Build

2020-07-14 11:03:45 196

原创 LSTM时间序列分析 -1

import numpy as npfrom keras.layers.core import Dense, Activation, Dropoutfrom keras.layers.recurrent import LSTMfrom keras.models import Sequentialimport timedef normalise_windows(window_data): # 数据全部除以最开始的数据再减一 normalised_data = [] for windo

2020-07-14 11:02:47 450

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除