自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

二哥为啥不像程序员?

爱写文、爱编程、爱摄影、爱音乐...还有爱关注我的你❤️

  • 博客(204)
  • 资源 (1)
  • 收藏
  • 关注

原创 Markdown骚操作|字体颜色、字体背景、流程图一网打尽【建议收藏】

本文二哥带领大家来学习一下Markdown文档编辑的那些高端操作。推荐MD编辑器:Typora注:除最后一个图外,均可用于CSDN Markdown!注:文中代码块中给出书写格式,下方给出效果展示。别犹豫了!先收藏吧!一、标题为了使段落展示的更加清晰,Markdown中设置了多级标题的表达形式,级别用#来表示,几个#就表示几级标题,代码形式如下:注意#后面要有一个空格# 一级标题## 二级标题### 三级标题示例如下:一级标题二级标题三级标题二、字体Markdow.

2021-08-31 12:17:30 12044 20

原创 数据分析方法(一)|认知数据

在进行数据分析时,很多人拿到数据之后没有头绪,在没有需求的情况下不知道从何做起,此时我们不妨先动起脑来理解数据。

2024-03-07 10:29:05 387

原创 MySQL|基础操作+8大查询方式汇总

MySQL中可以创建多个数据库用于存储不同场景的表结构,学习MySQL之前,我们要先理清如下的关系:数据库 --> 数据表 --> 字段抛开数据库存储上限去考虑,每个数据库中可以包含无数个数据表,而每个数据表又可以包含无数个字段,因此我们的学习也应该从创建数据库开始。use 数据库名;

2023-10-24 17:25:47 2888

原创 Python|解决Matplotlib中文及符号显示异常

对于中文显示要区分系统,win/mac系统的字体设置如下。

2023-08-30 15:53:36 304

原创 “提效”|教你用ChatGPT玩数据

随着ChatGPT的不断升级,其强大的功能已经逐渐渗透到各行各业,二哥认为小伙伴们不必对GPT抱有抵触心理,对于我们而言,其本质可以看作是一个更加精准的“百度一下”,平时我们有问题找百度,从各种各样的帖子中拼凑自己需要的东西,GPT的出现大大的节省了我们在无效网页上浪费的时间,也可以说它从准确性上帮助我们起到了“提效”的作用。

2023-03-23 18:18:00 6738 1

原创 谁说chatGPT要取代数据分析师?

最近有不少小伙伴都问了我一个问题:数据分析师会不会被ChatGPT取代?忙着搞“大事情”的二哥先来给大家盘一盘ChatGPT与数据分析!本文重点讨论:ChatGPT能帮助数据分析师做什么下期预告:数据分析师如何使用ChatGPT“提效”

2023-03-22 17:06:24 3511

原创 数据分析思维|思考问题的25个方式汇总

领导力思维:能够成为数据分析团队的领袖和管理者,通过有效的领导和团队管理,激发团队的创造力和合作精神,提高数据分析的绩效和成果。跨界思维:能够将跨领域的知识和经验应用到数据分析中,从不同角度和维度出发,提高数据分析的深度和广度,为企业创造更多的价值。用户思维:能够从用户角度出发,理解用户需求和行为,根据用户反馈和数据分析结果,优化产品和服务,提高用户体验和满意度。持续改进思维:能够不断反思和总结数据分析过程中的经验和教训,寻找改进的空间和机会,持续提高数据分析的质量和效率。

2023-03-22 13:26:15 454

原创 数据分析思维(七)|漏斗思维

漏斗思维的概念比较简单,所谓的漏斗指的就是层层递减的结构,最终组成一个漏斗样式的模型,而递减的状态是多种业务/产品发展的常态,比如一个线下服装门店,进店的人很多(第一层),试衣服的人少一些(第二层),买衣服的人更少(第三层)这三个层级就会形成一个简单的漏斗模型。从转化链路来看,从获客到传播的整个过程中,每向下深入一个层级,对应的用户数就会照上一层有一定的损失,因此层级越向下,对应的漏斗也就变的越窄,在使用实际数据绘制漏斗图的情况下我们也可以从漏斗的变化中看出对应。有了这些思考,该怎样去解决这些问题呢?

2023-02-15 13:53:41 1185

原创 数据分析思维(六)|循环/闭环思维

上述的8个步骤不难理解,我们通过一次PDCA循环解决了一个重要问题,接下来的循环就是去解决该问题的分支或者第二重要的问题了,PDCA不会死板的要求我们一定按照某种顺序去解决,当问题有大有小时我们就先解决大问题,当问题有次序关系时,我们就按顺序进行解决即可。除了PDCA循环之外,其他的闭环场景(产品功能闭环、用户生命周期闭环)等也适用于上述解决问题的思想。

2023-02-14 14:04:36 1182

原创 数据分析思维(五)|逻辑树思维

在很多数据分析场景中我们需要梳理分析的逻辑,需要进行指标从大到小的拆分,这时候我们可以顺着影响分析结果的因素进行层层溯源,从而抓住问题的核心。逻辑树使用层级的结构将每个大问题的所有子问题进行罗列,然后再将子问题的子问题进行罗列,以此类推,当问题不能够被拆分时形成一个完整的逻辑树。议题树是最简单的逻辑树,议题树通过逐层细分的方式将模糊不清的问题分成无数个具体的小问题。由于细分的原因,议题树的子树和叶子都很多,从议题树上我们可以推断出所有的可能情况,但是构建树的速度很慢。

2023-02-08 15:03:05 909

原创 数据分析思维(四)|分类/矩阵思维

在进行数据分析工作时,我们往往会涉及到多个核心指标,而对于不同数值核心指标的结合又会产生多种不同的结果,我们将相似结果的内容放到一起进行统一决策就会大大节省数据分析的时间,这种思想我们称之为分类思维(矩阵思维可以看作是分类的一种)。矩阵思维通常用于对比两个维度的指标,当指标多于两个维度时,我们称之为分类思维(根据不同维度值的组合得到不同的类),《RFM模型》是分类思维的代表,下面我们再来了解一下RFM模型。概念:市场份额指某企业某一产品的销售量(额)在市场同类产品中所占比重。矩阵,先来解释一下二者的概念。

2023-02-02 18:13:45 547 1

原创 数据分析思维(三)|测试/对比思维

测试/对比思维可以说在数据分析的工作中随处可见。当我们通过各种手段得到一些结果数据后,如何评价结果的好坏呢?这个时候你可能会想到和标准结果进行比较、和之前的数据进行对照等等方法,这些方法归根结底就是一种测试/对比思维。在该思维中最常用的方法就是A/B测试,本文我们就重点了解一下A/B测试的思想及其应用案例。分析:根据上述条件可知,我们进行的是同一组样本前后变化的比较,且样本量

2023-01-11 16:57:52 545

原创 数据分析思维(二)|相关思维

相关思维是数据分析中最常见的思维之一,在我们观察指标变化的时候,往往需要观察指标之间的相关关系,比如观察自己身高和体重的变化,这就是一种相关思维的体现。由上述的条件可知,广告只有A和B两种,结果也只有点击与未点击两种,因此我们需要使用卡方检验的方式来进行相关性的判断。由结果可见,广告和利润之间的相关系数为0.952,由相关系数的判断标准来衡量,从数据上看他们二者是极强相关的。根据Python计算的结果,P值>0.05,因此我们得到的结论为广告和点击不相关。根据表格可以得到,我们计算的统计量的结果为。

2022-12-09 14:34:46 770

原创 数据分析思维(一)|信度与效度思维

信度与效度思维通常用于在数据分析中进行更有价值的指标选择。信度:指标的可靠程度。包括一致性及稳定性。(口径是否一致,是否具有波动性)效度:指标的有效性。一个数据或指标的生成,是否贴合它所要衡量的事物,也就是说指标的变化能代表该事物的变化。总结:信度能够反映数据的稳定性和集中程度,效度能够反映数据的准确性。要衡量A公司的广告投放效果好坏,选择广告点击数作为指标,从不同的投放渠道来看,相同的广告点击数所对应的曝光量可能是不同的,这就使得指标的一致性变的很差;换个角度,因为曝光量的提高从而带来了广告点击数的提高,

2022-12-05 16:50:35 1132

原创 数据分析五大指标分类

指标分类定性和定量对于这两个指标,通常在不同的考核场景下进行设定。定性:非结构化的、经验性的、揭示性的、难以归类的指标普通员工:适宜采用定性成分多、需要上下级随时充分沟通、主要以工作过程为导向的考核指标。定量:可以被计数和衡量的指标管理层:适宜采用定量成分较多、约束力较强、独立性较高、以最终结果为导向的考核指标。虚荣和北极星虚荣:容易给人留下印象,但是无法用于决策的指标总注册用户数北极星:可以指明工作方向,帮助改进商业模式,决策下一步行动的指标总活跃用户数

2022-10-24 22:10:46 1467

原创 AIPL模型|从分群到策略

如何进行用户分群?分群后的策略如何进行?

2022-08-29 16:38:26 2694

原创 数据分析面试手册《SQL篇》

数据分析面试题——MySQL系列常考题目。

2022-08-11 00:04:55 476

原创 数据分析面试手册《统计篇》

Q1:描述假设检验?Q2:简述假设检验的两类错误?Q3:如何进行相关性分析?Q4:如何理解置信区间和置信度?Q5:估算2030年高考生的数量?

2022-08-05 15:51:19 551

原创 数据分析面试手册《指标篇》

最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!除了手册之外,二师兄也建立了个人的数据分析交流群,群内将会进行不定期的干货分享、视频直播、模拟面试等福利,同时也会不定期的空降业内精英给大家进行知识分享,感兴趣的小伙伴关注二哥公众号“数据山谷”添加二哥个人微信备注入群就可以进群了!...

2022-07-29 12:07:42 497

原创 520|用Python绘制自定义照片墙

俗话说:做人苦,做男人更苦。俗话又说:世间节日千千万,一个不过就完蛋。520又到来了,今天交给大家一个绘制自定义照片墙的方法。一、准备物料照片若干Python+PIL库二、绘制思路制定照片墙背景制定背景的方式有很多种,简单点的我们可以用一张黑底白图的照片作为背景,在绘制的时候白色区域会被照片所填充,而黑色区域则会变成透明的状态。本文我们使用的方式为指定文字(数字、英文、中文都可以)做为背景,然后进行图片填充。核心思想在于将文字写成白色,将背景涂成黑色。进行图片填充.

2022-05-20 19:04:15 1433 1

原创 Python使用ffmpeg完美解决方案(避坑必看)

近期有个需要进行音频转码的小任务需要用到ffmpeg,安装和使用的过程中遇到了很多问题没有办法解决,从网上找了各种教程也是一言难近,本文二哥来梳理一下从0到1在Mac上使用ffmpeg。一、在系统中安装ffmpeg第一步需要在系统中安装ffmpeg,很多人都给出了使用brew命令进行下载的方案,在此说一下,多数人brew后都需要等n分钟,最后以报错告终,这种外部网站不稳定,因此强烈不推荐此方法。稳定的安装方法第一步:去官网下载安装包:ffmpeg官网第二步:选择自己的系统,点图片中的地方:.

2022-05-19 17:03:31 47454 9

原创 面经|缺失值填补的7种方法(使用场景+Python代码)

七种缺失值的处理方法

2022-05-06 17:42:39 21338 1

原创 Sklearn|报错<Expected 2D array, got 1D array instead:...>的3种解决办法

当我们使用sklearn进行fit或者predict等操作的时候,经常会遇到Expected 2D array, got 1D array instead一类的报错,其根本原因是因为最新的sklearn必须要传入一个二维矩阵所导致的,解决办法有如下三种。一、numpy将行转成列一行数据是一维数据,我们转成一列数据自然就是二维数据了。import numpy as npx = [1, 2, 3]x = np.array(x).reshape(1, -1)二、Pandas取一列数据问题通常我们

2022-05-06 13:21:23 15281 3

原创 Python|Plotly数据可视化一网打尽(代码+应用场景)

Python数据可视化一网打进数据可视化作为数据分析最直接的结果呈现方式,了解其制作方式和应用场景是很有必要的,本文来了解一下各个图标的应用场景及代码实现。本文使用的代码主要基于做图库plotly如果使用中有不懂的内容,联系二哥!可以先收藏点赞,后面掏出来直接用!一、可视化绘制思维导图二、比较类图创建示例数据如下:import pandas as pddata = pd.DataFrame({ 'name': ['Bob', 'Mary', 'Peter', 'Ben'

2022-05-04 19:13:22 4333 6

原创 AARRR(海盗模型)|原理+Python可视化实现

AARRR模型对于大量的用户数据,我们通常要进行用户生命周期建设去理解和维护用户,这时就需要用到大名鼎鼎的AARRR模型了。AARRR概念AARRR模型因为其爆炸性的增长方式通常又被称为海盗模型,其本质由获客、激活、留存、收益、传播5个阶段组成,对这五个阶段的解释如下:Acquisition(获客):用户从不同的渠道进入产品;Activation(激活):用户在产品内部使用核心功能(完成某个特定任务);Retention(留存):用户连续性的使用产品;Revenue(收益):用户对产品产生了

2022-04-22 14:22:18 10736 1

原创 波士顿矩阵|原理+Python全流程实现

波士顿矩阵很多公司中都有着不同的产品或者是业务线,但是对于繁琐的业务来说通常我们希望根据业务的好坏进行合理的资源分配,对于这种“好坏”的判断,波士顿矩阵出现了。一、概念波士顿矩阵又称市场(销售)增长率-相对市场份额矩阵,先来解释一下二者的概念。市场增长率计算方式:比较期市场销售量(额)−前期市场销售量(额)前期市场销售量(额)∗100\frac{比较期市场销售量(额)-前期市场销售量(额)}{前期市场销售量(额)}*100%前期市场销售量(额)比较期市场销售量(额)−前期市场销售量(额)​

2022-04-13 15:00:59 4579 2

原创 Python|获取文件夹下的指定类型文件名并存入表格

本文我们来通过简短的代码来实现一个快速文件夹内文件名遍历功能,并把制定类型的文件名存入到表格中。一、获取文件夹下的文件内容想要对电脑中的文件夹进行操作,我们首先需要做的就是使用Python中的os模块去遍历文件夹内容。方式如下:import os# out为路径os.walk('out')使用这种形式我们就能够得到该路径下所有文件的信息,但是这样简单的到的信息是一种迭代形式,我们需要循环遍历的到里面的信息。for root, dirs, files in os.walk('out'):.

2022-04-08 16:30:06 3406

原创 Python|用tkinter实现自定义记事本

Python中我们通常使用tkinter来进行UI界面的编写,本文我们来使用tkinter实现自定义记事本。一、思考想要完成记事本,我们首先需要考虑一个正常的记事本都需要具有哪些功能,我们将这些功能按键添加到我们的UI界面上即可。一般功能如下:新建文本文档打开本地文件保存文本文档功能项:剪切、复制、粘贴等设定好了基本的功能选项之后我们再来思考实现记事本的思路。创建记事本窗口设定记事本菜单项给不同的菜单项配置不同的功能选项运行笔记本二、代码实现创建记事本窗口创建窗口的时.

2022-03-29 18:56:18 2955 4

原创 RFM用户分层模型|原理+Python全流程实现

RFM 模型在数据分析中经常会进行用户分层,本文我们来了解一下常见的用户分层模型RFM。RFM概念RFM是由R(Recency)、F (Frequency)、 M(Monetary) 三个维度构成的,其具体含义如下:R:最近一次消费时间间隔F:消费频率M:消费金额这里对于这三个维度的概念简单的做一个说明:R:当前日期为3.25日,上一次消费日期3月20日,消费时间间隔为5天。F:一年内去某商场消费100次,消费频率为100次。M:一年内去某商场消费总额为1W元,消

2022-03-26 18:32:49 7809 1

原创 Python|Leetcode《539》|最小时间差

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:最小时间差难度:中等地址:《最小时间差》描述:给定一个 24 小时制(小时:分钟 “HH:MM”)的时间列表,找出列表中任意两个时间的最小时间差并以分钟数表示。示例1输入:timePoints = [“23:59”,“00:00”]输出:1示例2输入:timePoints = [“00:00”,“23:59”,“00:00”].

2022-01-18 15:33:49 677

原创 Python|Leetcode《1220》|统计元音字母序列的数目

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)

2022-01-17 16:00:39 544

原创 Python|Leetcode《334》|递增的三元子序列

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:递增的三元子序列难度:中等地址:《递增的三元子序列》描述:给你一个整数数组 nums ,判断这个数组中是否存在长度为 3 的递增子序列。如果存在这样的三元组下标 (i, j, k) 且满足 i < j < k ,使得 nums[i] < nums[j] < nums[k] ,返回 true ;否则,返回 false 。示例1.

2022-01-12 16:43:32 412

原创 Python|Leetcode《306》|累加数

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:累加数难度:中等地址:《306》累加数描述:累加数 是一个字符串,组成它的数字可以形成累加序列。一个有效的 累加序列 必须 至少 包含 3 个数。除了最开始的两个数以外,字符串中的其他数都等于它之前两个数相加的和。给你一个只包含数字 ‘0’-‘9’ 的字符串,编写一个算法来判断给定输入是否是 累加数 。如果是,返回 true ;否则,返回 false 。.

2022-01-10 17:12:59 524 1

原创 Python|Leetcode《71》|简化路径

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:简化路径难度:中等描述:给你一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 ‘/’ 开头),请你将其转化为更加简洁的规范路径。在 Unix 风格的文件系统中,一个点(.)表示当前目录本身;此外,两个点 (…) 表示将目录切换到上一级(指向父目录);两者都可以是复杂相对路径的组成部分。任意多个连续的斜杠(即,’//’)都被视为单.

2022-01-06 14:45:04 215

原创 Python|Leetcode《1576》|替换所有的问号

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:替换所有的问号难度:简单描述:给你一个仅包含小写英文字母和 ‘?’ 字符的字符串 s,请你将所有的 ‘?’ 转换为若干小写字母,使最终的字符串不包含任何 连续重复 的字符。注意:你 不能 修改非 ‘?’ 字符。题目测试用例保证 除 ‘?’ 字符 之外,不存在连续重复的字符。在完成所有转换(可能无需转换)后返回最终的字符串。如果有多个解决方案,请返回其中任何.

2022-01-05 15:09:34 470

原创 Python|Leetcode《507》|完美数

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:完美数难度:简单描述:对于一个 正整数,如果它和除了它自身以外的所有 正因子 之和相等,我们称它为 「完美数」。给定一个 整数 n, 如果是完美数,返回 true,否则返回 false示例1输入:num = 28输出:true解释:28 = 1 + 2 + 4 + 7 + 141, 2, 4, 7, 和 14 是 28 的所有正因子。.

2021-12-31 15:01:51 551

原创 Python|Leetcode《846》《1296》|一手顺子 划分数组为连续数字的集合

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述<846><1096>题目相同题目:一手顺子| 划分数组为连续数字的集合难度:中等描述:Alice 手中有一把牌,她想要重新排列这些牌,分成若干组,使每一组的牌数都是 groupSize ,并且由 groupSize 张连续的牌组成。给你一个整数数组 hand 其中 hand[i] 是写在第 i 张牌,和一个整数 groupSize 。如果.

2021-12-30 16:34:47 518 1

原创 Python|Leetcode《1995》|统计特殊四元组

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:统计特殊四元组难度:简单描述:给你一个 下标从 0 开始 的整数数组 nums ,返回满足下述条件的 不同 四元组 (a, b, c, d) 的 数目 :nums[a] + nums[b] + nums[c] == nums[d]a < b < c < d示例1输入:nums = [1,2,3,6]输出:1解释:满.

2021-12-29 17:27:15 732 1

原创 Python|Leetcode《825》|适龄的朋友

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:适龄的朋友难度:中等描述:在社交媒体网站上有 n 个用户。给你一个整数数组 ages ,其中 ages[i] 是第 i 个用户的年龄。如果下述任意一个条件为真,那么用户 x 将不会向用户 y(x != y)发送好友请求:age[y] <= 0.5 * age[x] + 7age[y] > age[x]age[y] > 100.

2021-12-27 16:34:09 485 3

原创 Python|Leetcode《1044》|最长重复子串

专栏《LeetCode|一刷到底》打卡每天leetcode精选每日一题(尽量不断更!)点击关注不迷路!!!一、题目描述题目:最长重复子串难度:困难描述:给你一个字符串 s ,考虑其所有 重复子串 :即,s 的连续子串,在 s 中出现 2 次或更多次。这些出现之间可能存在重叠。返回 任意一个 可能具有最长长度的重复子串。如果 s 不含重复子串,那么答案为 “” 。示例1输入:s = “banana”输出:“ana”示例2输入:s = “abcd”输出:.

2021-12-23 16:28:34 3577 1

COV-19.xlsx

通过问卷调查得到的疫情期间的不同人群的活动数据,数据条数240+,包括工作城市、居住地、消费增长侧重情况等信息,可以用于简单的分析、挖掘。

2020-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除