鲤喙-CSDN博客

原创 AB测试— 知识点总结

AB测试其实就是随机均匀样本组的对照实验1、什么是AB测试？AB测试其实来源于假设检验，我们现在有两个随机均匀的样本组A、B，对其中一个组A做出某种改动，实验结束后分析两组用户行为数据，通过显著性检验，判断这个改动对于我们所关注的核心指标是否有显著的影响。在这个实验中，我们的假设检验如下：原假设H0：这项改动不会对核心指标有显著的影响备选假设H1：这项改动会对核心指标有显著影响如果我们在做完实验之后，通过显著性检验发现P值足够小，我们则推翻原假设，证明这项改动会对我们所关注的核心指标产生显著影响。

2024-04-18 11:51:23 463 1

原创假设检验知识点总结

P值是在零假设为真的条件下，观察到的样本统计量或更极端情况出现的概率，它用于衡量数据与零假设之间的不一致程度。如图2所示，如果观测到的数据出现在概率小于p值的区域，即p值小于或等于显著性水平（α），说明我们的零假设不正确，因为在零假设情况下基本不会出现这种情况。图中，统计功效是除去第二类错误的部分。适用场景：当样本量小（少于30）且总体方差未知时，用t检验来比较样本均值与总体均值（单样本t检验），或比较两个独立样本的均值（独立样本t检验），或比较同一组个体在不同条件下的均值（配对样本t检验）。

2024-04-17 15:27:23 694

原创数据分析中的统计学

点估计就是用随机抽样的样本的计算出来的指标值去估计整体指标情况。

2024-04-17 11:47:48 789

原创深入浅出统计学（十）—— 统计抽样的运用

通过在总体抽取一个好的样本，使其具有代表性，即样本具有与总体十分相似的特性，进而可以根据样本来预测总体的特性，比如数据中心相同。

2024-04-17 11:01:12 568

原创深入浅出统计学（九）—— 再谈正态分布的运用

在研究综合正态变量的时候，想办法求出X+Y的分布是十分有用的。如果独立随机变量X和Y均符合正态分布，那么可以得知X+Y也一定符合正态分布。在两个变量相加之后，实际上会增大了变异性，因此新分布的方差会增大，图形拉长，而为了保持图形总面积始终为1，因此图形同时也随之变扁。

2024-04-17 10:36:57 350

原创深入浅出统计学（八）——正态分布的运用

概率密度函数（Probability Density Function, PDF）是描述连续型随机变量的概率分布的函数，通常用 f(x) 表示。概率 = 面积。

2024-04-17 10:01:38 695

原创深入浅出统计学（七）——几何分布、二项分布及泊松分布

几何分布通常用于描述在中，。设 X 表示首次成功所需的试验次数，则 X 服从参数为 p 的几何分布，记为X∼Geo(p)。

2024-04-16 22:57:10 247

原创深入浅出统计学（六）— 排列与组合

现有N匹赛马，那么它们所有可能的排列顺序为N！。

2024-04-16 21:56:12 128

原创深入浅出统计学（五）— 离散概率分布的运用

方差是衡量随机变量离其均值的距离的一种度量，表示随机变量的分散程度或波动程度。方差越大，表示随机变量的取值相对于其均值的波动越大；方差越小，表示随机变量的取值相对于其均值的波动越小。离散概率分布是描述离散型随机变量可能取值的概率情况的数学函数或表格。概率密度函数给出了每个可能取值的密度（即在该点附近的概率密度），而不是直接给出每个可能取值的概率。期望是描述随机变量的平均值或预期值的概念。连续型随机变量可以取任意的实数值，因此其可能的取值范围是一个连续的区间。来描述，该函数给出了每个可能取值的概率。

2024-04-16 17:26:02 917

原创深入浅出统计学（四）— 概率计算

在统计学和概率论中，概率被定义为某个事件发生的可能性，它通常取值在0到1之间，其中0表示不可能发生，1表示一定发生。例如，考虑一个扑克牌的随机抽取实验，事件 A 表示抽到红桃，事件 B 表示抽到 A 或 K，则事件 A 和事件 B 就是相交事件。例如，掷一枚骰子，事件 A 表示出现奇数点数，事件 B 表示出现偶数点数，则事件 A 和事件 B 就是互斥事件。它基于概率的乘法规则，将条件概率表示为两个事件相互关联的概率的乘积。独立事件：如果事件 A 的发生与事件 B 的发生没有关联，那么这两个事件就是独立的。

2024-04-16 16:15:08 689

原创深入浅出统计学（三）— 分散性与变异性的量度

显示数据的全距、四分位距、中位数。如果 n 是偶数，那么上四分位数的位置为 3×1004=7543×100=75 和 3×1004+1=7643×100+1=76 的平均值，即第 75.5 个数据点。如果 n 是偶数，那么下四分位数的位置为 1004=254100=25 和 1004+1=264100+1=26 的平均值，即第 25.5 个数据点。如果 n 是奇数，那么上四分位数的位置为 3×(100+1)4=75.7543×(100+1)=75.75 的位置，即第 75.75 个数据点。

2024-04-16 09:56:43 964

原创深入浅出统计学（二）— 集中趋势的量度

4. 异常值：与其他数据格格不入的极高或极低的数值5. 偏斜数据：当异常值向左或者向右拉时就会出现偏斜数据。

2024-04-16 08:51:40 117

原创深入浅出统计学（一）— 信息图形化

若只有百分数没有频数，或者只有频数没有百分数，都要小心，这是藏匿基础数据真实情况的伎俩。用连续直方图表示落在区间的频数（可以体现区间宽度，也可以提供频数）

2024-04-16 08:35:27 155

原创利用Python进行数据分析（二）— pandas 2.2 基本功能

如果指定的新索引中存在原索引中没有的标签，在重建索引时会在新对象中创建缺失值，并用 NaN 表示。根据指定的新索引重新排列数据，使数据与新索引对应，创建符合新索引的新对象。指定新的行索引，可以是一个索引标签的列表、一个索引对象，或者其他能被转换成索引的对象。指定新的列索引，可以是一个列标签的列表、一个索引对象，或者其他能被转换成索引的对象。用于按标签索引，可以指定新的行索引和列索引，然后返回新的DataFrame。指定填充缺失值的值，当重建索引时出现缺失值时会用指定的值填充。写法1：reindex()

2024-04-15 17:03:43 849 1

原创利用Python进行数据分析（二）— pandas 2.1数据结构

andas是含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的，让以NumPy为中心的应用变得更加简单。导入pandasPandas主要有两种数据结构：Series和DataFrameSeries是一维标记数组，类似于Python中的列表或数组。它由一组数据和一组与之相关的索引（标签）组成。Series的字符串表现形式为:索引在左边，值在右边。由于没有为数据指定索引，于是会自动创建一个0到N-1(N为数据的长度)的整数型索引。输出将。

2024-04-15 09:07:37 925

qq_47343046的博客