interbigdata-CSDN博客

原创主题词、关键词、特征词，不再傻傻分不清

在文本处理中，特征词是指那些出现在文本中的，用于区别该文本与其它文本不同的那些词。特征词起到表征（不是表达）该文本的作用。特征词也属于自然语言的范畴，未经规范化处理，也不受主题词表的控制。比如在语料库中，！这个字符仅出现在文本t中，那么！就可以作为文本t的特征词，尽管它并没有体现文本语义的作用。根据以上论述，我们可以看出，主题词可以理解为对关键词的规范化与精炼化的结果，是对整个文本高纯度提纯的结果。而特征词仅仅就是一种标志物提取。因此就自然语言处理而言，提取特征词难度是最小的；

2024-03-17 14:23:52 515

原创数据分析为何要学统计学（10）——如何进行比率检验

比率检验是通过样本推测某种事件的总体占比水平。要求事件仅有互斥的两种情况，即，概率分别为p与1-p。比率检验分单样本和双样本两种情况，以下我们分别介绍。

2023-12-17 11:16:00 572

原创数据分析为何要学统计学（2）——如何估计总体概率分布

第二步，确定几个与之相近的候选概率分布（一般3个左右）。从上图来看，可以选择卡方分布、指数分布、伽玛分布。第一步，我们采用Seaborn软件的histplot函数建立核密度图（一种概率密度图）。第三步，分布拟合这三个候选分布的参数，并使用拟合得出的分布参数检验每一个候选分布。我们可以通过手头掌握的样本来估计总体的概率分布。这个过程由以下步骤组成。第四步，选择p值（每一个值）最大的作为检验结果。从以上数据可以看出，样本最大可能是参数。而事实上，原始样本确实是以。

2023-12-14 00:01:56 241

原创数据分析为何要学统计学（12）——如何进行时间序列分析

该方法是一种把时间序列分解为趋势项(trend component)、季节项(seasonal component)和残差项(remainder/residual component/random)的过滤过程。STL算法在1990年由密歇根大学的R. B. Cleveland教授以及AT&T Bell实验室的W. S. Cleveland等人研发。可以看人口出生在第38个月左右后出生有明显上升趋势，而且从每年3月-6期间，出生人口开始进入高峰期，从8月份左右开始出生人口急速下降。

2023-12-11 21:29:15 256

原创数据分析为何要学统计学（4）——何为置信区间？它有什么作用？

比如工厂要确定95%置信水平下的产品成份含量的置信区间，但手里只有20个样本数据，如何来估计总体的成分含量呢？根据中心极限定理，这30个样本服从正态分布，于是我们就可以用这30个样本均值的均值及标准差，来估计总体的成分含量区间了。通俗一点讲，如果置信度为95%（等价于显著水平a=0.05），置信区间为[a,b]，这就意味着总体均值落入该区间的概率为95%。一般情况下当我们抽样的数量大于等于30时，可认为样本均值服从正态分布，以此我们通过查标准正态分布表，或者显著水平a下的z值，然后即可获得置信区间。

2023-12-11 20:42:16 280

原创数据分析为何要学统计学（11）——如何进行回归分析

回归分析（regression analysis)是量化两种或两种以上因素/变量间相互依赖关系的统计分析方法。回归分析根据因素的数量，分为一元回归和多元回归分析；按因素之间依赖关系的复杂程度，可分为线性回归分析和非线性回归分析。我们通过一下两个例子介绍如何使用python完成回归分析。在python中有多个软件包可以用于回归分析，在这里我们选择 sklearn软件包中的LinearRegression训练算法，之所以选择该算法是因为它支持多元回归，还可以用于非线性回归分析（多项式回归）。

2023-12-11 19:35:36 270

原创数据分析为何要学统计学（0）——如何提高数据样本质量

但高水平的研究成果都会以很大的篇幅描述数据的构成及获得过程，以些来突出研究工作的真实性、可靠性、科学性。比较典型的是，一篇优秀的学术论文，Data、Method和Discussion是最核心的部分。不过在计算机的帮助下，抽样工作量已经可以忽略不计，在数据量已经不是问题的前提下，尽量选择低误差的抽样方法是样本质量的重要保障。抽样一是为了降低数据分析的工作量，二是消除人为干预数据供应的情况，同时还可以降低随机误差的不良影响。我们可以从样本产生的各各环节下手，找出影响样本质量的关键活动，有的放矢地解决这个问题。

2023-12-11 11:55:21 233

原创数据分析为何要学统计学（9）——总体不服从正态分布时使用什么假设检验方法进行均值检验？

大多数情况下，我们都假设样本所在总体服从正态分布，然后使用t检验、方差分析等假设检验方法。但是总体如果不服从正态分布，那么就得使用非参数检验方法，如Mann-Whitney U检验和Wilcoxon秩和检验。其中Mann-Whitney U检验适用于独立双样本的情况，Wilcoxon秩和检验适用于配对双样本的情况。Mann-Whitney U检验和Wilcoxon秩和检验还支持单侧检验，来比较两组样本均值的大小。此时使用alternative参数定义备择假设的方向（less或greater）。

2023-12-10 16:11:06 394

原创数据分析为何要学统计学（8）——什么问题适合使用方差分析？

方差分析（ANOVA，也称变异数分手）是英国统计学家Fisher（1890.2.17－1962.7.29）提出的对两个或以上样本总体均值进行差异显著性检验的方法。它的基本思想是将测量数据的总变异（即总方差）按照变异来源划分为，进行估计，从而确定差异的显著性。根据考虑因素的数量，可方差分析分为单因素方差分析、二因素方差分析和多因素方差分析。方法分析使用的前提条件与t检验相同，也需要满足样本的要求。以下我们分别对单因素方差分析和多因素方差分析进行介绍。

2023-12-09 16:12:04 394

原创数据分析为何要学统计学（7）——什么问题适合使用t检验？

t检验（Student's t test），主要依靠总体正态分布的小样本（例如n < 30）对总体均值水平进行差异性判断。t检验要求样本不能超过两组，且每组样本总体服从正态分布（对于三组以上样本的，要用方差分析，其他文章详述）。因。如果有不服从正态分布的情况，可以考虑使用和后面单独文章介绍。需要说明的是t检验还分为和，适用条件也各有不同，以下分别举例介绍。

2023-12-08 16:16:35 614

原创数据分析为何要学统计学（6）——什么问题适合使用卡方检验？

首先，从技术角度来看，（1）卡方检验的样本涉及的因素（也就是变量）需要两个（含）以上，而且是定性变量（分类变量，定类变量），其值可以是数字，也可以符号，但是即使是数字也不具备数量的含义，只是用于区分。（2）其样本数据是由多个因素在不同水平（取值）情况下共同决定的数据，直观上表现为列联表（交互分类表，交叉表），形如下表。上表涉及的因素（变量）有两个，分别是地区和满意度，其值分别是[北京，上海]和[满意，一般，不满意]。而样本是由两个变量的不同取值作用下的统计数据，可以是总和，也可以是平均数，或者其他统计量。

2023-12-07 18:37:10 579

原创充满魔性的人工神经网/深度学习，其实并不万能，也不可靠

谈到机器学习，很多人自然会联想到人机对弈、自动驾驶、图像识别、疾病诊断等领域的成功案例。人工神经网络的超人般的能力令人咂舌。但是很少有人想到人工神经网络预测结果的高风险性。从人工神经网的基本原理上来看，无论识别图像、听懂语音，在这些高维大数据情境中，神经网络技术总能输出一些很不错的结果，而其它机器学习算法/模型确实做不到！但还是没人解释的清，神经网它到底是怎样做到的。人工神经网的训练过...

2019-08-04 12:09:56 271

原创聚类分析如可确定最佳的聚类簇数？

聚类与分类的不同在于，聚类所要求划分的类是未知的。也就是说我们对样本数据的划分是不了解。聚类分析的任务就是要明确这个划分。例如我们采集到很多未知的植物标本，并对每株标本的植物学特征进行了记录、量化。那么这些植物标本到底是几个物种呢？聚类分析就可以解决这个问题。当前在机器学习领域涌现了许多优秀的聚类分析算法供我们使用，如k-means、DBSCAN、AGNES等。通过使用这些成熟的算法，我们...

2019-07-23 17:21:47 18096 5

原创长话短说stacking集成学习算法，保证你能看得懂（3)

这是在乳腺癌数据集的的stacking集成学习案例读入样本数据import warningswarnings.filterwarnings(“ignore”)from sklearn import datasetsfile=datasets.load_breast_cancer()X=file[“data”]y=file[“target”]#拿出20%，用作测试数据分拆为...

2019-07-22 21:10:42 1134 2

原创长话短说stacking集成学习算法，保证你能看得懂（2)

第一步，进行初级学习，生成次级学习器的训练集(X_train_new,y_train)和测试集(X_test_new,y_test)（篇幅所限，我们在此假设每个基模型都是经过参数调优处理的优良模型，具体如何进行参数优化请参见相关文献）如上所述，次级学习器的训练集的X_train_new，测试集X_test_new是初级学习的预测结果组合生成，而y_train与y_test（其实在stack...

2019-07-22 20:46:11 2588

原创长话短说stacking集成学习算法，保证你能看得懂（1)

Stacking是集成学习算法中一朵奇葩，只所以这样说，是因为它没有走Majority投票法和均值法的寻常路，但是集成学习的效果却非常优异，以致于成为各类机器学习竞赛中主流的技术。目前网上充斥着各种学习心得和使用方法，不能说它们写得不好，只是大多数不太好懂。我也是看着别人的文章学会stacking的。现在我想努力把stacking说得更明白些，让喜欢尝试它的人更容易上手。要想学会stack...

2019-07-22 20:09:13 782

原创杀手级AI补代码工具来了！可是初学者最好离远点

据报道，一位来自加拿大的大四学霸，开发了一个“Deep TabNine"代码补全工具，支持23种编程语言，5种编辑器，而且使用非常简单，效果惊艳。不少使用过的网友纷纷点赞：TabNine是他们使用过的最好的代码补全工具，属于程序员杀手级的应用。在VS Code扩展商店里，TabNine已经被下载1.3万+次，获得全5星好评。像我们常用的Java，C++, Python都在它支持的范围之内。...

2019-07-16 22:39:24 1064

原创数据分析为何要学统计学（5）——相关性分析方法有哪些？如何选择？

相关性分析是量化不同因素间变动状况一致程度的重要指标。在样本数据降维（通过消元减少降低模型复杂度，提高模型泛化能力）、缺失值估计、异常值修正方面发挥着极其重要的作用，是机器学习样本数据预处理的核心工具。样本因素之间相关程度的量化使用相关系数corr，这是一个取之在[-1，1]之间的数值型，corr的绝对值越大，不同因素之间的相关程度越高——负值表示负相关（因素的值呈反方向变化），正值表示正相关...

2019-07-13 13:44:30 21815 1

原创数据分析为何要学统计学（3）——什么是集中趋势和离散趋势

给定一组数据，我们怎么来判断业务的基本情况呢？此时我们主要用到两个统计学工具：集中趋势和离散趋势。1. 集中趋势集中趋势是一组数据的代表值，那用什么值作代表最有代表性呢？当然这个值应该和所有值差距不大是最好，此时我们首先想到的就是平均数，事实上，用来衡量集中趋势的最常用指标就是平均数，当然有时我们也使用中位数。平均数和中位数一般是不同的，除非样本呈正态分布。如果衡量集中趋势的指标选择不合理，...

2019-07-12 23:16:22 15597 1

原创数据分析为何要学统计学（1）——什么是概率分布

进行数据分析、数据挖掘/机器学习都需要掌握统计学基本知识，这是为什么呢？首先一个主要的原因就是因为统计学就是关于数据分析的科学，所有设计数据分析的操作，都会以统计为基础。今天我们就来细说一下哪些统计操作在数据分析、机器学习中最常用。首先先来说一下样本分布吧。分布是统计学中描述性统计分析的基本工具。分布反应了样本取值的基本规律，简单一点来说就是哪些值被用得多，哪些值被用得少。反应到业务上，就是...

2019-07-10 16:50:05 2652 1

interbigdata的博客