- 博客(260)
- 资源 (4)
- 问答 (2)
- 收藏
- 关注
原创 Scikit Learn中的概率校准曲线
概率校准是一种用于将二分类的输出分数转换为概率的技术,以与目标类的实际概率相关联。在本文中,我们将讨论概率校准曲线以及如何使用Scikit-learn绘制它们。
2024-03-27 18:43:29 534
原创 机器学习 | 期望最大化(EM)算法介绍和实现
在现实世界的机器学习应用中,通常有许多相关的特征,但只有其中的一个子集是可观察的。当处理有时可观察而有时不可观察的变量时,确实可以利用该变量可见或可观察的实例,以便学习和预测不可观察的实例。这种方法通常被称为处理缺失数据。通过使用变量可观察的可用实例,机器学习算法可以从观察到的数据中学习模式和关系。然后,这些学习到的模式可以用于预测变量在缺失或不可观察的情况下的值。期望最大化算法可用于处理变量部分可观察的情况。当某些变量是可观察的时,我们可以使用这些实例来学习和估计它们的值。
2024-03-24 17:03:51 1000
原创 Python | 使用SciPy库的插值方法及示例
SciPy是一个基于NumPy构建的Python模块,它集成了多种数学算法和函数,旨在有效地在NumPy数组上运行。SciPy提供了许多子模块,包括插值、积分、优化、图像处理、统计、特殊函数等,广泛适用于各个领域。SciPy的子包被组织成覆盖不同科学计算领域的子包,例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等。SciPy与NumPy关系密切,建立在NumPy之上,提供了便捷且快速的N维数组操作。
2024-03-21 17:41:45 443
原创 在Python中执行分位数回归
线性回归被定义为根据给定的变量集构建因变量和自变量之间关系的统计方法。在执行线性回归时,我们对计算响应变量的平均值感到好奇。相反,我们可以使用称为分位数回归的机制来计算或估计响应值的分位数(百分位数)值。例如,第30百分位、第50百分位等。
2024-03-18 17:52:57 383
原创 Python | 机器学习中的模型验证曲线
验证曲线是一种重要的诊断工具,它显示了机器学习模型准确性变化与模型超参数变化之间的敏感性。验证曲线在y轴上绘制模型性能指标(如准确度、F1分数或均方误差),在x轴上绘制超参数值的范围。模型的超参数值通常在对数尺度上变化,并且使用针对每个超参数值的交叉验证技术来训练和评估模型。验证曲线中存在两条曲线-一条用于训练集得分,一条用于交叉验证得分。默认情况下,scikit-learn库中的验证曲线函数执行3折交叉验证。验证曲线用于基于超参数评估现有模型,而不是用于调整模型。
2024-03-16 16:02:13 340
原创 Python | Bootstrap图介绍
在进入Bootstrap 图之前,让我们先了解一下Bootstrap(或Bootstrap 抽样)是什么。(Bootstrap Sampling):这是一种方法,我们从一个数据集中重复地取一个样本数据来估计一个总体参数。它用于确定总体的各种参数。
2024-03-14 18:21:19 764
原创 机器学习中的概率模型及使用案例
概率模型是机器学习的重要组成部分,其目的是从数据中学习模式,并对新的、看不见的数据进行预测。它们是统计模型,捕捉数据中固有的不确定性,并将其纳入预测。概率模型用于各种应用,例如图像和语音识别、自然语言处理和推荐系统。近年来,在开发能够有效处理大型数据集的概率模型方面取得了重大进展。
2024-03-11 18:33:17 785
原创 机器学习 | 使用CatBoost处理缺失值
CatBoost(categorical boosting)是由俄罗斯跨国IT公司Yandex开发的机器学习算法。这种特殊的boosting算法基于梯度提升框架,通过结合有序提升,不经意树和分类变量的高级处理等技术,可以比其他传统的梯度提升算法更有效地处理分类特征,从而以最小的超参数调整实现高性能。CatBoost还有一个内置的超参数(nan_mode)来处理数据集中存在的缺失值,这有助于我们非常有效地处理数据集,而无需执行其他数据预处理。缺失值是指数据集中某些观测或变量的数据缺失。
2024-03-08 01:09:07 812
原创 机器学习中的特征变换技术
在每个数据集中,不能使用对数和平方根变换,因为每个数据都可能具有不同的模式和复杂性。根据数据的领域知识,可以应用自定义变换将数据变换为正态分布。这里的自定义变换可以是任何函数或参数,如sin、cos、tan、cube等。
2024-03-05 18:37:01 826
原创 使用Matplotlib绘制圆环图
将图例添加到圆环图图表图例通常以方框的形式出现在图表的右侧或左侧。它包含图表上每种颜色的小样本以及图表中每种颜色含义的简短描述。要添加图例,我们只需编写以下代码。这里plt.legend()有两个参数,第一个是labels,loc用来设置图例框的位置。# colorsplt.show()在圆环图的图例框中添加标题'Orange']# colors'#FFA500']plt.show()
2024-03-03 19:29:08 397
原创 如何用Python检查时间序列数据是否平稳?
时间序列数据通常以其时间性质为特征。这种时间性质为数据增加了趋势或季节性,使其与时间序列分析和预测兼容。如果时间序列数据不随时间变化或没有时间结构,则称其为静态数据。因此,检查数据是否平稳是非常必要的。在时间序列预测中,如果数据是平稳的,我们就无法从数据中获得有价值的见解。
2024-03-01 18:09:11 892
原创 Python中的时序分析和可视化案例
时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。
2024-02-27 19:24:36 849
原创 如何在Python中创建动态图形?
动态图形是使可视化更具吸引力和用户吸引力的好方法。它帮助我们以有意义的方式展示数据可视化。Python帮助我们使用现有强大的Python库创建动态图形可视化。Matplotlib是一个非常流行的数据可视化库,通常用于数据的图形表示,也用于使用内置函数的动态图形。
2024-02-24 19:34:04 410
原创 回归分析中的异方差性
在简单线性回归或多元线性回归中,我们对误差项做了一些基本假设。简单线性回归:多元线性回归:假设条件:1.误差均值为零2.误差具有恒定方差3.误差不相关4.误差呈正态分布第2个假设称为同方差性,因此,违反这个假设称为异方差性。
2024-02-21 22:56:59 395
原创 基于Seaborn和Matplotlib的可视化案例分析
处理数据有时会有点无聊。将原始数据转换为可理解的格式是整个过程中最重要的部分之一,那么为什么只停留在数字上,当我们可以将数据可视化为令人兴奋的图表时,这些图表可以在python中获取。这篇文章将重点探索耐人寻味的预处理之旅。Seaborn和Matplotlib为我们提供了许多诱人的图表,通过这些图表,人们可以轻松地分析关键点,更深入地了解数据,并最终获得对数据的深刻见解,并在通过不同算法训练后获得最高的准确性。
2024-02-11 20:16:10 949
原创 基于LightGBM的回归任务案例
LightGBM或“Light Gradient Boosting Machine”是一个开源的高性能梯度增强框架,专为高效和可扩展的机器学习任务而设计。它专门针对速度和准确性而定制,使其成为不同领域中结构化和非结构化数据的热门选择。LightGBM的关键特性包括它能够处理具有数百万行和列的大型数据集,支持并行和分布式计算,以及优化的梯度提升算法。LightGBM以其出色的速度和低内存消耗而闻名,这要归功于基于直方图的技术和逐叶树生长。
2024-02-08 14:45:00 1228
原创 机器学习 | 基于网格搜索的SVM超参数调节
机器学习模型被定义为一个数学模型,其中包含许多需要从数据中学习的参数。然而,有一些参数,称为超参数,这些参数不能直接学习。它们通常是由人类在实际训练开始前根据直觉或经验和试验选择的。这些参数通过提高模型的性能(例如其复杂性或学习率)来展示其重要性。模型可以有许多超参数,找到参数的最佳组合可以被视为搜索问题。SVM也有一些超参数(如使用什么C或伽马值),找到最佳超参数是一个非常困难的任务。但它可以通过尝试所有组合来找到,看看什么参数最有效。
2024-02-05 19:16:31 1002
原创 Pandas - Groupby对多个值分组并绘图示例
在这个例子中,我们从seaborn库中获取一个数据集的“exercise.csv”文件,然后根据“time”列将“pulse”和“diet”两列分组在一起,形成groupby数据,最后可视化结果。在这个例子中,我们从seaborn库中获取数据集的“exercise.csv”文件,然后通过将“pulse”,“diet”和“time”三列分组在一起形成groupby数据,最后将结果可视化。本示例是对上述示例的修改,以实现更好的可视化。本示例是对上述示例的修改,以实现更好的可视化。
2024-02-03 19:37:43 378
原创 如何在Python中绘制置信区间?
置信区间是从观测数据的统计量计算的一种估计值,它给出了一个可能包含具有特定置信水平的总体参数的值范围。平均值的置信区间是总体平均值可能位于其间的值的范围。如果我预测明天的天气在零下100度到+100度之间,我可以100%肯定这是正确的。然而,如果我预测温度在20.4到20.5摄氏度之间,我就不那么有信心了。注意置信度如何随着区间的减小而减小。这同样适用于统计置信区间,但它们也依赖于其他因素。
2024-01-31 18:07:17 1009
原创 将Lambda函数应用于Pandas DataFrame
在Python Pandas中,我们可以在需要时自由添加不同的函数,如lambda函数,排序函数等。我们可以将lambda函数应用于Pandas数据框的列和行。语法:lambda参数:表达式一个匿名函数,我们可以立即传入,而无需定义名称或任何东西,就像一个完整的传统函数一样。
2024-01-28 19:04:51 385
原创 如何将嵌套JSON数据转换为Pandas DataFrame
对于复杂的JSON数据进行分析时,通常的做法是将JSON数据结构转换为Pandas DataFrame,因为它可以帮助更方便地操作和可视化数据。在本文中,让我们考虑不同的嵌套JSON数据结构,并使用内置和自定义函数将它们扁平化。Pandas有一个很好的内置函数json_normalize(),可以将简单到中等半结构化的嵌套JSON结构扁平化为数据表。
2024-01-25 18:33:46 364
原创 使用Python检测并删除离群值
离群值是一个数据项/对象,它明显偏离其余的(所谓的正常)对象。它们可能由测量或执行错误引起。离群点检测的分析被称为离群点挖掘。检测离群值的方法有很多,删除过程与从pandas的数据框中删除数据项相同。
2024-01-23 19:06:50 984
原创 Pandas中不同类型的join操作
Pandas模块包含各种功能,可以在数据框上执行各种操作,如join,concatenate,delete,add等。在本文中,我们将讨论可以在Pandas数据框上执行的各种类型的join操作。Pandas中有五种类型的Join。为了理解不同类型的连接,我们将首先创建两个DataFrame,即a和b。
2024-01-20 19:38:53 389
原创 时间序列数据中的趋势及可视化示例
时间序列数据是在有序的时间段内测量某些变量的数据点序列。它是增长最快的数据库类别,因为它广泛用于各种行业,以了解和预测数据模式。因此,在准备这些时间序列数据进行建模时,检查时间序列组件或模式非常重要。其中之一就是趋势。趋势是数据中的一种模式,它显示了一个系列在很长一段时间内相对较高或较低的值的运动。换句话说,当时间序列中存在增加或减少的斜率时,观察到趋势。趋势通常发生一段时间,然后消失,它不会重复。例如,一首新歌出现,它流行了一段时间,然后就消失了。它很有可能再次成为趋势。
2024-01-18 17:40:08 361
原创 如何在Pandas中根据条件替换列中的值?
在使用Pandas的Python中,DataFrame列中的值可以通过使用各种内置函数根据条件进行替换。在本文中,我们将讨论在Pandas中用条件替换数据集列中的值的各种方法。
2024-01-16 19:39:59 446
原创 时间序列数据的季节性检测
时间序列数据是在连续的、等间隔的时间间隔内记录的观测或测量的集合,在金融、经济、气候科学和医疗保健等各个领域都很普遍。与在单个时间点捕获观察结果的横截面数据不同,时间序列数据提供了对特定现象如何随时间演变的见解,其中每个数据点与特定时间戳相关联,形成了允许分析时间趋势和模式的序列。季节性是指在时间序列内以固定间隔发生的重复和可预测的模式。这些模式通常遵循周期性或周期性的性质,并可能受到天气,假期或商业周期等各种因素的影响。在时间序列分析的背景下,季节性表现为在固定时间间隔(如天,月或年)内重复的周期性波动。
2024-01-14 17:40:47 939
原创 使用Python进行客户行为分析
客户行为分析是一个有价值的过程,它使企业能够做出数据驱动的决策,增强客户体验,并在动态市场中保持竞争力。因此,这个过程从基于平台上的客户行为收集数据开始。
2024-01-12 18:34:28 367
原创 机器学习中的隐马尔可夫模型及Python实现示例
总之,HMM是一个强大的工具,用于建模连续数据,其实现通过库,如hmmlearn,使他们的访问和有用的各种应用程序。
2024-01-10 18:36:06 1123
原创 Python中的线性可分性
线性可分性是指二分类问题中的数据点可以用线性决策边界分离。如果数据点可以使用线、线性函数或平坦超平面来分离,则认为是线性可分离的。线性可分性是神经网络中的一个重要概念。如果n维空间中的分离点遵循则它被称为线性可分的。对于二维输入,如果存在一条线(其方程为)将一个类别的所有样本与另一个类别分开。这样的分类问题被称为“线性可分离”,即通过i/p的线性组合进行分离。
2024-01-08 18:27:17 826
原创 Pandas DataFrame中将True/False映射到1/0
在本文中,我们将看到如何在Pandas DataFrame中将True/False映射到1/0。True/False到1/0的转换在执行计算时至关重要,并且可以轻松分析数据。
2024-01-06 17:39:58 379
原创 Python|使用Missingno库可视化缺失值(NaN)
在真实世界数据集的情况下,数据集中的某些值丢失是非常常见的。我们将这些缺失值表示为NaN(非数字)值。但是要构建一个好的机器学习模型,我们的数据集应该是完整的。这就是为什么我们使用一些插补技术来用一些可能的值替换NaN值。但在此之前,我们需要很好地理解NaN值在数据集中的分布情况。Missingno库提供了一种非常好的方式来可视化NaN值的分布。Missingno是一个Python库,与Pandas兼容。
2024-01-05 17:56:55 394
原创 使用Python进行用户参与度分析
用户参与度分析有助于企业了解人们如何与他们的产品或服务互动,使他们能够做出改进,使用户更快乐,更有可能留下来。它可以帮助企业为客户创建更好的UI/UX,并最终实现他们的目标。用户参与度分析可帮助各种类型的企业,包括电子商务、社交媒体、移动的应用程序和在线平台。例如,电子商务公司可以使用它来了解客户如何浏览他们的网站,他们喜欢什么产品,以及他们在每个页面上停留的时间。它可以帮助公司优化他们的网站设计,个性化的产品推荐,并改善营销策略,以提高客户满意度和忠诚度。
2024-01-03 16:59:01 865
原创 数据挖掘中的分箱和python实现
数据分箱(英语:Data binning)是一种数据预处理方法,用于最大限度地减少小观测误差的影响。原始数据值被划分为称为bin的小区间,然后用为该bin计算的一般值替换它们。这对输入数据具有平滑效果,并且在小数据集的情况下还可以减少过拟合的机会。
2024-01-01 19:15:27 435
原创 机器学习中的偏差和方差
偏差被称为机器学习模型的预测值与正确值之间的差异。偏差高会在训练和测试数据中产生很大的误差。它建议算法应该总是低偏差的,以避免欠拟合的问题。偏差是由于机器学习过程中的错误假设而发生的系统性错误。当假设在本质上过于简单或线性时,就会发生这种情况。请参阅下面的图表,以了解这种情况的示例。在这样一个问题中,假设看起来如下使用更复杂的模型:高偏差的主要原因之一是非常简化的模型。它将无法捕捉数据的复杂性。在这种情况下,我们可以通过增加深度神经网络的隐藏层数量来使我们的模式更加复杂。
2023-12-29 19:28:20 809
原创 CatBoost算法是如何工作的及使用示例
CatBoost是Yandex开发的尖端算法,是无缝,高效和令人兴奋的机器学习,分类和回归任务的首选解决方案。凭借其创新的有序提升算法,CatBoost通过利用决策树的力量将预测提升到新的高度。在本文中,您将探索catboost算法的工作原理。总而言之,CatBoost是一个功能强大且用户友好的梯度增强库,适用于广泛的应用。无论您是寻找简单机器学习方法的新手,还是寻找顶级性能的经验丰富的从业者,CatBoost都是您工具箱中的有用工具。
2023-12-27 18:49:09 1014
原创 Python | 使用VIF检测多重共线性
多重共线性是指多元回归模型中有两个或两个以上的自变量,它们之间具有高度的相关性。正如我们所看到的,身高和体重具有非常高的VIF值,表明这两个变量高度相关。这是预料之中的,因为一个人的身高确实会影响他们的体重。正如我们从公式中看到的,R平方的值越大,VIF越大。这与较高的R平方值表示较强的共线性的事实一致。下例中使用的数据集包含500人的身高、体重、性别和体重指数。exog_idx:要测量其对其他特征的影响的附加特征的索引。其中,R平方是线性回归中的决定系数。exog:一个数组,包含对其执行线性回归的特征。
2023-12-25 18:28:58 763
原创 Python代码示例 | 时间序列数据的组成
总之,时间序列数据可以分解为几个组成部分,包括趋势,季节性,周期性,不规则性,自相关性,离群值和噪声。了解这些组成对于有效地分析和建模时间序列数据至关重要。通过识别和隔离这些组成部分,我们可以更好地了解时间序列数据中的潜在模式和关系,这可以为决策提供信息并提高预测准确性。
2023-12-22 18:46:07 885
原创 随机游走Python中的实现
随机游走是一个数学对象,称为随机或随机过程,它描述了一条路径,该路径由一些数学空间(如整数)上的一系列随机步骤组成。随机游走的一个基本例子是整数线上的随机游走,它从0开始,每一步以相等的概率移动+1或-1。其他例子包括分子在液体或气体中行进时的路径,觅食动物的搜索路径,波动股票的价格和赌徒的财务状况都可以通过随机行走模型来近似,即使它们在现实中可能不是真正的随机。如这些例子所示,随机游走在许多科学领域都有应用,包括生态学、心理学、计算机科学、物理学、化学、生物学以及经济学。
2023-12-17 18:15:01 439
原创 Python | 高斯分布拟合示例
当我们绘制一个数据集(如直方图)时,图表的形状就是我们所说的分布。最常见的连续值形状是钟形曲线,也称为高斯分布或正态分布。它以德国数学家卡尔·弗里德里希·高斯的名字命名。遵循高斯分布的一些常见示例数据集是体温、人的身高、汽车里程、IQ分数。让我们尝试生成理想的正态分布,并使用Python绘制它。
2023-12-15 17:36:37 684
如何实现sqlserver数据库级别数据定时更新到hdfs?
2021-08-04
单台主机存储数据库的数据越来越多,有什么方式可以使用多台主机存储数据并方便管理?
2021-06-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人