Goodsta-CSDN博客

原创【生物医学的前沿问题】在MRI扫描中自动识别胃肠病变组织的数学模型

自动分割MRI胃肠癌变区域的数学模型

2022-06-26 13:19:15 753

原创【Maxent物种分布模型】气候变化对响尾蛇地理分布的影响

Maxent物种分布模型

2022-06-22 19:53:59 1286 1

作者简介：本文作者系大学统计学专业教师，多年从事统计学的教学科研工作，在随机过程、统计推断、机器学习领域有深厚的理论积累与应用实践。个人主页本文使用python实现的igraph库，识别网络中的commmunity.from IPython.display import ImageImage("../input/image-community/Community.jpeg") #https://healthcommcapacity.org/加载必须的库# Import librarie.

2022-05-25 20:21:25 680

原创【igraph实例】川普的商业网络所有权关系分析

作者简介：本文作者系大学统计学专业教师，多年从事统计学的教学科研工作，在随机过程、统计推断、机器学习领域有深厚的理论积累与应用实践。个人主页在美国前总统特朗普的执政时期内，最具争议的话题是关于他的庞大的商业帝国与总统权力的潜在利益冲突问题。美国新媒体网站Buzzfeed曾经发表文章，分析定位特朗普的各色商业与实际控制人的关系，并调侃地给文章取名为“川普的世界”。该文章还提供了三种类型的原始数据：公司个人公司与个人统计学家根据这些数据，使用R语言的igraph包分析公司与公司、公司与个人.

2022-05-24 21:53:14 129

原创【R语言实例】igraph — 网络分析与可视化包（2）

作者简介：本文作者系大学统计学专业教师，多年从事统计学的教学科研工作，在随机过程、统计推断、机器学习领域有深厚的理论积累与应用实践。2. 从文件读取网络数据数据集1：边列表边列表数据集由两个文件组成。Media-Example-NODES.csvMedia-Example-EDGES.csvnodes <- read.csv("Dataset1-Media-Example-NODES.csv", header=T, as.is=T)links <- read.csv(.

2022-05-19 15:04:56 4514 1

原创【R语言实例】igraph — 网络分析与可视化包（1）

作者简介：本文作者系大学统计学专业教师，多年从事统计学的教学科研工作，在随机过程、统计推断、机器学习领域有深厚的理论积累与应用实践。igraph是一套用于网络分析与可视化的r包，它以高效、便捷、使用简单的特点在网络分析研究中广泛采用。igraph可以在R环境下免费下载安装，目前也有Python实现的igraph. 本文将介绍如何使用igraph包进行基础的网络分析与可视化。1. igraph 网络首先，清除R环境里的所有对象后，加载igraph包。# Remove all the objects.

2022-05-18 22:12:17 9377 1

原创【生信数据预处理】第1讲：酵母RNA-Seq数据

查看数据集请联系QQ2279055353酵母 RNA_Seq 数据在生物信息学研究中，酵母(Yeast, Saccharomyces cerevisiae)基因表达数据经常被用来验证理论模型、算法的应用效果。本文介绍的yeast表达数据集来自 Expression Atlas 的 E-MTAB-5174 实验。在获得了全部基因的RNA-seq的原始读数(raw-counts)后，我们删除了零表达方差的基因。即，这些基因的表达读数几乎是常数值。经过处理后的yeast基因表达数据集由6930个基因在2.

2022-05-16 20:35:39 1386

原创线性模型第4讲：弹性网络

论文合作、课题指导请联系QQ2279055353弹性网络(Elastic-Net)是一种线性模型，它在目标函数里同时使用l1, l2惩罚项。这样的组合既学习了一个稀疏的模型(类似Lasso), 同时也保持了岭回归的正则属性。其目标函数是min⁡w12n∥Xw−y∥22+αρ∥w∥1+α(1−ρ)2∥w∥22\mathop{\min}\limits_w \dfrac{1}{2n}\|Xw-y...

2020-03-31 14:12:08 4242

原创线性模型第3讲：Lasso方法

论文合作、课题指导请联系QQ2279055353Lasso是一种估计稀疏稀疏的线性模型。稀疏系数，就是系数里有很多是零。它可以用来减少特征数，在特定情况下，Lasso方法也能够精确地恢复非零特征集。数学上，Lasso由一个带有惩罚项的线性模型组成，最小化的目标函数：min⁡w12n∥Xw−y∥22+α∥w∥1\mathop{\min}\limits_{w}\dfrac{1}{2n} \| ...

2020-03-24 12:52:17 4212

原创线性模型第2讲：岭回归与分类

论文合作、课题指导请联系QQ2279055353岭回归岭回归(Ridge Regression), 在最小二乘估计问题的基础上，向离差平方和增加了一个L2范数的惩罚项，即，min⁡w∥Xw−y∥22+α∥w∥22\mathop{\min}\limits_{w} \| Xw-y\|_2^2+\alpha\|w\|_2^2wmin∥Xw−y∥22+α∥w∥22复杂系数 α≥0\al...

2020-03-16 13:05:24 2922

原创线性模型第1讲：最小二乘法

论文合作、课题指导请联系QQ2279055353线性模型在一个线性模型里，假设有 ppp 个特征 x1,x2,…,xpx_1, x_2, \dots, x_px1,x2,…,xp, 目标变量 yyy 的预测值 y^\hat{y}y^ 有下面的数学形式：y^(w,x)=w0+w1x1+⋯+wpxp\hat{y}(w, x)=w_0+w_1 x_1+\dots+w_p x_py^(...

2020-03-07 21:06:07 1146

原创数据预处理第7讲：具有离群点数据的缩放方法比较

论文合作、课题指导请联系QQ2279055353California Housing 数据集California Housing数据集包括9个变量、20,640个观测。其中，特征Feature 0 (median income in a block) and feature 5 (number of households) 有不同的scales，且带有大量的利群点(outliers). 该...

2020-03-02 13:58:11 1051

原创数据预处理第6讲：正态变换

论文合作、课题指导请联系QQ2279055353Box-Cox and Yeo-Johnson变换可以将来自不同分布的数据映射到正态分布。下面的例子将这两种变换应用到6种不同的概率分布数据：Lognormal, Chi-squared, Weibull, Gaussian, Uniform, and Bimodal. 通过PowerTransformer类，成功地将上述分布的数据映射到正态分...

2020-02-25 13:29:49 5560

原创数据预处理第5讲：特征缩放

论文合作、课题指导请联系QQ2279055353特征缩放特征缩放(Feature scaling), 通常指特征的标准化，或者叫Z-Score标准化，对于很多机器学习算法来说是一个非常重要的预处理过程。标准化后的特征，具有标准正态分布的属性，即零均值、单位标准差。很多算法，例如SVM, K-近邻、Logistic回归，要求特征标准化。再如主成分分析，如果一个成分，例如人的身高，变异小于另...

2020-02-22 22:20:19 841

原创数据预处理第4讲：缺失值填补

论文合作、课题指导请联系QQ2279055353很多真实的数据集包括缺失值，这些缺失项通常编码为空，NaN, 或其它占位符。对待含缺失值的数据集，常见的处理办法是去掉缺失项所在的整行或整列。然而，这种办法的代价是失去了可能有信息的观测或变量。这样，一种更好的策略是填补缺失值，即，根据数据的已知部分，用特定的值代替它们。下面，我们介绍常用的缺失值填补方法。单特征填补单特征填补，是用缺失项所...

2020-02-17 11:43:39 2988

原创数据预处理第3讲：归一化与离散化

论文合作、课题指导请联系QQ2279055353归一化归一化(Normalization), 是将逐个样本缩放成单位范数(方差)的过程。归一化过程对于平方的形式，例如点积，或者量化成对样本的核函数时是有用的。Python函数normalize()提供了一种快速简单的归一化操作，主要使用L1, L2范数。例子模块preprocessing进一步提供了实用类Normalizer, 使用T...

2020-02-12 13:18:34 1819

原创数据预处理第2讲：非线性变换

论文合作、课题指导请联系QQ2279055353通常有两种类型的非线性变换：分位数变换、幂变换。这两种变换都是单调变换，这样，保证了变换前后的秩关系是一致的。分位数变换假设特征 XXX, 累积分布 F(X)F(X)F(X), 所有特征的共同输出分布 GGG. 分位数变换将所有特征变换到相同的分布，根据 G−1(F(X))G^{-1}(F(X))G−1(F(X)), G−1G^{-1}G−...

2020-02-03 12:21:33 2833

原创数据预处理第1讲：标准化

论文合作、课题指导请联系QQ2279055353数据预处理，是指在使用学习算法分析数据之前，对原始数据集作适当的变换，使得变换后的数据更适合学习算法。一般的机器学习算法要求对数据集做标准化的预处理。在实际处理时，我们经常忽略数据的分布形状，而只是对数据作中心化变换，即，...

2020-01-11 11:31:45 943

原创 GEO基因芯片数据处理精华（一）：GEOquery包

合作研究请联系QQ 2279055353GEO(Gene Expression Omnibus)是NCBI(美国国家生物信息中心)下的基因表达数据库，包括各种各样的基因芯片检测技术得到的试验记录与平台信息。GEO是最具知名度的基因表达数据存储数据库，这些数据包括单通道和双通道的微阵列实验，测量对象包括mRNA, 基因组cDNA, 蛋白质冗余物，以及各种非阵列技术，例如，高通量测序技术。现在，...

2019-12-21 10:53:14 15922

原创如何编码类别变量

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq2279055353）什么是类别变量？一个类别变量，是仅取几个值的变量，其中的每个值描述某一属性。例如，考虑一项关于吃早餐频率的调查。提供四个选项：Never, Rarely, Most days, Every day.调查私家车的品牌：Honda, Toyota, and Ford.当你建立一个机器学习模型的时...

2019-10-13 19:32:39 2186

原创【颅内出血识别问题】数据分析与可视化

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）案例介绍颅内出血(Intracranial Hemorrhage, ICH)，是一个严重的健康问题，需要快速而紧急的医疗处置。在美国，中风是第五大致死疾病，而大约有10%的中风患者伴有颅内出血。在治疗颅内出血时，识别出血类型与位置是关键的一步。当患者表现出急性神经症状时，例如，严重的头痛、意识丧失等，训练有...

2019-10-03 09:43:01 1820 3

原创【钢铁缺陷检测算法】数据探索

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）案例介绍钢铁是现代工业最重要的建筑材料之一。钢铁企业对生产的钢铁进行缺陷检查，是保证钢铁产品质量的重要环节。如今，钢铁企业使用高分辨率的平板钢铁图像，开发机器学习算法定位并分类钢铁表面的缺陷。数据描述本案例的任务是预测钢铁产品的缺陷类型和位置。钢铁的图像由唯一的ImageID标识。每张图像可以没有缺陷...

2019-09-22 09:46:34 1710

原创【Python小程序】第3讲：如何将json数据转换成csv格式？

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）JSON介绍JSON(JavaScript Object Notation)是一种轻量级的数据交换格式，方便人们阅读和编写。任何支持的数据类型都可以通过json来表示，例如字符串、数字、对象、数组等。但是对象和数组是比较特殊且常用的两种类型，其特点是：对象表示为键值对数据由逗号分隔花括号保...

2019-08-06 18:05:32 3619

原创【Python小程序】第2讲：如何将TXT文件转换成CSV文件？

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）下面这段Python代码，实现把空格分隔的纯文本文件Data.txt转换成逗号分隔的同名文件Data.csv.import csvwith open('Data.csv', 'w+',newline='') as csvfile: spamwriter = csv.writer(csvfile, ...

2019-07-29 11:22:07 3247 1

原创一个在线交易防欺诈模型

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）案例介绍IEEE-CIS(IEEE Computational Intelligence Society)在人工智能与机器学习的很多领域开展科研工作。目前，他们与全球领先的支付服务公司Vesta合作，针对金融欺诈预防行业，寻求最佳的解决方案。这个案例将建立基于电子商务数据的反欺诈模型，改善欺诈交易预警效率，...

2019-07-21 20:55:16 1683

原创有害评论识别问题：数据可视化与频率词云

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）案例介绍一项由谷歌发起的研究，使用机器学习技术识别在线谈话里的有害评论。这里的“有害评论”，是指任何粗鲁的(rude)、无礼的(disrespectful), 或者其它导致某人终止讨论的言谈。该案例将构建分类模型，识别有害评论，并且减少不需要的偏差。例如，一个特定的名字经常与有害评论联系，一些模型可能把出现...

2019-07-19 12:54:36 522

原创【Python小程序】第1讲：如何提取指定时间段的数据子集？

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）我们的训练营经常收到从事数据分析业务的朋友提出的编程问题，这些问题都是他们在实际业务处理中遇到的，具有普遍性。我们将解决问题的代码以【Python小程序】系列推出，提供给有类似问题的朋友在编程时参考。同时，欢迎朋友们提出编程问题，我们将帮助解决！编程问题数据文件data.npy是一个两行多列的numpy数...

2019-07-15 15:06:36 2670

原创【计算机视觉入门案例】手写数字识别：Keras深度学习库

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）案例介绍如果你对R或Python编程、机器学习技术有了一些经验，但是对“计算机视觉”领域是个新手，那么，本案例——“数字识别”，是入门该领域的经典案例。自从1999年公布以来，MNIST这个手写数字图像数据集就成为分类算法的经典数据集。本案例的任务是，从成千上万的手写数字图像里正确识别数字。我们将训练的技能...

2019-06-20 20:26:47 768

原创有监督的神经网络模型

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）多层感知器多层感知器(Multi-layer Perceptron, MLP)是一个有监督的学习算法，它通过训练一个数据集学习函数 f(⋅):Rm→Rof(\centerdot): R^m\rightarrow R^of(⋅):Rm→Ro, 这里， mmm 是输入维数，而 ooo 是输出维数。给定特征向量 ...

2019-06-05 16:42:38 2831

原创神经网络基础理论

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）神经网络是什么？神经网络(Neural Networks)专业术语，涵盖了一大类统计模型和学习算法。在这里，我们介绍最普遍使用的"vanilla"神经网络，有时也称单隐层后向传播网络，或者简称单层感知器(single layer perceptron).一个神经网络，简单地说，就是一个非线性统计模型。具体...

2019-06-04 08:14:22 3188

原创信贷违约风险评估模型（下篇）：机器学习模型

机器学习训练营——机器学习爱好者的自由交流空间（qq群号：696721295）机器学习模型Logistic回归模型作为一个基础模型，我们将使用scikit-learn库的LogisticRegression, 建立Logistic模型。为此，我们将使用所有的特征，我们也将填补缺失值，归一化特征。from sklearn.preprocessing import MinMaxScaler...

2019-04-24 19:05:18 9677 1

原创信贷违约风险评估模型（中篇）：特征工程

机器学习训练营——机器学习爱好者的自由交流空间（qq群号：696721295）特征工程特征工程，是根据数据集已有的特征，删除、加工产生新特征，从而改善模型的预测效果。著名的计算机科学家、人工智能与机器学习领域的领军人物吴恩达(Andrew Ng)有一句名言：“applied machine learning is basically feature engineering.” 具体上说，特...

2019-04-23 09:52:48 2894

原创信贷违约风险评估模型（上篇）：探索性数据分析

机器学习训练营——机器学习爱好者的自由交流空间（qq群号：696721295）案例介绍由于不良或缺少信用记录，很多人难以获得贷款。Home Credit是一家金融服务机构，致力于向无银行账户的人群提供积极且安全的借贷经历。Home Credit利用多种来源的数据，例如，电话费、消费交易信息，预测客户的偿还能力。本案例使用Home Credit提供的客户借贷历史数据，预测该申请人是否有能力还...

2019-04-22 21:25:26 10527 2

原创 Google专卖店顾客消费预测问题：如何将数据的json格式转换成csv格式

机器学习训练营——机器学习爱好者的自由交流空间（qq群号：696721295）案例介绍商界普遍存在"80/20"原则——20%的顾客产生80%的消费。在这个案例里，我们将根据Google专卖店顾客消费数据集，预测每位顾客的消费金额。数据描述该案例包括训练集train_v2.csv和检验集test_v2.csv.train_v2.csv: 包括从2016.8.1——2018.4.3...

2019-04-18 11:28:42 396

原创商品类别推荐系统：LightGBM模型

机器学习训练营——机器学习爱好者的自由交流空间（qq群号：696721295）案例介绍Elo是巴西最大的信用卡支付机构。目前，Elo与巴西的很多商家建立了合作关系，负责向持卡人提供商家的促销或打折信息。但是，这些促销活动对消费者或商家有用吗？引起消费者的兴趣了吗？商家接到“回头客”了吗？要实现这些目的，个性化推荐是关键！Elo已经开发了机器学习模型去理解顾客日常生活里最重要的方面与偏爱，从...

2019-04-13 20:50:13 3739 3

原创银行客户交易行为预测：LightGBM模型

机器学习训练营——机器学习爱好者的自由交流空间（qq群号：696721295）这是“银行客户交易行为预测”的第三篇文章，我们将建立LightGBM模型预测客户交易行为。结果的交叉验证分数显示，该模型预测效果比较理想。准备工作加载包import gcimport osimport loggingimport datetimeimport warningsimport numpy...

2019-03-30 11:41:03 3680 2

空空如也

空空如也