Mystics_-CSDN博客

原创 Task04：快来一起挖掘幸福感--阿里云天池

赛题背景在社会科学领域，幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话题复杂而有趣；同时与大家生活息息相关，每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性，生活中是不是将多一些乐趣；如果能找到影响幸福感的政策因素，便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地，主要采用了线性回归和逻辑回归的方法，在收入、健康、职业、社交关系、休闲方式等经济人口因素；以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现

2020-12-24 16:48:10 424 1

原创 Task03：K近邻的实践2--阿里云天池

马绞痛：KNN数据预处理+KNN分类：# 下载需要用到的数据集!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/3K/horse-colic.csv# 下载数据集介绍!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/3K/horse-colic.namesimport numpy as npimport pandas as pd# kNN分类器fr

2020-12-23 15:17:13 103

原创 Task03：K近邻的实践1--阿里云天池

分类鸢尾花图片：#Demo来自sklearn官网import numpy as npimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsRegressornp.random.seed(0)# 随机生成40个(0, 1)之前的数，乘以5，再进行升序X = np.sort(5 * np.random.rand(40, 1), axis=0)# 创建[0, 5]之间的500个数的等差数列, 作为测试数据T

2020-12-22 14:52:52 97

原创 Task03：K近邻的理论--阿里云天池

K-Nearest Neighbor分类算法(KNN)是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是，在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN 算法本身简单有效，它是一种 lazy-learning 算法，分类器不需要使用训练集进行训练，训练时间复杂度为0。KNN 分类的

2020-12-21 15:18:18 171

原创 Task02：朴素贝叶斯的实践2--阿里云天池

1.库函数导入import randomimport numpy as np# 使用基于类目特征的朴素贝叶斯from sklearn.naive_bayes import CategoricalNBfrom sklearn.model_selection import train_test_split2.数据导入&分析# 模拟数据rng = np.random.RandomState(1)# 随机生成600个100维的数据，每一维的特征都是[0, 4]之前的整数X = rng.

2020-12-20 14:24:52 80

原创 Task02：朴素贝叶斯的实践1--阿里云天池

1.库函数导入import warningswarnings.filterwarnings('ignore')import numpy as np# 加载莺尾花数据集from sklearn import datasets# 导入高斯朴素贝叶斯分类器from sklearn.naive_bayes import GaussianNBfrom sklearn.model_selection import train_test_split2.数据导入X, y = datasets.load

2020-12-19 15:29:49 87 1

原创 Task02：朴素贝叶斯的理论--阿里云天池

朴素贝叶斯算法是应用最为广泛的分类算法之一。朴素贝叶斯算法是在贝叶斯算法的基础上进行了相应的简化，即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重，也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果，但是在实际的应用场景中，极大地简化了贝叶斯方法的复杂性。而贝叶斯方法是以贝叶斯原理为基础，使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础，贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点

2020-12-18 15:57:30 127

原创 Task01：逻辑回归的实战--阿里云天池

1.库函数导入## 基础函数库import numpy as np import pandas as pd## 绘图函数库import matplotlib.pyplot as pltimport seaborn as sns2.读取数据## 我们利用 sklearn 中自带的 iris 数据作为数据载入，并利用Pandas转化为DataFrame格式from sklearn.datasets import load_irisdata = load_iris() #得到数据特征i

2020-12-17 15:11:53 122

原创 Task01：逻辑回归的DEMO--阿里云天池

Demo1.库函数导入import numpy as np import matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.linear_model import LogisticRegression2.训练模型x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])y_labels = np.array([0, 0, 0, 1

2020-12-16 16:24:52 96

原创 Task01：逻辑回归的理论--阿里云天池

逻辑回归与线性回归同属监督学习的范畴，前者输出离散预测值而后者输出连续预测值，所以前者通常应用于分类问题。需要强调，线性回归通常并不适合解决分类问题。因为拟合结果受单一样本点尤其是极端样本点的影响过大，所以训练出来的线性函数往往很难适配训练集。故而对于分类问题我们才设计出了有别于线性回归的新算法，逻辑回归算法。逻辑回归本质上就是在线性回归的基础上增加了一层非线性运算，从而把对数据的线性拟合转变为了非线性拟合，进而通过人为地附加判别阈值，完成对连续运算结果的离散化。施加在线性回归上的非线性函数即被称为逻

2020-12-15 19:28:23 65

Mystics_的博客