DRkite-CSDN博客

原创 Cassandra安装教程分享

2、以管理员身份在文件中添加Cassandra Apache文件（文件路径：/etc/yum.repos.d/cassandra.repo）2、二进制安装Tarball binary file（需重新编译）2、下载Cassandra二进制文件（本次下载版本为4.0）6、检查Cassandra状态，并连接数据库。如果你看到的日志为如下，那么Cassandra已安装完成。21x 对应 {21_版本}.。解压后的文件夹列表。3、RPM、Yum安装（推荐）

2023-07-05 22:38:01 827

原创机器学习 SVM感想

SVM向量机的机制可以理解为：支撑向量机如何解决“不适定问题呢”？SVM要找到一条泛化性比较好的决策边界，就是这条直线要离两个分类都尽可能的远，我们认为这样的决策边界就是好的。其中有，在线性可分问题中，对于样本点来说，存在一根直线可以将样本点划分，我们称之为Hard Margin SVM；但是（同样线性不可分），有时候会出现不那么完美，样本点会有一些噪声或者异常点，并不能完全分开。即没有一条直...

2020-05-03 23:38:05 298

原创 PCA预处理

PCA的作用将于在n维特征映射到k维上。对于多维度的数据，需要做到的目标是其中，var的值最大，使得数据之间的区分度较大，有更高的可区分度sklearn的PCA处理from sklearn.decomposition import PCA将高维度数据映射到低位并且保证映射后数据的高可用PCA操作，将原数据，映射到高维度在映射回低纬度降噪。...

2020-04-26 23:37:54 691

原创机器学习-决策树

决策树，可以被理解为将我们输入的特征按照数据的大小能够进行树一样的分类进行计算，能够实现分类或者回归计算。在较为正式的决策树介绍为：决策树表示给定特征条件下，类的条件概率分布，这个条件概率分布表示在特征空间的划分上，将特征空间根据各个特征值不断进行划分，就将特征空间分为了多个不相交的单元，在每个单元定义了一个类的概率分布，这样，这条由根节点到达叶节点的路径就成了一个条件概率分布。其中损失函...

2020-04-15 00:22:12 155

原创机器学习-预处理正则

sklearn中的pipeline可以将原始的数据生成相应的多项式特征，将多项式特征进行特征归一化处理，然后对数据进行线性回归。poly_reg = Pipeline([ ('poly', PolynomialFeatures(degree=2)), ('std_scale', StandardScaler()), ('lin_reg', LinearRegression(...

2020-04-05 23:49:48 87

原创梯度下降算法

机器学习，我们可以将他看作为一个函数，输入我们的当前数据，返回对应的数据，返回的数据可以是一个值，也可以是一个类别。梯度下降(Gradient Descent, GD)，不是一个机器学习算法，而是一种基于搜索的最优化方法。梯度下降(Gradient Descent, GD)优化算法，其作用是用来对原始模型的损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小。多元函数的导数(der...

2020-04-01 00:17:41 190

原创机器学习线性回归

线性回归，指的是方程式线性的，回归表示的是使用方程来模拟变量之间是如何关联的。关于回归，常用的损失函数为：0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。其中的最小二乘法就是将真实值与预测值的差值进行平方而后逐项相加。其中的多元线性回归更加符合我们的较多任务，就是对多个特征进行回归计算。...

2020-03-22 22:44:47 86

原创数据预处理

数据预处理中有：数据的归一化、数据的多维度划分。数据归一化为把所有的数据都映射到同一个尺度（量纲）上。常用的归一化为：最值归一化(normalization)、均值方差归一化(standardization)。KD树第一次接触。他的主要用处在于进行数据基于中值进行数据的多维度划分。常规的k-d tree的构建过程为：循环依序取数据点的各维度来作为切分维度，取...

2020-03-15 19:25:36 127

原创机器学习模型评分思考

评分结果的评分种类为：F1 Score、TPR、ROC曲线精准率（查准率）：预测值为1，且预测对了的比例，即：我们关注的那个事件，预测的有多准。召回率（查全率）：所有真实值为1的数据中，预测对了的个数，即：我们关注的那个事件真实的发生情况下，我们成功预测的比例是多少。F1 Score是精准率和召回率的调和平均值。TPR：预测为1，且预测对了的数量，占真实值为1的数据百分比。F...

2020-03-08 13:10:20 199

原创 KNN算法总结

kNN(k-NearestNeighbor)算法，也就是k最近邻算法。也在数据集中，认为每个样本可以用离他最距离近的k个邻居来代表。kNN算法流程如下：（其中计算距离的方式较多采用欧式距离）1、计算测试对象到训练集中每个对象的距离2、按照距离的远近排序3、选取与当前测试对象最近的k的训练对象，作为该测试对象的邻居4、统计这k个邻居的类别频次5、k个邻居里频次最高的类别，即为...

2020-02-29 15:34:11 229

原创 pytorch 卷积神经网络

卷积运算填充操作多通道输入1X1卷积层1X1卷积层的优势在于：全连接层相比1X1卷积层缺少了对对应元素的周边元素进行提取的能力。池化层：能够提取数据的最大值，减少数据计算量...

2020-02-18 20:47:51 90

原创 pytorch 初步学习-task1学习笔记

模型的各部分顺序：数据集处理、数据读取、初始化模型参数、定义模型、定义损失函数、定义优化函数、训练一、线性回归torch中可以使用的三种线性回归的方式# ways to init a multilayer network# method onenet = nn.Sequential( nn.Linear(num_inputs, 1) # other layers ...

2020-02-14 20:15:21 115

4_模型选择.ipynb

4_模型选择.ipynb 数据分析机器学习如何选择模型 lgboost，xgboost,lr lgboost，xgboost,lr lgboost，xgboost,lr

2020-01-14

3_特征工程.ipynb

3_特征工程.ipynb，房租预测特征工程.ipynb，房租预测特征工程.ipynb----------------------房租预测

2020-01-10

2_数据清洗.ipynb

2_数据清洗.ipynb。2_数据清洗.ipynb 数据竞赛（房租预测），，数据竞赛（房租预测）初学者使用，初学者使用

2020-01-09

1_赛题分析.ipynb

房租预测EDA python,数据分析的前置步骤，了解数据对于数据的分布做一个分析，aaaaaaaaaaaaaaaaaaaa

2020-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人