Prince Fei-CSDN博客

原创数据挖掘最后一周

1 遗传算法挑选杂交变异2 遗传设计3 可进化的硬件// 原本想认真地写一次笔记的，结果最后一章没讲什么比较有技术含量的东西`(*>﹏<*)′

2021-12-15 22:27:29 809

集成框架：集成多种算法一、Bagging：民主决议。如随机森林：对同一输入，取众数作为输出。优点：通用性好；自动划分测试集；不容易出现过拟合；超参数少一般只有树的数量…… 缺点：树太多时，空间复杂度高…… 二、Boosting：不断补充：专门处理前一个分类器效果差的样本。优点：对于基分类器要求低；分类器个数不会太多…… 缺点：过拟合现象严重…… AdaBoost优点：误差必然由上界；几乎不需要调参缺点：容易陷入局部最优解...

2021-12-02 13:48:29 730

原创数据挖掘第9周

1 TF-IDF算法Term Frequency：词条在文章中出现的频数Inverse Document Frequency：其余文章总数与词条在其文章中出现的频数之比，取对数 Multiple query words2 向量空间模型记词条在文章每行出现的布尔值向量则词条与之间的相关性可以表示为...

2021-11-25 12:50:13 497

原创数据挖掘第8周

Apriori算法平凡项集的非空子集都是平凡子集不平凡项集的超集一定都是不平凡集

2021-11-17 22:57:46 88

原创数据挖掘第7周

聚类（无监督分类）聚类算法K-Means：利用欧氏距离来判别数据之间的相似度，不断迭代，直至所有点离聚类中心的距离之和最近。优点：简单直观、高效；缺点：K值需要人为设定、初始点位置关键、对噪声敏感、不适合多分类问题。混合高斯模型：EM算法有点：必然收敛；缺点：依赖初始值。评价算法均方误差（优点：简单直观；缺点：聚类集数量之间差别很大或不是线性分类时，并不准确） Sihouette（轮廓系数）：类间距离与类内距离的相对大小，如果类间距离 > 类内距离，则说明聚类结果好，反之则不

2021-11-04 13:09:16 58

原创数据挖掘第6周

SVM（Support Vectors Machine）仿射超平面：在n维空间中，自由度为(n-1)的一个“面”。在二维平面中，超平面是一条线；三维空间中，超平面是一个面；当n>3时，超平面仅为纯粹的数学概念。在n维空间中，超平面定义为，其中均为n维列向量，。显然向量垂直与超平面。在机器学习中，超平面将两个不相交的凸集分开。显然满足这样条件的超平面在n维空间中有无数个，但是与两个凸集间隔最大的超平面只有一个。对于空间中任一点到超平面的距离，我们要求最大间隔，便要最大，经过一系列的化

2021-10-28 12:04:09 78

原创数据挖掘第5周

BP神经网络有一组输入数据，输入层到隐含层的权阵记为，偏置矩阵为，隐藏层的数据记为，隐藏层到输出层的权阵为，输出数据为，目标值（标签）为，代价函数为，激活函数为Sigmoid函数，其中则有其中，的初值都是我们任意设置的，所以必然会跟目标值产生误差，BP算法的关键就在于误差的反向传播，在此我们借助梯度下降法。我们知道，梯度方向是函数增长最快的方向，但是我们希望误差能收敛到最小值，所以需要沿着梯度的反方向不断收敛，即，其中为调整的步长，有经验来设置。而更新后的隐藏层到输出层的

2021-10-21 13:04:08 141

原创数据挖掘第3周

分类（有监督学习）一、朴素贝叶斯分类其中，事件分量在事件发生的条件下独立（条件独立）。在计算时，若训练集中没有分量时，此时，则所有含有分量的事件概率均为0。这显然是不合理的，没见过并不代表其不存在。为防止这种情况发生，在此引入了拉普拉斯平滑，对于的计算，使得其中表示训练集中分量出现的次数。经过拉普拉斯平滑处理后，在保证所有事件概率都位于0和1之间以及事件概率总和为1的条件下，对于训练集较少的情况，不会出现含有某一分量的事件概率都为0，而训练集较多时，对事件概率准确性的影响几乎为0

2021-10-06 16:08:06 90

原创数据挖掘第2周

数据预处理步骤数据清洗异常值与重复数据检测类型转换与采样数据描述与可视化注意：对于数据相关系数r=0时，表示的是两者没有线性相关，而不是不相关。特征选择主成分分析线性判断分析 ...

2021-09-30 11:50:01 61

原创数据挖掘第1周

一、大数据定义：指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。主要应用：公共安全、医疗健康、城市规划、移动应用、电子商务、定向市场营销、情感分析、设计网络、体育运动、吸引力挖掘……二、数据挖掘数据挖掘：自动从大量的、完整的和嘈杂的数据中自动地提取隐藏其中的有趣以及有用的模式。主要应用：商务智能三：数据挖掘技术——分类分类算法：决策树、KNN、神经网络、支持向量机器……主要...

2021-09-23 12:35:39 71

F_teenage_youth的博客