Hayden112-CSDN博客

原创错误集合_20220131

文章目录错误集合_20210131[shell脚本遇到问题"\r': command not found"](https://www.cnblogs.com/bugutian/p/11492157.html)bash: dos2unix: command not foundconcurrent_log_handler shutdown close()wins10安装 ConcurrentRotatingFileHandler日志处理包报错py4j.protocol.Py4JError:Py4JJavaErr

2022-02-09 18:01:39 2694

原创 to_csv&read_csv&isnull&isnan&isna

文章目录dataframe保存到csv读取csv到dataframe带index保存不带index保存parquetisnull、isnan、isna的用法import numpy as npimport pandas as pddataframe保存到csvdf.to_csv(path_or_buf,sep,na_rep,columns,header,index)参数解析path_or_buf：字符串，放文件名、相对路径、文件流等；sep：字符串，分隔符，跟read_csv()

2022-02-09 18:00:29 345

原创 python知识点总结_20211231

文章目录导入包查看安装包版本sys.pathsys.argvargparsesys.argv与argparsemakedirs(exist_ok)新建文件夹列表\*args或者字典\**kwargs参数解压collections.dequefiltermaplambdarjust列表元素字符转整形给对应资产添加其权重numpyappendlist appendarray appendunique&splitunique(return_index)split分位数percentile&quan

2022-02-09 17:58:38 376

原创 LSTM入门

文章目录LSTM入门LSTM原理与应用及训练方法Sequence PredictionSequence Classification.Sequence Generation.Sequence-to-Sequence Prediction.为LSTM准备数据Keras开发LSTM模型定义编译损失函数优化方法fit, evaluate and predictLSTM State ManagementExamples of Preparing DataKeras实现4种序列预测模型Natural Language

2021-12-01 17:24:43 1555

原创 python基础数据结构互转和2、8、10、16进制互转

文章目录字符串与元组、字典、列表互转元组与字符串互转（eval）字符串与字典字符串与列表互转十进制与二、八、十六进制互转十进制转二进制bin()十进制转八进制oct()十进制转十六进制hex()其他各进制数转10进制int(str_num,base)字符串与元组、字典、列表互转元组与字符串互转（eval）tt1 = (1,0,1)print (type(tt1))<class 'tuple'>ss1 = str(tt1)print (type(ss1))ss1<cl

2021-11-12 10:31:17 753

原创 Python基础----Matplotlib_新增

#忽略一些版本不兼容等警告import warningswarnings.filterwarnings("ignore")Matplotlibplot简单示例import numpy as np from matplotlib import pyplot as plt x = np.arange(1,11) y = 2 * x + 5 plt.title("plt.plot(x,y,'ob')") plt.xlabel("x axis caption") plt.ylab

2021-09-26 16:55:21 571

原创 CNN_autoencoder_mnist

文章目录导入模型所用包加载数据加载fashion_mnist加载mnist数据预处理建立模型--CNN自编码模型编译和训练模型预测和效果查看提取压缩特征保存训练好的编码部分加载编码模型提取压缩特征用提取的压缩特征进行模型学习定义LGBLGB训练LGB预测多分类评估导入模型所用包示例来源链接：Convolutional Autoencoder: Clustering Images with Neural Networksimport numpy as npimport pandas as pdimp

2021-05-24 17:41:01 727

原创卷积神经网络_mnist

文章目录导入模型所用包加载数据加载fashion_mnist加载mnist数据预处理建立模型模型编译模型训练评估准确性做出预测验证预测多分类评估多分类混淆矩阵二分类混淆矩阵多分类召回率多分类准确率多分类正确率将数据与灰度值对应起来去除预测正确的对角线数据，查看混淆矩阵中的其他值导入模型所用包示例来源链接：使用TensorFlow2.0实现卷积神经网络CNN对MNIST数字分类import numpy as npimport pandas as pdimport tensorflow as tff

2021-05-24 17:25:15 437

原创简单神经网络_mnist

文章目录导入模型所用包加载数据加载fashion_mnist加载mnist数据预处理建立模型模型编译模型训练评估准确性做出预测验证预测多分类评估多分类混淆矩阵二分类混淆矩阵多分类召回率多分类准确率多分类正确率将数据与灰度值对应起来去除预测正确的对角线数据，查看混淆矩阵中的其他值导入模型所用包示例来源链接：TF2对Fashion Mnist进行分类import numpy as npimport pandas as pdimport tensorflow as tffrom tensorflow

2021-05-11 12:04:24 542 2

原创 Kmeans&DBSCAN

KmeansK-means定义均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）

2021-05-11 11:56:16 510

原创 LightGBM

文章目录LightGBMLigthGBM与XGBoost异同点LightGBM训练快和内存消耗小的原因LGBMClassifier参数泰坦尼克号乘客生存率分析模型训练特征重要性混淆矩阵交叉验证TopN网格搜索最佳参数Mnist 手写数字识别多分类评估LightGBMLigthGBM是boosting集合模型中的新进成员，由微软提供，它和XGBoost一样是对GBDT的高效实现，原理上它和GBDT及XGBoost类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。LigthGBM与

2021-03-24 18:00:08 853 5

原创 XGBoost

文章目录XGBoostXGBoost与GBDT异同点XGBoost公式推导XGBClassifier参数泰坦尼克号乘客生存率分析模型训练特征重要性混淆矩阵交叉验证TopN网格搜索最佳参数查看特征的正负样本分布XGBoost网络实例XGBoostXGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost，不得不提GBDT(Gradient Boosting Dec

2021-03-17 18:29:52 761

原创 Random Forest

文章目录随机森林基本概念数据的随机选取特征的随机选取RandomForestClassifier参数RandomForestClassifier属性混淆矩阵交叉验证网格搜索最佳参数查看特征的正负样本分布随机森林对决策树和集成学习有一定了解的基础上，再进一步理解随机森林采取的策略：样本数据、特征进行采样，训练的多棵决策树进行集成。基本概念来自百度百科根据下列算法而建造每棵树用N来表示训练用例（样本）的个数，M表示特征数目。输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。

2021-03-17 18:25:11 298

原创 Python去极值方法

文章目录MAD3σ法百分位法import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 构造测试数据mean = 0.6sigma = 1num = 3500np.random.seed(0)factor_data = np.random.normal(mean, sigma, num)factor_data = pd.Series(data=factor_data)factor_data.index =

2021-01-11 16:18:52 6094

原创 Random Forest

文章目录随机森林基本概念数据的随机选取待选特征的随机选取sklearn.ensemble.RandomForestClassifier参数sklearn.ensemble.RandomForestClassifier属性随机森林对决策树和集成学习有一定了解的基础上，再进一步理解随机森林采取的策略：样本数据、特征进行采样，训练的多棵决策树进行集成。基本概念来自百度百科根据下列算法而建造每棵树用N来表示训练用例（样本）的个数，M表示特征数目。输入特征数目m，用于确定决策树上一个节点的决策结果；其

2020-12-28 18:57:28 239

原创 File Operation

文章目录读文件 open(mode='r')一个python面试题的例子写文件 open(mode='w')JSON操作Pickle操作模式描述t文本模式 (默认)。x写模式，新建一个文件，如果该文件已存在则会报错。b二进制模式。+打开一个文件进行更新(可读可写)。U通用换行模式（不推荐）。r以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。rb以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式

2020-12-16 18:55:08 783

原创 Path Operation

文章目录getcwd()os.listdir(path)os.path.exists(path)chdir()mkdir()os.path.dirname(path)shutil.rmtree(path_test,True)os.makedirs(path[, mode])os.path.abspath(os.path.dirname('__file__'))os.path.split()os.path.splitext()os.rename()os.path.join(path1[, path2[, …]

2020-12-11 18:59:28 194

原创 argparse、glob、findall

1、argparse从 sys.argv 解析参数博客园：argparse引用博客园import argparsedef parse_args(): parse = argparse.ArgumentParser() parse.add_argument('--arg1',type=str,default='test') parse.add_argument('--arg2',type=str) args,_ = parse.parse_known_args()

2020-11-03 20:07:10 115

原创 argv、lambda、filter、map、reduce

sys.argvSys.argv[ ]其实就是一个列表，里边的项为用户输入的参数，关键就是要明白这参数是从程序外部输入的，而非代码本身的什么地方，要想看到它的效果就应该将程序保存了，从外部来运行程序并给出参数。输入：test.py what输出：[‘test.py’,‘what’]CSDN: sys.argvlambda博客园: lambdafilterfilter(function, iterable)菜鸟教程mapmap(function, iterable, …)菜鸟教程r

2020-10-30 18:30:59 182

原创混淆矩阵、召回率、精确率、正确率、F1、真阳性率、假阳性率、ROC、AUC

ConfusionMatrix:Confusion Matrix:ConfusionMatrix: 真实 1 0 预测 1 TP(命中) FP(虚报) 0 FN(漏报) TN(正确拒绝) 召回率Recall=TPTP+FNRecall = \dfra

2020-10-21 19:25:59 3108

原创孤立森林探究

import numpy as npimport pandas as pdimport seaborn as snsfrom sklearn.ensemble import IsolationForest一维特征孤立森林plt.figure(figsize=(8,6))a1 = 5*np.random.rand(200) + 25a2 = 10*np.random.rand(200) + 75plt.hist(a1)plt.hist(a2)plt.show();clf_isof

2020-10-16 18:03:59 178

原创低配置的电脑也可以装tensorflow2

1、下载Anaconda上面三步的链接，也是不错的tf2的学习资料，朋友推荐的，还在学习中。遇到的第一个问题：安装tensorflow2太慢了。那个稍等片刻，真的不是片刻，是很久很久。怎么解决呢？总不能直接卡在下载这一关吧！把pip install tensorflow换成pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple/，这样看进度条会爽很多。遇到的第二个问题：NotWritableError: The curre

2020-06-12 21:48:25 991

原创 1_统计学习方法概论

文章目录1.1 统计学习1.1.1 统计学习的特点1.1.2 统计学习的对象1.1.3 统计学习的目的1.1.4 统计学习的方法1.1.5 统计学习的研究1.1.6 统计学习的重要性1.2 监督学习1.2.1 基本概念1.2.1.1 输入空间、特征空间与输出空间1.2.1.2 联合概率分布1.2.1.3 假设空间1.2.2 问题的形式化1.3 统计学习三要素1.3.1 模型1.3.2 策略1.3....

2019-09-01 23:38:03 275

原创 12_统计学习方法总结

文章目录一、监督学习、分类方法、标注方法二、模型2.1 概率模型与非概率模型2.2 判别模型与生成模型2.3 模型特点2.4 部分模型之间的关系三、十大统计学习方法模型、策略与算法3.1 感知机3.2 KNN3.3 朴素贝叶斯法3.4 决策树3.5 逻辑斯蒂回归和最大熵模型3.5.1 逻辑斯蒂回归3.5.2 最大熵模型3.6 SVM3.7 提升方法（boosting）3.7.1 Adaboost3...

2019-08-29 00:51:55 256

原创 11_条件随机场CRF2_统计学习方法

文章目录三、条件随机场的概率计算问题3.1 前向-后向算法3.1.1 前向向量3.1.2 后向向量3.2 一些概率与期望值的计算3.2.1 单个状态概率3.2.2 两个状态的联合概率3.2.3 一些期望四、条件随机场的学习算法五、条件随机场的预测算法六、HMM与线性链条件随机场的比较模型策略方法条件随机场内容较多，方便阅读，分成2个部分上接：11_条件随机场CRF1_统计学习方法三、条件随机...

2019-08-21 01:52:09 358

原创 11_条件随机场CRF1_统计学习方法

文章目录一、条件随机场相关基本概念1.1 条件随机场1.2 马尔科夫随机场1.2.1 马尔科夫1.2.2 随机场1.3 概率无向图模型1.3.1 图（graph）1.3.2 无向图1.3.3 概率图模型（probablilistic graphical model）1.3.4 概率无向图模型1.4 成对马尔科夫性、局部马尔科夫性、全局马尔科夫性1.4.1 成对马尔科夫性1.4.2 局部马尔科夫性1...

2019-08-21 01:49:01 456

原创 10_隐马尔科夫模型HMM2_统计学习方法

文章目录四、学习算法1、监督学习方法2、非监督学习方法（Baum-Welch算法）五、预测算法1、近似算法2、维特比算法（1）最优路径特性（2）两个变量（3）维特比算法流程隐马尔科夫模型内容较多，方便阅读，分成2个部分上接：10_隐马尔科夫模型HMM1_统计学习方法四、学习算法估计模型λ=(A,B,Π)\lambda = (A,B,\Pi)λ=(A,B,Π)参数。隐马尔科夫模型的学习，根...

2019-08-12 21:54:15 222

原创 10_隐马尔科夫模型HMM1_统计学习方法

文章目录一、几个基本概念1、隐马尔可夫模型2、马尔科夫链3、随机过程4、马尔科夫性质二、隐马尔科夫模型1、隐马尔科夫模型的引入2、隐马尔科夫模型定义3、隐马尔科夫模型的两个假设4、观测序列的生成过程5、隐马尔科夫模型的3个基本问题三、概率计算算法1、直接计算法2、前向算法3、后向算法4、一些概率与期望值的计算（1）单个状态概率（2）两个状态的联合概率（3）一些期望四、学习算法1、监督学习方法2、非...

2019-08-12 21:50:20 367

原创 09_期望极大法EM2_统计学习方法

文章目录四、高斯混合模型GMM1、GMM与Adaboost比较2、GMM参数估计的EM算法（1）明确隐变量，写出完整数据的对数似然函数（2）EM算法的E步：确定Q函数（3）EM算法的M步（4）GMM参数估计的EM算法流程五、EM算法的推广1、F函数的极大极大算法（1）F函数定义（2）F函数第1次求极大（3）F函数第2次求极大2、GEM算法（1）GEM算法1（2）GEM算法2（3）GEM算法3EM...

2019-08-02 08:28:30 424

原创 09_期望极大法EM1_统计学习方法

文章目录一、EM算法的引入1、极大似然估计2、EM入场二、EM算法推导1、Jensen不等式2、EM推导过程（1）统计学习方法EM推导（2）Andrew NG关于EM算法的推导3、统计学习方法EM算法流程4、EM算法直观解释5、EM算法在非监督学习中的应用三、EM算法的收敛性四、高斯混合模型GMM1、GMM与Adaboost比较2、GMM参数估计的EM算法（1）明确隐变量，写出完整数据的对数似然函...

2019-08-02 08:21:30 308

原创 20190720学习小结

先看课本，看不懂，然后找很多博客看，有些博客某些点上讲的很好很容易理解，看多了合在一起就有个整体的认识，再回头看李航的统计学习方法发现还是挺好的，课本和博客相比就是它更具有严谨性，所以能参照课本的就尽可能用课本的知识点来总结。为了便于理解，需要补充一些知识点或者解释下课本知识点。这些工作如果做完了还是不能整体理解算法，那么可以直接开始做总结，按课本的框架走，走到哪遇到问题理解不了，停下来找资料学习...

2019-07-20 10:15:38 94

原创 08_提升方法Boosting2_统计学习方法

文章目录三、GBDT算法1、提升树算法（1）算法三要素（2）GBDT与AdaBoost区别2、平方损失的提升树3、梯度提升树(Gradient Boosting Decison Tree，简称GBDT)（1）GBDT回归算法（2）GBDT常用损失函数1）、指数函数损失2）、对数函数损失3）、平方损失4）、绝对损失5）、Huber损失6）、分位数损失（3）GBDT的正则化（4）GBDT的优缺点4、平...

2019-07-19 13:09:19 226

原创 08_提升方法Boosting1_统计学习方法

文章目录一、Boosting和集成学习介绍二、AdaBoost1、AdaBoost算法（1）AdaBoost算法的三要素（2）AdaBoost模型定义（3）AdaBoost损失函数定义（4）AdaBoost采用指数损失的原因（5）第m轮的最优求解1）求最优G_m2）求最优α_m3）更新训练数据集的权值分布（6）AdaBoost正则化 (Regularization)2、AdaBoost二元分类问题...

2019-07-19 13:02:25 329

原创 07_支持向量机3_统计学习方法

文章目录五、SMO算法1、两个变量二次规划的求解方法（1）定义子问题（2）确定变量范围（3）最优求解（4）计算阈值b和差值E2、变量的选择方法（1）第1个变量的选择（2）第2个变量的选择3、SMO算法支持向量机内容特别多，为了方便阅读，分成三个部分，上接：07_支持向量机1_统计学习方法07_支持向量机2_统计学习方法。五、SMO算法KKT条件中的（k4）（k5）还没有使用过，这两个条件...

2019-07-14 13:08:33 240 1

原创 07_支持向量机2_统计学习方法

文章目录四、非线性支持向量机与核函数1、非线性支持向量机的优化问题2、核函数K(x,z)（1）半正定矩阵（2）核函数方法实施步骤3、常用的核函数4、非线性支持向量机学习算法支持向量机内容特别多，为了方便阅读，分成三个部分，上接07_支持向量机1_统计学习方法。四、非线性支持向量机与核函数线性支持向量机最终优化的问题：min⁡α 12∑i=1N∑j=1Nαiαjyiyj...

2019-07-14 13:02:43 183

原创 07_支持向量机1_统计学习方法

文章目录一、支持向量机的介绍二、支持向量机模型1、何为分类间隔（1）函数间隔（2）几何间隔2、分类间隔最大化3、支持向量机中涉及的数学知识（1）凸函数（2）常见最优化问题（3）拉格朗日函数（4）KKT条件（5）拉格朗日对偶性（6）对偶问题4、线性可分支持向量机的优化5、线性可分支持向量机对偶问题的求解（1）求解对偶问题的内层（2）求解对偶问题的外层三、线性支持向量机1、线性支持向量机目标函数2、拉...

2019-07-14 11:36:24 270

原创 06_LR和最大熵模型_统计学习方法

文章目录一、理解LR模型1、对数几率2、函数映射3、概率解释二、LR模型参数估计梯度下降求解最优参数多项逻辑斯谛回归（multi-nominal logistic regression model）softmax三、最大熵模型1、最大熵原理2、最大熵模型的定义3、最大熵模型的学习4、LR、softmax和最大熵模型之间的关系5、最大熵模型和决策树模型的比对分析四、模型学习的最优化方法1、改进的迭...

2019-07-09 09:09:56 809

原创 05_DecisionTree_统计学习方法

文章目录决策树一、特征选择：1、信息增益2、信息增益比3、GiniIndex4、使用平方误差最小化准则进行单元划分二、决策树的生成1、ID3算法2、C4.5算法3、CART分类树的生成4、CART回归树的生成三、决策树的剪枝1、ID3和C4.5使用的剪枝方法2、CART使用的剪枝方法（1）计算局部损失函数（2）计算整棵树损失函数四、三种决策树算法比较1、决策树的优点和缺点2、ID33、C4.54、...

2019-07-05 09:54:36 245

原创 04_NaiveBayes_统计学习方法

一、贝叶斯定理：P(A∣B)=P(A)P(B∣A)P(B)P(A|B) = P(A)\frac {P(B|A)}{P(B)}P(A∣B)=P(A)P(B)P(B∣A)P(A∣B)P(A|B)P(A∣B) ：B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率P(A)P(A)P(A) ：先验概率P(B∣A)P(B|A)P(B∣A) ：A发生后B的条件概率，也由于得自A的取值而被称...

2019-07-01 22:41:54 210

原创 03_KNN_统计学习方法

K近邻法也即KNN(k-NearestNeighbor)，是一种基本的分类和回归方法，与感知机不一样，感知机是二分类，KNN可以多分类。算法核心：如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。知识点梳理：a、模型：y=arg maxcj∑xi∈Nk(x) I(yi=Cj) ...

2019-06-28 22:22:48 316

空空如也

空空如也