YU 峰-CSDN博客

原创 mevan的安装（idea版本，为springboot项目的准备）

mevan的安装idea版本（为springboot项目的准备）这里不涉及安装jdk1.8和idea官网下载mean注意版本mean 3.6以上的和idea2019版本不兼容，这一点巨坑，其他版本的兼容性我不知道https://maven.apache.org/download.cgi下载历史版本的话解压，在系统环境变量下配置下面是我的路径MAVEN_HOMED:\Program Files\Java\apache-maven-3.5.4-bin\apache-maven-3.5.4

2022-02-12 14:42:59 674

原创 kmp算法

kmp算法本人理解敲出来的，有些长，如果想要理解请认真看完那么如何进行匹配呢，若文本串str1为aabaaaabaaf，模式串str2为aabaaf上面求出来aabaaf的next表为 010120指针 i = 0, j = 0 (i为文本串指针， j为模式串指针)如果想要搞懂一定要，一定要手写一下这个比较流程你会很清晰。c++代码稍后补出来...

2021-09-17 16:37:12 240

原创时间序列模型

关注我，可以代做这个博主写的非常细了(https://blog.csdn.net/qq_29831163/article/details/89440215?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161865557316780274118767%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=161865557316780274

2021-04-17 18:41:48 296

原创 R语言pca（Principal）

data <- data.frame( x1 = c(148,139,160,149,159,142,153,150,151,139,140 ,161,158,140,137,152,149,145,160,156,151,147, 157,147,157,151,144,141,139,148), x2 = c(41,34,49,36,45,31,43,43,42,31,29,47,49,33

2021-04-12 17:30:41 2281

原创 R语言主成分分析

主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。是一种降维技术，把多个变量化为能够反映原始变量大部分信息的少数几个主成分。设X有p个变量，为n*p阶矩阵，即n个样本的p维向量。首先对X的p个变量寻找正规化线性组合，使它的方差达到最大，这个新的变量称为第一主成分，抽取第一主成分后，第二主成分的抽取方法与第一主成分一样，依次类推，直到各主成分累积方差达到总方差的一定比

2021-04-12 17:21:47 1199

原创 pandas异常值检测与处理

关注公众号FF工作室，回复pandas异常值检测与处理，获取数据1、异常值检测1.1、标准差法outlier>x¯+nσ或outlier<x¯−nσx¯ 为样本均值， σ 为样本标准差当n=2时，满足条件的观测值就为异常值，当n=3时满足条件的观测就是极端异常值1.2、箱线图法outlier>\Q3+nIQR或outlier<\Q1−nIQR\Q3 为上四分位数（75%）， \Q1 为下四分位数（25%）， IQR 为上四分位与下四分位的差当n=1.5时，满足条件

2021-04-12 16:07:20 7270 2

原创 pandas数据缺失值处理

pandas数据缺失值处理import pandas as pdfrom numpy import NaNimport numpy as npdf = pd.DataFrame([[1,None,NaN],[1,1,NaN],[NaN,None,NaN],[0,None,NaN]])print(df,"\n")#判断是否是空值，缺失值（None空值，NaN缺失值）,在是的位置上打上True，否则打上Falseprint(df.isnull(),"\n")# axis默认值为0表示行，1为列

2021-04-11 11:45:03 309

原创 R语言叠状图

# 绘图包、数据清洗、表格宽转长library(ggplot2)library(tidyverse)library(reshape2)# 读生一个测试数据宽表格df=data.frame( Phylum=c("Ruminococcaceae","Bacteroidaceae","Eubacteriaceae","Lachnospiraceae","Porphyromonadaceae"), GroupA=c(37.7397,31.34317,222.08827,5.08956,3.739

2021-03-27 11:43:03 396

原创 CentOS7安装selenium并配置火狐与驱动

1、安装python，请查看我上一篇博客2、安装火狐 firefoxsudo yum install firefox3、安装火狐驱动https://github.com/mozilla/geckodriver/releases下载最新的geckodriver将 geckodriver-v0.23.0-linux64.tar.gz 移动到linux环境下，并解压。tar -zxvf geckodriver-v0.23.0-linux64.tar.gz将其加入环境变量mv geckodriver

2021-03-01 16:37:18 1097 1

原创 linux centos7安装python3

测试ping www.baidu.com换到root[root@localhost ybfsir]# yum update -y如果遇到被占用执行 rm -f /var/run/yum.pid ，然后再yum update -y[root@localhost ybfsir]# yum -y install \zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel

2021-01-29 15:15:57 92

原创 python绘图

1、新建画布绘制图表创建子图选中子图1、新建画布import matplotlib.pyplot as plt#新建画布，figsize：用于设置画布的尺寸，facecolor：背景颜色,edgecolor：用于显示边框颜色。plt.figure(num ="画布的title",figsize = [5,5],facecolor = "blue", edgecolor = "red")#显示画布plt.show()1.1、绘制图表import matplotlib.pyplot a

2020-10-24 09:43:16 259

原创 R语言直方图、概率密度图、散点图、箱线图函数和表示。

直方图、概率密度图、散点图、箱线图函数和表示。直方图概率密度图散点图箱线图

2020-09-23 09:07:53 1874

原创 pandas使用

Series是一个类似一维数组的对象，主要由一组数据和与之相关的索引两部分构成，如果创建时没有指定索引参数，则默认会创建一个从0-N的整数索引。import pandas as pd# 创建Series三种方法如下，索引为默认从0开始,输出类似于列表输出对象名[索引即可]或者对象名[下标0 1......]，# 但是当索引是字符串与数字时，输出只能使用对象[具体索引]，但是当为字符串或者数字一种时两种输出都可以# 索引以及向量的内容可以使数值也可以是是字符串ser_ob = pd.Serie

2020-09-18 11:03:34 100

原创 R语言（创建矩阵，矩阵的运算，数据包的使用，读取文件）

数据包使用data()#显示R语言自带的数据包 datasetslibrary(datasets)#加载datasets数据包data(package="mtcars")#加载完成后才可以调用，调用mtcars数据包矩阵的运算x1 <- c(1:20) #创建一个向量，无特殊说明向量都是列向量，x1为（1,2...20）x2 <- c(2:21) #创建一个向量x_t <- t(x1) #矩阵的转置，这里是向量的转置A <- matrix(x1, nrow=

2020-09-16 15:44:42 2346

原创数据标准化（sklearn.preprocessing.scale）

数据标准化（sklearn.preprocessing.scale）preprocessing.scale（x）公式：(X-X_mean)/X_stdX_mean : 表示均值（某一个自变量的全部数据的平均值）X_std : 表示方差（某一个自变量的全部数据的方差）本质是一种标准化的方法...

2020-09-08 20:17:44 2429

原创 python交叉验证（cross_validation.train_test_split）

二、将数据分为训练，测试集进行交叉验证使用训练集进行训练，在用测试集验证训练结果是否正确，通过这个方法验证数据X_train,X_test,y_train,y_test=cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)避免数据拟合#该方法将原始数据打乱得到新顺序的训练数据和测试数据（将数组或矩阵随机拆分成训练子集和测试子集）X_train，y_train：得到的训练数据

2020-09-08 20:02:45 2639

原创 python使用sklearn实现一元线性回归

python使用sklearn实现一元线性回归（sklearn.linear_model.LinearRegression()）from sklearn import linear_modelimport numpy as npx = np.array([[12],[5],[7],[8]])y = np.array([24,10,14,16])lm = linear_model.LinearRegression()# 拟合模型lm.fit(x,y)print(lm.predict([[30

2020-09-08 19:58:19 2831

原创神经网络构建

神经网络构建下面是我构建的一个简单的神经网络，用于我记笔记，原理如图import tensorflow as tfimport numpy as npimport pandas as pdfrom matplotlib import pyplot as pltdef sigmoid(x): # 第一层到第二层的激活函数 return 1 / (1 + np.exp(-x))def deriv_sigmoid(x): # 第一层到第二层的激活函数的求导函数

2020-07-23 20:27:07 418

原创机器学习——数据的标准化

机器学习——数据的标准化神经网络在处理数据，建立模型时候如果不进行标准化（归一化）会导致误差特别大，而且神经网络的输出值通常介于[-1， 1]。当你想让神经网络输出在[0,255]这种自定义的区间内，那么在神经网络训练的初期会变得极其不稳定。所以需要对数据进行标准化（归一化），那么输出结果就可以进行反标准化（归一化），就是数学推导将标准化结果反过来即可。标准化可分成三种：对标签值和特征值一起标准化对标签值标准化，特征值不变对标签值和特征值分别进行标准化（两类数据标准化使用方法可以

2020-07-09 14:47:26 1765 1

原创定义一个神经网络

定义一个神经网络如何定义一个神经网络的层import tensorflow as tfdef add_layer(inputs,in_size,out_size,activation_funcution=None): #定义一个层，其中inputs为当前层的输入，in_size为上一层神经元数，out_size为该层神经元个数 #activation_funcution为激励函数 weights = tf.Variable(tf.random_normal([in_size,

2020-06-24 21:17:26 430

原创 TensorFlow常见API

TensorFlow常见API官网:https://tensorflow.google.cn/versions/r1.15/api_docs/python/tf中文:http://www.tensorfly.cn/tfdoc/api_docs/SOURCE/tutorials/overview.html

2020-06-24 15:13:04 249

原创神经网络基础

神经网络基础核心概念Data Flow Graph数据流图该图片为数据流图，表示输入s1和s2，进行s3 = s1*s2，s4 = s1+s2然后输出到下一层，完成s4+s3在这里面只是将计算方式进行了定义，并没有进行一个执行，也就是计算的定义和执行是分开的而TensorFlow运行时候就是以数据流图来实现的计算图import tensorflow as tf'''在即将到来的TensorFlow2.0中将对部分机制做出重大调整，其中之一就是将原有的静态图机制调整为动态图机制，这将使得

2020-06-24 15:03:26 131

原创 DBSCAN算法

DBSCAN算法是基于密度进行聚类的，根基任何画出指定的半径园，是否满足minpts判断是不是核心对象，可以不用事先指定簇，可以分出形状核心对象: 若某个点的密度达到算法设定的值视为核心点（即r邻域内点的数量不小于minPts）E-邻域距离阈值: 设定的半径直接密度可达: p在q的r的邻域内（p在以q点设定半径下的圆内，则称p-q直接密度可达）密度可达: 若p-q直接密度可达，f-p直接...

2020-05-01 11:53:52 982

原创 K近邻分类器——kNN

K近邻分类器kNN原理：对于一个给定的训练集，我们知道训练样本中的每组数据特征及其分类标签。然后输入没有标签的新数据，将新数据的每个特征与训练集中的每个特征进行比较，选取特征最相似（最近邻：k=1）的分类标签，一般来说，我们只选取前 k 个最相似的分类标签，这也是 k-近邻算法中 k 的由来，通常 k 不超过 20。最后，选择 k 个数据中出现次数最多的分类标签作为新数据的分类结果。...

2020-04-17 11:57:20 820

原创聚类算法——KMeans算法（机器学习）

KMeans算法一、输入参数n_clusters：数据集将被划分成 n_clusters个‘簇’即k值以及（int, optional, default: 8）。一般需要选取多个k值进行运算，并用评估标准判断所选k值的好坏，以获得较好的聚类效果。max_iter : 最大迭代次数（ int, default: 300）一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛...

2020-04-15 17:27:17 5358 1

原创 sklearn.impute.SimpleImputer 数据填充

数据缺失值补全方法sklearn.impute.SimpleImputerimp=SimpleImputer(missing_values=np.nan,strategy=’mean’)创建该类的对象，missing_values,也就是缺失值是什么，一般情况下缺失值当然就是空值啦，也就是np.nanstrategy:也就是你采取什么样的策略去填充空值，总共有4种选择。分别是mean,med...

2020-04-14 23:50:15 8748 2

原创 pandas库read_csv方法使用,及索引

pandas库read_csv方法使用及索引pd.read_csv(filename,seq=””,na_values=””,names=[],header=,nrows=,skip_footer=[x1,x2,……]……)与read_table()参数一样，只不过read_csv默认seq=”,”用逗号进行分隔，table的seq默认为\n可自定义改变seq值常用参数:a) names...

2020-04-13 14:43:29 5575

原创 Numpy库常用方法（创建、加减乘除、拼接等）

Numpy库常用方法（创建、加减乘除、拼接等）np.arange(x1,x2,x3)生成一维数组，数组内容为x1到x2-1的按照x3步数增加的数x.reshape(x1,x2)#x为数组，将x变为x1*x2的矩阵（二维数组），若x的长度不够则会报错import numpy as np#from sklearn.impute import SimpleImputer#1. np.ar...

2020-04-11 07:49:49 1209

原创 python的Numpy库数组基础结构

python的Numpy库基础X为数组，对X内的数据进行判断返回boolean值作为一个新数组Y。第一个输出将X每一列变成 True,False,False即第二个输出将X序号为1和2的行变换成True,False，False即Numpy库NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，python本事就携带了列表这个数据结构，与java的多维数组不同，...

2020-04-09 22:53:29 432

stusss的博客