UP Lee-CSDN博客

原创 tushare pro的token凭证码设置

1、首先需要注册新用户可以点击邀请链接注册：https://tushare.pro/register?reg=3481322、从头像上点击用户名，打开个人主页；3、，点击接口token，点击右边纸张图标，复制；4、在python中进行如下操作即可：token=‘你复制下来的token’ts.set_token(token)pro=ts.pro_api()df =...

2020-02-06 20:56:10 2493 1

原创 7、python多种方式进行成单回归预测

多种方案成单预测比较 1 背景和挖掘目标基于关键的业务指标进行成单预测，对影响成单的因子了解2 分析步骤01 基于关键特征数据底表的分组处理02 关于机会、名片表的处理基于业务逻辑或者数据表现进行分组，查看03 处理成单跨期导致的名片-成单的数据对应问题04 观察各关键指标对结果的影响大小，并选择有显著影响的特征05 利用均值原理计算成单06 Seque...

2019-01-04 16:40:12 797

原创 28、python强化学习、持续学习

1、持久化（Persistence）持久化是程序开发中的专业术语，是指将程序数据在持久化状态和瞬时状态间转换的机制保存模型恢复模型 2、模型持久化方法sklearn.exeternals.joblib.dump(model,filePath) 保存模型model 内存中的模型对象filePath 需要保存的文件路径model=s...

2019-01-04 16:04:01 1050

原创 7、与神经网络学习相关的参数（SGD、adam等）

1 参数的更新四种方法：见图01 随机梯度下降法：SGD使用参数的梯度，沿着梯度方向更新参数，并且重复这个步骤多次，从而逐渐靠近最优参数，这个过程称为随机梯度下降法 # 源代码class SGD： def _init_(self,lr=0.01): self.lr=lr def update(self,para...

2019-01-04 13:51:52 1467

原创 6、MNIST数据分类（详细函数代码）

1、MNIST数据训练要点手写数字识别：01 像素：28*28=78402 标签：神经网络对图像进行分类，分配正确的标签，这些标签是0到9共10个数字中的一个，这意味着神经网络有10个输出层节点，每个节点对应一个可能得答案或标签，如果答案是“0”，输出吃呢个第一个节点激发而其余的输出节点则保持抑制状态。03 输出：试图让神经网络生成0和1的输出，对于激活函数而言是不可能的，这回导致...

2019-01-04 13:33:10 1195

原创 5、keras神经网络，Sequential序贯模型（二分类、多分类）

1 Sequential参数model = Sequential() model.add(Dense(32, input_dim=78))解释：Sequential 的第一个关于输入数据shape的参数，后边的各个层则可以自动推到出中间数据的shape01 传递一个input_shape的关键字参数给第一层，如果填入None则表示此位置可能是任何正整数。数据的batch大小不应...

2019-01-04 11:31:56 4668

原创 4、简单的神经网络（MLP神经网络分类基础）

目录1、神经网络：（Artifical Neural Network）2、MLP简介3、MLP方法4、MLP简单的二分类代码案例1、神经网络：（Artifical Neural Network）全程为人工神经网络，是一种模仿生物神经网络（大脑）的结构和功能的数学模型或计算机模型生物神经细胞;神经细胞是构成神经系统的基本单元，称为生物神经元，简称神经元# 简单神经...

2019-01-04 11:10:32 11021 1

原创 3 神经网络基础（阶跃、sigmoid、relu激活函数的代码实现）

目录1、输入权重计算2、与门的实现3、非门的实现4、或门的实现5、感知机可以实现与、或、非门的逻辑 6、阶跃函数的实现7、sigmoid 函数的实现8、阶跃函数和sigmoid函数相比较9、ReLU函数1、输入权重计算import numpy as npx=np.array([0,1]) # s输入w=np.array([0.5,0.5...

2019-01-03 17:39:44 2626

原创 2 简单的矩阵运算基础知识

AB矩阵相乘的结果AB矩阵的行：A的行数AB矩阵的列：B的列数所得结果行数为 numpy.dotnumpy.array() 这个是数组mat() 矩阵行数据1、数组&矩阵from numpy import * a1=[1,2,3] # 为list a1=[[1,2,3],[2,3,4]]01 一维数组 a2=mat(a1)...

2019-01-03 17:15:32 835

原创 27、python时间序列预测（ARIMA模型案例代码）

目录1、模型识别01 主要的模型02 截尾和拖尾03 如何判断拖尾和截尾2、时间序列算法公式3、详细步骤01 平稳性检验（adf检验）02 对数据进行差分构造平稳序列03 平稳性监测04 白噪声检验05 定阶06 模型预测4、案例代码1、模型识别01 主要的模型AR（P）模型（Autoregressive Model）自回...

2019-01-03 15:07:43 29053 20

原创 26、python密度聚类方法（DBSCAN密度聚类）

1、DBSCAN概念基于密度的带噪声的空间聚类应用算法，它是将簇定义为密度相连的点的大集合，能够把足够高密度的区域划分为簇，并且可在噪声的空间数据集中发现任意形状的聚类。2、密度聚类和距离聚类密度聚类：只要临近区域的密度、对象、或者数据点的数目超过耨个阈值，就继续聚类，可以根据与周伟特点进行聚类kmeans和分层聚类都是基于距离进行聚类，只能发现球状的簇，五发现其他形式的簇...

2019-01-03 14:42:15 1771

原创 25、python分层聚类案例（sklearn方法）

1 sklearn层次聚类01 ward 最小化所有聚类内的平方差总和，这是一种方差最小化的优化方向，这是与k-means的目标韩式相似的优化方法，但是用聚类分层的方法处理。02 Maximum 或者complete linkage 最小化聚类对样本之间的最大距离03 Average linkage 最小化聚类两个聚类中样本之间的最大距离 2 案例...

2019-01-03 14:34:38 7343 2

原创 24、python分层聚类案例（scipy方法）

目录1、分层聚类算法2、方法3、分析步骤4、案例1、分层聚类算法层次聚类算法又称为树聚类算法，它根据数据之间的距离，透过一种层次架构方式，反复将数据进行聚合，创建一个层次以分解给定的数据集。2、方法01 聚类方法linkage=scipy.cluster.hierarchy.linkage(data,method='single')data 训练...

2019-01-03 14:31:47 4576 1

原创 23、python协同过滤推荐案例代码

目录1、数据结构2、模型构建01 用户评分向量（User Rating Vector）02 商品评分向量（Item Rating Vector）03 距离计算（Distance）04 相似度计算（Similarity）05 相似邻居计算（Neighborhoods）3、调用方法4、基于人的协同过滤代码5、基于物品的系统过滤代码案例协同推荐（Collabo...

2018-12-19 19:16:11 1080 1

原创 7、Cannot broadcast operands together.

问题;：Cannot broadcast operands together. 不能一起广播操作数，数据维度不一样举例：数据维度不一样data_mean=data_train.mean()data_std=data_train.std()data_train=(data_train-data_mean)/data_stdValueError: Cannot broadca...

2018-12-19 14:56:51 1518

原创 6、ValueError: Wrong number of items passed 11, placement implies 1

1 问题：ValueError: Wrong number of items passed 11, placement implies 12 解释：表明你试图把太多维度的项数放在太少的项数里，本例子中是把11项数试图放在1项3 源代码：Mp['报名数']=pandas.merge( Mp, true, left_on='日期', ...

2018-12-18 15:33:00 41896 2

原创 22、python关联规则案例代码

1、关联：（Association）把两个或者两个以上在意义上，有密切联系的项组合在一起关联规则（Association Rules AR）用于从大量数据中挖掘出有价值的数据项之间的相关关系协同过滤（Collaborative Filtering，简称CF）协同过滤常常被用于分辨某位特定固定可能感兴趣的东西，这些结论来自于对其他相似顾客对哪些产品...

2018-12-17 11:04:48 9184 13

原创 21、python的K-means聚类分析方法案例代码

1、聚类分析是按照个体的特征将他们分类，让同一个类别内的个体之间具有较高的相似度，不同类别之间具有较大的差异性；2、基本理论Kmeans：K表示算法当中类的个数Means 均值算法：K-means 使用均值算法把数据分成k个类别的算法Kmeans算法：kmeans算法的目标，是把n个样本点划分到k个类中，使得每个点都属于离他最近的质心对应的类，以此作为聚类的标准质心：是指一...

2018-12-17 10:57:50 7163 9

原创 12、python特征工程内容介绍

目录1 特征工程重要性2 特征工程内容包括3 数据处理第一种、量纲不一第二种虚拟变量第三种缺失值处理特征工程（Feature Engineering）其本质上是一项工程活动，他目的是最大限度地从原始数据中提取特征以供算法和模型使用1 特征工程重要性 01 特征越好，灵活性越强（允许选择不复杂的模型，运行速度快，可以更好的理解和维护）...

2018-12-14 23:19:55 351

原创 20、Python特征工程，维度压缩

1 维度压缩主成分分析（rincipal components Analysis）在减少数据集的维度的同时，保持对方差贡献最大的特征2 PCA方法pca_3=PCA(n_components=3) 维度设置fit 训练数据data_pca_3=pca_3.fit_transform(data)3 代码案例事例import pandasfrom sklearn ...

2018-12-14 23:13:11 1052

原创 19、Python数据特征选择，模型选择法

1 模型选择法把建好的模型对象传入选择器，然后根据这个已经建好的模型，自动帮我们选择最好的特征值。2 案例代码import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data2.csv')# 导入线性回归方程和模型选择方法from sklearn.linear_model import L...

2018-12-14 23:09:56 1600

原创 18 python数据特征选择，递归特征消除法

1 递归特征消除法（RFE）使用一个基模型来进行多轮训练，经过多轮训练后，保留置顶的特征数RFE是recursive feature elimination回归特征消除，让回归特征消除过程中只保留no_features个最重要的特征，可以避免过度拟合，但RFE会舍弃一些变量，原没有下面几个方法给变量赋权重来的好。2 代码案例import pandasdata = pandas...

2018-12-14 19:06:50 8226 2

原创 17、Python特征工程，用相关系数法选择数据特征

1 相关系数法先计算各个特征对目标值得相关系数，选择更加相关的特征2 代码案例import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data2.csv')# 导热油特征选择的方法和相关系数的方法from sklearn.feature_selection import f_regression...

2018-12-14 15:31:27 8199

原创 16、python用方差方法选择数据特征

1 方差选择法先计算各个特征的方差，选择方差大于阈值的特征2 案例import pandasdata = pandas.read_csv('D:\\database\\pystudy\\6.2\\data1.csv')# 查看数据框里边的数据类型data.dtypes# 导入计算方差的方法from sklearn.feature_selection import...

2018-12-14 15:25:17 3817 1

原创 15 python数据缺失值处理方法代码示例

1 缺失值产生原因：有些信息暂时无法获取有些信息被遗漏或者错误地处理2 缺失值处理方法数据补齐删除缺失行不处理 3 代码示例import pandas data=pandas.read_csv('D:\\DATA\\pycase\\number2\\6.1\\data3.csv')# 均值'mean' 中值'median' most_freque...

2018-12-13 19:40:46 2730

原创 14 python虚拟变量的数据量化处理

1 虚拟变量也叫作哑变量和离散特征编码，可用来表示分类变量、非数量因素可能产生的影响 2 category数据类型category是pandas的一种数据类型，对应着被通缉的变量。Categoricals是由固定且有限数量的变量组成的，比如：性别、社会阶层、血型、国籍、观察时段、赞美程度。与其它被统计的变量相比，categorical 类型的数据可以具有特定的顺序——比如：按程度...

2018-12-13 19:35:26 2538

原创 13、python数据标准处理（0-1标准化、Z标准化、normalizer归一化）

数据标准化处理问题：量纲不一：就是单位、特征的单位不一致，不能放在一起比较处理方法：0-1标准化、Z标准化、normalizer归一化案例：# -*- coding: utf-8 -*-import pandasimport numpydata=pandas.read_csv( 'D:\\DATA\\pycase\\number2\\6.1\\d...

2018-12-13 19:24:14 18693 1

原创 11、python分类方法 SVM支持向量机案例完整

1 支持向量机（简称SVM）是一个功能强大并且全面的机器学习模型，它能够执行线性或非线性分类、回归，甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一，任何对机器学习感兴趣的人都应该在工具箱中配备一个。SVM特别适用于中小型复杂数据集的分类。 2 案例# -*- coding: utf-8 -*-import scipy.io as sciowineData = s...

2018-12-13 19:07:48 3369 3

原创 10、python随机森林代码案例

目录1 概念2 优点3 理论方法4、代码完整案例1 概念随机森林：随机森林是包含多个决策树的分类器，并且其输出类别是由个别树输出的类别的众数而定决策树见案例：https://blog.csdn.net/qq_36327687/article/details/849448502 优点01 适合离散型和连续型的属性数据02 对海量数据，尽量避免了过度拟合的问题...

2018-12-13 19:05:20 3968 1

原创 VBA程序打开文件时被强制删除，无法使用模块

1 环境第二天开机打开含有VBA程序的excel，突然弹出一个修复窗口，必须点击确定，否则退出。修复之后见下图：泪崩：所有的VAB程序一次开机之间啥也没有了，工作。。。。2 下面说一下解决方法01 按alt+F11 可以调出VBA窗口，以及程序删除解决方法： 1、系统更换为中文系统 2、模块名字改为英文即可 ps：若有已经写了代码的文件可通过...

2018-12-13 14:05:27 5579

原创 35、python序列和变量时间格式的转换

1 时间表现主要分为字符窜格式和时间格式。str和datetime2 运算的匹配又有时间具体的一些年、月、日、时、分、秒。属性：%Y 代表年份%m 代表月份%d 代表日期%h 代表小时%M 代表分钟%S 代表秒3 序列格式和变量格式的修改01 序列时间格式的修改import pandas# 将字符型时间格式转化为时间格式data['时间']=pandas...

2018-12-12 17:28:53 1249

原创 1 python 函数、数组、对象的使用方法

目录1 函数2 数组3 对象1 函数# 我们将函数视为机器，接受输入，做一些工作，然后弹出输出# 案例：def avg(x,y): print("first input is", x) print("second input is", y) a=(x+y)/2.0 # 除以2.0告诉Python，我们坚持使用具有小数部分的数字，而不希望结...

2018-12-12 12:17:32 3859

原创 5、csv格式出现: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte

问题环境：import pandas # 读取数据，指定日期为索引列data = pandas.read_csv( 'D:\\DATA\\pycase\\number2\\project\\pretice\\IT.csv' , index_col='日期' ) UnicodeDecodeError: 'utf-8' codec can't deco...

2018-12-11 11:43:42 1716

原创 9、python决策树分类（实战案例）

目录1、概念2 决策树生成方法3、决策树绘图方法4、案例代码示例1、概念决策树（DEcision Tree）他通过对训练样本的学习，并建立分类规则，对新样本数据进行分类，属于有监督学习决策树也是一种多功能的机器学习算法，它可以实现分类和回归任务，甚至是多输出任务。优点：决策树易于理解和实现决策树可处理数值型和非数值型数据2 决策树生成方法# ...

2018-12-11 10:10:04 9942 7

原创 8、python多项式贝叶斯文本分类（完整）

1、贝叶斯定理（Bayes Theorem）朴素贝叶斯分类（Naive Bayes Classifier）贝叶斯分类算法，是统计学的一种分类方法，它是利用贝叶斯定理的概率统计知识，对离散型的数据进行分类的算法 2、贝叶斯算法的类型sklearn包naive_bayes模块GaussianNB 高斯贝叶斯BernoulliNB 伯努利贝叶斯Multionmi...

2018-12-11 10:09:57 2966

原创 6、python逻辑回归代码案例实现

逻辑回归（Logistic Regression）针对因变量为分类变量而进行回归分析的一种统计方法，属于概率性非线性回归。优点：算法容易实现和部署，执行效率和准确度高。缺点：离散类型的自变量数据需要通过生成虚拟变量的额方法来使用 2 公式对比线性回归方程y=a1x1+a2x2+....+anxnSigmoid函数（Sigm...

2018-12-11 10:09:46 4960 3

原创 5、Python多重线性回归（代码案例）

目录1、回归分析的步骤： 2、需要满足的条件3、矩阵数据绘制散点图4、代码实践案例多重线性回归：研究一个因变量与多个自变量间线性关系的方法1、回归分析的步骤：01 根据预测目标，确定自变量和因变量02 绘制散点图，确定回归模型类型03 估计模型参数，建立回归模型04 对回归模型进行检验回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标，使用判...

2018-12-11 10:01:40 3701 1

原创 4、python简单线性回归代码案例（完整）

第一、回归分析的步骤01 根据预测目标，确定自变量和因变量02 绘制散点图，确定回归模型类型03 估计模型参数，建立回归模型04 对回归模型进行检验回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标，使用判定系数来度量。判定系数=相关系数R平方=ESS/TSS=1-RSS/TSS其中：具体公式见图TSS 总离差平方和ESS 回归平方和RSS ...

2018-12-11 10:00:31 25250 14

原创 3、python关键字提取和词云美化

第一、理论准备1 读取图片背景 bimg = imread(imgFilePath)2 获取图片颜色bimgColors=ImageColorGenerator(bimg)3 重制词云的颜色wordcloud.recolor(color_func=bimgColors) 第二、案例代码实践# 读取文件的内容import codecs;content=[]f=co...

2018-12-11 10:00:22 2070

原创 2、 python文本关键词提取实现（案例）

第一、理论准备1交叉计数函数pivot_table(value,index,columns,aggfunc,fill_value)# 参数说明values:数据透视表中的值index：数据透视表中的行（索引）columns；数据透视表中的列aggfunc：统计函数fill_value：NA值的统一替换。# 返回只说明：数据透视表的结果2 IDF 公式的实现...

2018-12-11 10:00:12 6503

空空如也

空空如也