自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(542)
  • 收藏
  • 关注

原创 Jupyter Notebook 修改默认打开的文件夹的位置

修改快捷方式属性如下:执行12345步骤,重启notebook。如果不行:确保下面2个文件内容如下:文件1:文件2:

2020-09-10 18:33:31 556

原创 安装surprise

conda install -c conda-forge scikit-surprise

2020-08-27 10:03:22 678

原创 查看相关性

查看相关性方法一: #df.to_csv('data1.csv') import matplotlib.pyplot as plt import seaborn as sns #变量相关性分析 fig,ax = plt.subplots() fig.set_size_inches(10,10) sns.heatmap(df.corr(),annot=True,cmap='rainbow',ax=ax) plt.xticks(rota...

2020-08-10 14:51:54 1299

原创 多了索引一列

读入时候多了索引一列#指定index_col=0

2020-08-10 14:30:21 187

原创 分箱统计,数据频率统计,数据分类

分箱统计方法一:分箱统计,利用plt直接 import matplotlib.pyplot as plt import numpy as np import matplotlib # 设置matplotlib正常显示中文和负号 matplotlib.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文 matplotlib.rcParams['axes.unicode_minus']=Fal...

2020-08-10 14:26:33 832

原创 空值处理数据处理空格tab键

trim()使用函数

2020-08-06 15:00:23 323

原创 xgboost实战

#!/usr/bin/env python# -*- coding:utf-8 -*- # Author: Jia ShiLinimport pandas as pdimport xgboost as xgbfrom sklearn import preprocessingimport numpy as np#datafrom sklearn.metrics import a...

2019-10-24 14:37:27 290

原创 Pickle保存pkl文件的保存和读取

cPickle保存使用cPickle.dump来将对象(train_roidb)序列化到文件(train_data_25fps.pkl)中。import cPicklecPickle.dump(train_roidb, open('train_data_25fps.pkl','w'), cPickle.HIGHEST_PROTOCOL)cPickle装载使用python的cP...

2019-10-22 20:52:05 2737

原创 python-读取和保存npy文件

import numpy as np# .npy文件是numpy专用的二进制文件arr = np.array([[1, 2], [3, 4]])# 保存.npy文件np.save("../data/arr.npy", arr)print("save .npy done")# 读取.npy文件np.load("../data/arr.npy")————————————————...

2019-10-22 18:02:47 2380

原创 抽取式文本摘要实现

1、介绍     1、本文自动文本摘要实现的依据就是词频统计     2、文章是由句子组成的,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。     3、句子的信息量用"关键词"来衡量。如果包含的关键词越多,就说明这个句子越重要。     4、"自动摘要"就是要找出那些包含信息最多的句子,也就是包含关键字最多的句子     5、而通过统计句子中关键...

2019-10-21 11:59:08 4333 1

原创 pd.cut()

pandas.cut用来把一组数据分割成离散的区间。比如有一组年龄数据,可以使用pandas.cut将年龄数据分割成不同的年龄段并打上标签。pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise') #0.23.4x...

2019-10-18 11:18:24 6463

原创 缺失值、异常值处理

主要有拉格朗日插值和牛顿插值法

2019-10-17 16:10:46 283

原创 迷惑度/困惑度/混乱度(preplexity)

语言模型构造完成后,如何确定好坏呢? 目前主要有两种评价方法:实用方法:通过查看该模型在实际应用(如拼写检查、机器翻译)中的表现来评价,优点是直观、实用,缺点是缺乏针对性、不够客观; 理论方法:迷惑度/困惑度/混乱度(preplexity),其基本思想是给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的模型就是在测试集上的概率越...

2019-10-17 13:46:49 2146

原创 data.describe( ):

data.describe( ):describe() 函数可以查看数据的基本情况,包括:count 非空值数、mean 平均值、std 标准差、max 最大值、min 最小值、(25%、50%、75%)分位数等。 len(data) 是数据的记录数STEP1:统计数据中空值的记录数为: explore=data.describe().T #转置后方便查阅 explore...

2019-10-17 10:28:44 14660 1

原创 层次聚类(AGNES/DIANA)、密度聚类(DBSCAN/MDCA)

层次聚类(AGNES/DIANA)、密度聚类(DBSCAN/MDCA)https://blog.csdn.net/loveliuzz/article/details/78821804https://blog.csdn.net/jiang425776024/article/details/87951210#3.5AGNES...

2019-10-12 23:30:15 768

原创 简述 TensorFlow 计算图

TensorFlowTensorFlow 的名字中己经说明了它最重要的两个概念一一Tensor 和Flow 。 Tensor 就是张量。如果说TensorFlow 的第一个词Tensor 表明了它的数据结构,那么Flow 则体现了它的计算模型。TensorFlow 中的 Flow 表示张量之间通过计算流相互转换的过程。TensorFlow 的每一个计算都是图上的一个节点,节点之间的边描述了...

2019-10-12 23:11:44 826

原创 决策树,回归,回归树

(4) 生成回归树:假设两次划分后即停止,则最终生成的回归树为: https://blog.csdn.net/Albert201605/article/details/81865261...

2019-10-10 20:36:57 437

原创 Python和java中的垃圾回收机制

Python的垃圾回收机制Python的垃圾回收机制有两种(也可以说一种:叫引用计数): 一是引用计数, 二是隔代回收. 引用计数 引用计数原理: 当数据的引用数变成0的时候,python解释器就认为这个数据是垃圾,进行垃圾回收,释放空间. 分代回收 分代回收是用来解决交叉引用(循环引用),并增加数据回收的效率. 原理: 通过对象存在的时间不同,采用不同的算法来 回...

2019-10-09 21:58:29 1198

原创 集成算法,bagging , boosting, stacking

2019-10-07 19:30:14 180

原创 决策树,随机森林房价预测

import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_california_housing()print(housing.DESCR)housing.dat...

2019-10-07 16:56:31 1804

原创 可视化模块GraphViz's executables not found报错解决, 代码配置环境变量

可视化模块GraphViz's executables not found报错解决,在手动配置添加环境变量,无效后,代码添加环境变量import osos.environ["PATH"] += os.pathsep + 'C:/soft/graphviz/graphviz-2.38/release/bin' #注意修改你的路径...

2019-10-07 16:32:30 373 1

原创 决策树——连续值处理

思想:选择合适的值做为阈值,实现最佳二分,遍历所有连续属性值后,计算所有已当前Gini()系数大小,选择最大的例子,来看看到底是怎样划分的。给定数据集如下(数据集来自周志华《机器学习》对于数据集中的属性“密度”,决策树开始学习时,根节点包含的17个训练样本在该属性上取值均不同。我们先把“密度”这些值从小到大排序:根据上面计算的公式,可得:下面开始计算t取不同值时...

2019-10-06 20:52:41 623

原创 信用卡欺诈检测

import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdata = pd.read_csv('creditcard.csv')data.head()count_classes = pd.value_counts(data['Class'],sort = True).sort_inde...

2019-10-06 18:42:10 412

原创 SMOTE算法-样本类别不平衡问题

类别不平衡问题类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率。上采样(过采样)和下采样(负采样)...

2019-10-05 21:51:44 1592

原创 有了二叉查找树、平衡树为啥还需要红黑树?

红黑树算是很难的一种数据结构吧,一般很少考察插入、删除等具体操作步骤,如果遇到要你手写红黑树的面试官,就直接告辞吧。所以,更多是会考察你对红黑树的理解程度,考察的最多的估计就是为什么有了二查找查找树/平衡树还需要红黑树这个问题了,今天,你只需要花一分钟的时间,就知道怎么回答这个问题了。1、二叉查找树的缺点二叉查找树,相信大家都接触过,二叉查找树的特点就是左子树的节点值比父亲节点小,而右子树...

2019-10-05 18:28:50 138

原创 Pandas中loc和iloc函数

https://blog.csdn.net/w_weiying/article/details/81411257loc函数:通过行索引 "Index" 中的具体值来取行数据(如取"Index"为"A"的行)iloc函数:通过行号来取行数据(如取第二行的数据)本文给出loc、iloc常见的五种用法,并附上详细代码。1. 利用loc、iloc提取行数据import numpy as n...

2019-10-05 16:51:22 320

原创 np.random.choice方法

np.random.choice方法def choice(a, size=None, replace=True, p=None) 表示从a中随机选取size个数 replacement 代表的意思是抽样之后还放不放回去,如果是False的话,那么通一次挑选出来的数都不一样,如果是True的话, 有可能会出现重复的,因为前面的抽的放回去了。 p表示每个元素被抽取的概率,如果没有指定,a...

2019-10-05 16:37:21 458

原创 'Series' object has no attribute 'reshape'

'Series' object has no attribute 'reshape'

2019-10-05 16:03:19 953

原创 逻辑回归——python实战

根据两次考试的结果来决定每个申请人的录取机会The logistic regression目标:建立分类器(求解出三个参数????0????1????2θ0θ1θ2)设定阈值,根据阈值判断录取结果要完成的模块 sigmoid: 映射到概率的函数 model: 返回预测结果值 cost: 根据参数计算损失 gradient: 计算每个参数的梯度方向 ...

2019-10-04 22:06:18 913

原创 子查询

主查询和子查询的关系子查询是嵌入到主查询中 子查询是辅助主查询的,要么充当条件,要么充当数据源 子查询是可以独立存在的语句,是一条完整的 select 语句子查询分类标量子查询: 子查询返回的结果是一个数据(一行一列) 列子查询: 返回的结果是一列(一列多行) 行子查询: 返回的结果是一行(一行多列)标量子查询查询班级学生平均年龄 查询大于平均年龄的学生查...

2019-10-03 21:30:26 143

原创 mysql分页,连接查询,自连接

分页语法select * from 表名 limit start,count说明从start开始,获取count条数据例1:查询前3行男生信息select * from students where gender=1 limit 0,3;求第n页的数据select * from students where is_delete=0 limit (n-1)*m,m...

2019-10-03 21:13:05 331

原创 mysql分组,group by

分组转自某课件group bygroup by的含义:将查询结果按照1个或多个字段进行分组,字段值相同的为一组 group by可用于单个字段分组,也可用于多个字段分组select * from students;+----+-----------+------+--------+--------+--------+-----------+| id | name ...

2019-10-02 20:49:50 255

原创 mysql数据库中where与having

对比where与havingwhere是对from后面指定的表进行数据筛选,属于对原始数据的筛选 having是对group by的结果进行筛选

2019-10-02 20:45:18 279

原创 Mysql

创建数据库create database python_test charset=utf8;使用数据库use python_test;创建表create table student (){id int unsigned primary key auto_increment not null,name varchar(20) default ',}查询指定字段...

2019-10-02 20:31:02 108

原创 L1和L2特点

作为正则化  在机器学习中,正规化是防止过拟合的一种重要技巧。从数学上讲,它会增加一个正则项,防止系数拟合得过好以至于过拟合。L1与L2的区别只在于,L2是权重的平方和,而L1就是权重的和。如下:最小平方损失函数的L1正则化:最小平方损失函数的L2正则化:它们的性质的区别能快速地总结如下:L1正则化 L2正则化 在非稀疏情形下计算效率低 计算...

2019-10-01 17:58:56 980

原创 池化层(pooling)的反向传播是怎么实现的

Pooling池化操作的反向梯度传播CNN网络中另外一个不可导的环节就是Pooling池化操作,因为Pooling操作使得feature map的尺寸变化,假如做2×2的池化,假设那么第l+1层的feature map有16个梯度,那么第l层就会有64个梯度,这使得梯度无法对位的进行传播下去。其实解决这个问题的思想也很简单,就是把1个像素的梯度传递给4个像素,但是需要保证传递的loss(或者梯...

2019-10-01 17:44:49 2636 1

原创 BN(Batch Normalization)

BN训练 1)随机梯度下降法(SGD)对于训练深度网络简单高效,但是它有个毛病,就是需要我们人为的去选择参数,比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要,以至于我们很多时间都浪费在这些的调参上。那么使用BN(详见论文《Batch Normalization_ Accelerating Deep Network Training ...

2019-10-01 17:41:45 1090

原创 BN(Batch Normalization)

BN训练 1)随机梯度下降法(SGD)对于训练深度网络简单高效,但是它有个毛病,就是需要我们人为的去选择参数,比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要,以至于我们很多时间都浪费在这些的调参上。那么使用BN(详见论文《Batch Normalization_ Accelerating Deep Network Training ...

2019-10-01 17:41:15 227

原创 对vue生命周期/钩子函数详解

beforeCreate 初始化之前 created 创建完成 beforeMount 挂载更新前 mounted 被创建 beforeUpdat 数据更新前 updated 被更新后 beforeDestroy 销毁之前 destroyed 销毁之后对vue生命周期/钩子函数详解对于实现页面逻辑交互等效果,我们必须知晓vue的生...

2019-09-30 19:45:02 1085

原创 django中间件

一、什么是中间件中间件顾名思义,是介于request与response处理之间的一道处理过程,相对比较轻量级,并且在全局上改变django的输入与输出。因为改变的是全局,所以需要谨慎实用,用不好会影响到性能django中间价官网定义:Middleware is a framework of hooks into Django’s request/response processing...

2019-09-30 19:37:36 239

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除