贾世林jiashilin-CSDN博客

原创 Jupyter Notebook 修改默认打开的文件夹的位置

修改快捷方式属性如下：执行12345步骤，重启notebook。如果不行：确保下面2个文件内容如下：文件1：文件2：

2020-09-10 18:33:31 556

原创安装surprise

conda install -c conda-forge scikit-surprise

2020-08-27 10:03:22 678

查看相关性方法一： #df.to_csv('data1.csv') import matplotlib.pyplot as plt import seaborn as sns #变量相关性分析 fig,ax = plt.subplots() fig.set_size_inches(10,10) sns.heatmap(df.corr(),annot=True,cmap='rainbow',ax=ax) plt.xticks(rota...

2020-08-10 14:51:54 1299

原创多了索引一列

读入时候多了索引一列#指定index_col=0

2020-08-10 14:30:21 187

原创分箱统计,数据频率统计，数据分类

分箱统计方法一：分箱统计，利用plt直接 import matplotlib.pyplot as plt import numpy as np import matplotlib # 设置matplotlib正常显示中文和负号 matplotlib.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文 matplotlib.rcParams['axes.unicode_minus']=Fal...

2020-08-10 14:26:33 832

原创空值处理数据处理空格tab键

trim（）使用函数

2020-08-06 15:00:23 323

原创 xgboost实战

#!/usr/bin/env python# -*- coding:utf-8 -*- # Author: Jia ShiLinimport pandas as pdimport xgboost as xgbfrom sklearn import preprocessingimport numpy as np#datafrom sklearn.metrics import a...

2019-10-24 14:37:27 290

原创 Pickle保存pkl文件的保存和读取

cPickle保存使用cPickle.dump来将对象(train_roidb)序列化到文件(train_data_25fps.pkl)中。import cPicklecPickle.dump(train_roidb, open('train_data_25fps.pkl','w'), cPickle.HIGHEST_PROTOCOL)cPickle装载使用python的cP...

2019-10-22 20:52:05 2737

原创 python-读取和保存npy文件

import numpy as np# .npy文件是numpy专用的二进制文件arr = np.array([[1, 2], [3, 4]])# 保存.npy文件np.save("../data/arr.npy", arr)print("save .npy done")# 读取.npy文件np.load("../data/arr.npy")————————————————...

2019-10-22 18:02:47 2380

原创抽取式文本摘要实现

1、介绍　　　　　1、本文自动文本摘要实现的依据就是词频统计　　　　　2、文章是由句子组成的，文章的信息都包含在句子中，有些句子包含的信息多，有些句子包含的信息少。　　　　　3、句子的信息量用"关键词"来衡量。如果包含的关键词越多，就说明这个句子越重要。　　　　　4、"自动摘要"就是要找出那些包含信息最多的句子，也就是包含关键字最多的句子　　　　　5、而通过统计句子中关键...

2019-10-21 11:59:08 4333 1

原创 pd.cut()

pandas.cut用来把一组数据分割成离散的区间。比如有一组年龄数据，可以使用pandas.cut将年龄数据分割成不同的年龄段并打上标签。pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise') #0.23.4x...

2019-10-18 11:18:24 6463

原创缺失值、异常值处理

主要有拉格朗日插值和牛顿插值法

2019-10-17 16:10:46 283

原创迷惑度/困惑度/混乱度（preplexity）

语言模型构造完成后，如何确定好坏呢？目前主要有两种评价方法：实用方法：通过查看该模型在实际应用（如拼写检查、机器翻译）中的表现来评价，优点是直观、实用，缺点是缺乏针对性、不够客观；理论方法：迷惑度/困惑度/混乱度（preplexity），其基本思想是给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后，测试集中的句子都是正常的句子，那么训练好的模型就是在测试集上的概率越...

2019-10-17 13:46:49 2146

原创 data.describe( )：

data.describe( )：describe() 函数可以查看数据的基本情况，包括：count 非空值数、mean 平均值、std 标准差、max 最大值、min 最小值、（25%、50%、75%）分位数等。 len(data) 是数据的记录数STEP1：统计数据中空值的记录数为： explore=data.describe().T #转置后方便查阅 explore...

2019-10-17 10:28:44 14660 1

原创层次聚类（AGNES/DIANA）、密度聚类(DBSCAN/MDCA)

层次聚类（AGNES/DIANA）、密度聚类(DBSCAN/MDCA)https://blog.csdn.net/loveliuzz/article/details/78821804https://blog.csdn.net/jiang425776024/article/details/87951210#3.5AGNES...

2019-10-12 23:30:15 768

原创简述 TensorFlow 计算图

TensorFlowTensorFlow 的名字中己经说明了它最重要的两个概念一一Tensor 和Flow 。 Tensor 就是张量。如果说TensorFlow 的第一个词Tensor 表明了它的数据结构，那么Flow 则体现了它的计算模型。TensorFlow 中的 Flow 表示张量之间通过计算流相互转换的过程。TensorFlow 的每一个计算都是图上的一个节点，节点之间的边描述了...

2019-10-12 23:11:44 826

原创决策树，回归，回归树

(4) 生成回归树：假设两次划分后即停止，则最终生成的回归树为： https://blog.csdn.net/Albert201605/article/details/81865261...

2019-10-10 20:36:57 437

原创 Python和java中的垃圾回收机制

Python的垃圾回收机制Python的垃圾回收机制有两种(也可以说一种:叫引用计数): 一是引用计数, 二是隔代回收. 引用计数引用计数原理: 当数据的引用数变成0的时候,python解释器就认为这个数据是垃圾,进行垃圾回收,释放空间. 分代回收分代回收是用来解决交叉引用(循环引用),并增加数据回收的效率. 原理: 通过对象存在的时间不同,采用不同的算法来回...

2019-10-09 21:58:29 1198

原创集成算法，bagging , boosting, stacking

2019-10-07 19:30:14 180

原创决策树,随机森林房价预测

import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housinghousing = fetch_california_housing()print(housing.DESCR)housing.dat...

2019-10-07 16:56:31 1804

原创可视化模块GraphViz's executables not found报错解决, 代码配置环境变量

可视化模块GraphViz's executables not found报错解决，在手动配置添加环境变量，无效后，代码添加环境变量import osos.environ["PATH"] += os.pathsep + 'C:/soft/graphviz/graphviz-2.38/release/bin' #注意修改你的路径...

2019-10-07 16:32:30 373 1

原创决策树——连续值处理

思想：选择合适的值做为阈值，实现最佳二分，遍历所有连续属性值后，计算所有已当前Gini（）系数大小，选择最大的例子，来看看到底是怎样划分的。给定数据集如下（数据集来自周志华《机器学习》对于数据集中的属性“密度”，决策树开始学习时，根节点包含的17个训练样本在该属性上取值均不同。我们先把“密度”这些值从小到大排序：根据上面计算的公式，可得：下面开始计算t取不同值时...

2019-10-06 20:52:41 623

原创信用卡欺诈检测

import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdata = pd.read_csv('creditcard.csv')data.head()count_classes = pd.value_counts(data['Class'],sort = True).sort_inde...

2019-10-06 18:42:10 412

原创 SMOTE算法-样本类别不平衡问题

类别不平衡问题类别不平衡问题，顾名思义，即数据集中存在某一类样本，其数量远多于或远少于其他类样本，从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题，例如逻辑回归在欺诈检测问题中，因为绝大多数样本都为正常样本，欺诈样本很少，逻辑回归算法会倾向于把大多数样本判定为正常样本，这样能达到很高的准确率，但是达不到很高的召回率。上采样(过采样)和下采样(负采样）...

2019-10-05 21:51:44 1592

原创有了二叉查找树、平衡树为啥还需要红黑树？

红黑树算是很难的一种数据结构吧，一般很少考察插入、删除等具体操作步骤，如果遇到要你手写红黑树的面试官，就直接告辞吧。所以，更多是会考察你对红黑树的理解程度，考察的最多的估计就是为什么有了二查找查找树/平衡树还需要红黑树这个问题了，今天，你只需要花一分钟的时间，就知道怎么回答这个问题了。1、二叉查找树的缺点二叉查找树，相信大家都接触过，二叉查找树的特点就是左子树的节点值比父亲节点小，而右子树...

2019-10-05 18:28:50 138

原创 Pandas中loc和iloc函数

https://blog.csdn.net/w_weiying/article/details/81411257loc函数：通过行索引 "Index" 中的具体值来取行数据（如取"Index"为"A"的行）iloc函数：通过行号来取行数据（如取第二行的数据）本文给出loc、iloc常见的五种用法，并附上详细代码。1. 利用loc、iloc提取行数据import numpy as n...

2019-10-05 16:51:22 320

原创 np.random.choice方法

np.random.choice方法def choice(a, size=None, replace=True, p=None) 表示从a中随机选取size个数 replacement 代表的意思是抽样之后还放不放回去，如果是False的话，那么通一次挑选出来的数都不一样，如果是True的话，有可能会出现重复的，因为前面的抽的放回去了。 p表示每个元素被抽取的概率，如果没有指定，a...

2019-10-05 16:37:21 458

原创 'Series' object has no attribute 'reshape'

'Series' object has no attribute 'reshape'

2019-10-05 16:03:19 953

原创逻辑回归——python实战

根据两次考试的结果来决定每个申请人的录取机会The logistic regression目标：建立分类器（求解出三个参数????0????1????2θ0θ1θ2）设定阈值，根据阈值判断录取结果要完成的模块 sigmoid: 映射到概率的函数 model: 返回预测结果值 cost: 根据参数计算损失 gradient: 计算每个参数的梯度方向 ...

2019-10-04 22:06:18 913

原创子查询

主查询和子查询的关系子查询是嵌入到主查询中子查询是辅助主查询的,要么充当条件,要么充当数据源子查询是可以独立存在的语句,是一条完整的 select 语句子查询分类标量子查询: 子查询返回的结果是一个数据(一行一列) 列子查询: 返回的结果是一列(一列多行) 行子查询: 返回的结果是一行(一行多列)标量子查询查询班级学生平均年龄查询大于平均年龄的学生查...

2019-10-03 21:30:26 143

原创 mysql分页，连接查询，自连接

分页语法select * from 表名 limit start,count说明从start开始，获取count条数据例1：查询前3行男生信息select * from students where gender=1 limit 0,3;求第n页的数据select * from students where is_delete=0 limit (n-1)*m,m...

2019-10-03 21:13:05 331

原创 mysql分组，group by

分组转自某课件group bygroup by的含义:将查询结果按照1个或多个字段进行分组，字段值相同的为一组 group by可用于单个字段分组，也可用于多个字段分组select * from students;+----+-----------+------+--------+--------+--------+-----------+| id | name ...

2019-10-02 20:49:50 255

原创 mysql数据库中where与having

对比where与havingwhere是对from后面指定的表进行数据筛选，属于对原始数据的筛选 having是对group by的结果进行筛选

2019-10-02 20:45:18 279

原创 Mysql

创建数据库create database python_test charset=utf8;使用数据库use python_test;创建表create table student (){id int unsigned primary key auto_increment not null,name varchar(20) default ',}查询指定字段...

2019-10-02 20:31:02 108

原创 L1和L2特点

作为正则化在机器学习中，正规化是防止过拟合的一种重要技巧。从数学上讲，它会增加一个正则项，防止系数拟合得过好以至于过拟合。L1与L2的区别只在于，L2是权重的平方和，而L1就是权重的和。如下：最小平方损失函数的L1正则化：最小平方损失函数的L2正则化：它们的性质的区别能快速地总结如下：L1正则化 L2正则化在非稀疏情形下计算效率低计算...

2019-10-01 17:58:56 980

原创池化层（pooling）的反向传播是怎么实现的

Pooling池化操作的反向梯度传播CNN网络中另外一个不可导的环节就是Pooling池化操作，因为Pooling操作使得feature map的尺寸变化，假如做2×2的池化，假设那么第l+1层的feature map有16个梯度，那么第l层就会有64个梯度，这使得梯度无法对位的进行传播下去。其实解决这个问题的思想也很简单，就是把1个像素的梯度传递给4个像素，但是需要保证传递的loss（或者梯...

2019-10-01 17:44:49 2636 1

原创 BN(Batch Normalization)

BN训练 1）随机梯度下降法（SGD）对于训练深度网络简单高效，但是它有个毛病，就是需要我们人为的去选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要，以至于我们很多时间都浪费在这些的调参上。那么使用BN（详见论文《Batch Normalization_ Accelerating Deep Network Training ...

2019-10-01 17:41:45 1090

原创 BN(Batch Normalization)

BN训练 1）随机梯度下降法（SGD）对于训练深度网络简单高效，但是它有个毛病，就是需要我们人为的去选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要，以至于我们很多时间都浪费在这些的调参上。那么使用BN（详见论文《Batch Normalization_ Accelerating Deep Network Training ...

2019-10-01 17:41:15 227

原创对vue生命周期/钩子函数详解

beforeCreate 初始化之前 created 创建完成 beforeMount 挂载更新前 mounted 被创建 beforeUpdat 数据更新前 updated 被更新后 beforeDestroy 销毁之前 destroyed 销毁之后对vue生命周期/钩子函数详解对于实现页面逻辑交互等效果，我们必须知晓vue的生...

2019-09-30 19:45:02 1085

原创 django中间件

一、什么是中间件中间件顾名思义，是介于request与response处理之间的一道处理过程，相对比较轻量级，并且在全局上改变django的输入与输出。因为改变的是全局，所以需要谨慎实用，用不好会影响到性能django中间价官网定义：Middleware is a framework of hooks into Django’s request/response processing...

2019-09-30 19:37:36 239

空空如也

空空如也