Roddy_Liu-CSDN博客

原创带有标签的条形图

import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport seaborn as snsimport osdf = pd.read_csv('C:/Users/18039/Desktop/directory.csv')count_city = df['City'].value_counts(...

2019-10-25 19:38:12 270

原创信用卡风险评估实例

python数据分析案例实战——融360客户贷款风险预测（信用卡）数据源：融360-用户贷款风险预测参考资料：https://www.jianshu.com/p/aba5685c580a流程如下：项目目标数据解读数据预处理特征工程1.基于业务理解筛选2.基于机器学习筛选模型建立一、项目目标通过举办方提供的用户基本信息，消费行为，还款情况等，建立准确的逾期预测模型，以预测用户...

2019-08-24 23:10:00 3682 1

原创 Pandas时间序列进阶（日期范围，频率，移位,时区处理）

日期范围生成日期范围：pd.date_range()方法用于根据特定频率生成指定长度的DatetimeIndexpd.date_range( start=None, end=None, periods=None, freq=None, tz=None, normalize=False, #时间标准化为0 ...

2019-08-09 18:48:51 1266

原创 Pandas时间序列基础（转换，索引，切片）

时间序列的类型：时间戳：具体的时刻固定的时间区间：例如2007年的1月或整个2010年时间间隔：由开始时间和结束时间表示，时间区间可以被认为是间隔的特殊情况实验时间和消耗时间：每个时间是相对于特定开始时间的时间的量度，（例如自从被放置在烤箱中每秒烘烤的饼干的直径）日期和时间数据的类型及工具datetime模块中的类型：date 使用公历日历存储日历日...

2019-08-09 16:22:59 7348

原创 Pandas数据透视表和交叉表

数据透视表pivot_table和数据透视pivot的区别数据透视和数据透视表的区别简单的讲就是如果数据中的一个值对应的行索引和列索引都相同时，pivot将会报错：Index contains duplicate entries, cannot reshape，pivot_table不会报错，默认计算相同数据的均值并返回。如果每个值对应的行索引和列索引都是唯一的，两者的结果也是一样的。dt...

2019-08-08 23:43:26 862

原创 Pandas分组应用实例

分组技术与分箱技术连用data = pd.DataFrame({'data1':np.random.randn(1000), 'data2':np.random.randn(1000)})quantiles = pd.cut(data.data1,4) #得到categories对象grouped = data.data1....

2019-08-08 21:23:44 394

原创 Pandas 数据聚合与分组操作

GroupBy机制分组聚合图示grouped操作datacity US JPtenor 1 3 5 1 30 -0.423185 0.107952 0.051819 -3.058473 -0.6485711 0.011324 -1.096422 -0.60593...

2019-08-08 14:52:06 1129

原创 Pandas数据重塑和透视

使用多层索引进行重塑stack(堆叠) ：旋转或将列中的数据透视到行unstack(拆堆)：将行中的数据透视到列data.stack() data.unstack()data.unstack(0) #0表示最外层data.unstack('key1').stack('key2')数据透视长透视为宽：data.piovot()dat...

2019-08-07 22:27:11 656

原创 Pandas联合和合并数据集

连接方式pandas.merge 根据一个或多个键将行进行连接，与SQL数据库的1连接操作类似pandas.concat 使对象在轴向上进行黏合或 ‘堆叠’join()combine_first()实例方法允许将重叠的数据拼接在一起，以使用一个对象的值填充另个对象的缺失值pd.merge()多对一连接：df1在连接键所对应列中的值每个值有多个，df2在连接键所对应列中的值每个...

2019-08-07 20:45:16 869

原创 Pandas分层索引

pandas允许你在一个轴向上有多个索引层级，提供了一种在更低纬度的形式中处理更高维度数据的方式分层索引的创建已有的dataframe数据： data.set_index(['key1','key2'])data = pd.Series(np.random.randn(9),index=[[ ],[ ]])分层索引的命名data.index.names = ['key1','...

2019-08-07 16:58:16 362

原创 Pandas数据清洗与准备

处理缺失值NA处理方法dropna 根据每个标签的值是否是缺失值来筛选轴标签，并根据允许缺失的数据量来确定阈值（应用于行）fillna 用某些值来填充确实的数据或使用插值方法，（ffillna或bfillna）（应用于列）isnull 返回表明哪些值是缺失值的布尔值notnull ...

2019-08-07 16:19:30 592

原创 pandas入门

首先介绍一下numpy 和 pandas的区别：numpy pandas基础数据类型扩展数据类型关注的是数据结构表达关注的是数据应用表达维度：数据间的关系 ...

2019-08-06 22:58:29 228

原创 Numpy 常用属性和方法

属性;data.shape #用来表征数组每个维度的数量。data.dtype #用来描述数组的类型data.ndim #用来查看数据的维度方法：.reshape(())生成ndarraynp.array #将输入数据（列表，元组，数据以及其他序列）转换为ndarra...

2019-08-06 14:45:34 460

原创 Numpy 基础：数组和向量化计算

对于数据分析应用中关注的内容;①在数据处理，清洗，构造子集，过滤，变换以及其他计算中进行快速的向量化计算。②常见的数据算法，比如sort ,unique等。③高效的描述性统计的聚合、概述数据。④数据排列和相关数据操作，比如对于异构数据进行merge和join等⑤使用数组表达式来表明条件逻辑，代替 if-elif-else条件分支语句⑥分组数据的操作（聚合，变换以及函数式操作）...

2019-08-06 11:12:57 133

原创 sklearn和statsmodels 的区别

skleran 常用子模块：sklearn 是一个机器学习包。分类：SVM ， K近邻，随机森林，逻辑回归等。回归：Lasso ,岭回归等。聚类：K-means ,谱聚类等。降维：PCA ,特征选择，矩阵分解等。模型选择：网格搜索，交叉验证，指标矩阵。预处理：特征提取，正态化。statsmodels常用子模块回归模型：线性回归，通用线性...

2019-08-05 15:30:03 7642

翻译线性回归

线性回归数据导入单变量线性回归绘制散点图相关系数R 拆分训练集和测试集多变量线性回归数据检验（判断是否可以做线性回归）训练线性回归模型**先甩几个典型的线性回归的模型，帮助大家捡起那些年被忘记的数学。● 单变量线性回归： h(x)=theta0 + theta1* x 1●...

2019-07-29 20:57:44 221

Roddy的博客