自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 安居客广州二手房定价分析

数据数据为爬虫所得,下面展示一部分目标文本文件内的数据:一共有2941条记录。清洗数据jupyter notebook 环境下创建python3文件,先用pandas read_csv读入文本文件所有内容,默认逗号为分隔符,指定各个字段的名称:names=[‘小区’,‘户型’,‘房屋单价(元/m²)’,‘位置’,‘面积(平方米)’,‘参考首付(万)’,‘建造年代(年)’,‘朝向’,‘...

2019-08-29 21:49:47 653

原创 pandas categorical对象、TimeGrouper对象、管道pipe

pandas中的Categorical类型转换为categorical对象:cate1为时间序列,其值为不是numpy数组,而是pandas.categorical对象,有categories和codes属性。通过pd.Categorical()传入序列直接生成categorical对象:通过from_codes函数构造:ordered=True,将类别排序,亦可使用as_ord...

2019-08-22 20:45:41 2687

原创 有关时间序列

时间序列datetime模块datetime存储日期,也存储细化到微秒的时间,timedelta为两个datetime对象的时间差。例:字符串与datetime互相转换strftime方法:timestamp转换为字符串。strptime方法:字符串转换为日期类型,datetime.strptime(str,格式)dateutil.parser.parse方法:能解析大部分人...

2019-08-22 16:49:29 378

原创 逻辑回归——18-19NBA常规赛下半程赛事胜负预测

数据采自Basketball Reference.com中的技术统计数据,技术统计数据分为3个表,其特征描述为:Team Per Game Stats:特征变量名含义Rk排名G参与的比赛场数MP平均每场比赛进行的时间FG投球命中次数FGA投射次数FG%投球命中次数3P三分球命中次数3PA三分球投射次数3P%三...

2019-06-08 15:28:26 1925

原创 二手汽车评估

二手汽车评估数据集取自uci,对处理好的数据集分别进行逻辑回归、随机森林、knn、svm、GBDT分类建模,寻找较优的分类模型。数据集特征描述:buying买入价格(vhigh,high,med,low)maint维护的价格(vhigh,high,med,low)doors门数(2,3,4,5更多)persons可乘人数(2,4,更多)lug_bo...

2019-06-08 00:32:17 2313 5

原创 多元线性回归——boston房价预测

python 多元线性回归boston房价预测jupyter python3环境下利用处理后的boston房价数据集建立多元线性回归模型数据集各特征描述:导入使用到的相关包将使用statsmodels库的ols函数建模,variance_inflation_factor函数用于检验自变量间的相关性。数据集存放在csv文本中,先读取数据集为数据框数据集形状为506条观测,14个特征...

2019-06-07 17:57:13 6732 1

原创 总结五——数据可视化

创建一个或多个子图figure()创建三个子图ax1、ax2、ax3:plt.figure有一些选项,列如调整图片长宽的figsize,如plt.figure(figsize=(10,10)).figure对象的add_subplot(n,m,i),指图片最多生成n*m个子图,i为第几个子图。**输入绘图命令plt,plot(),会在最后一个图片上进行绘制plt.subplots()...

2019-05-21 21:17:48 327

原创 总结四——使用pandas进行数据清洗,规整、聚合与分组

前面的总结三介绍了pandas入门的知识,本文将进一步总结pandas在数据分析中常见的操作。数据清洗与准备缺失值的检测isnull():使用any函数直接检测是否存在缺失值,如any(df.isnull()),返回True or False。notnull:不是缺失值检测,处理缺失值一般而言,遇到缺失值时,可采用的三种方法:删除法、替换法、插补法。删除法: 当缺失的观测比例...

2019-05-20 20:55:06 1335

原创 学习总结三——Pandas入门

序列与数据框一、Series构造:1、同质的列表或元组构建:指定索引值构建:序列的索引可以通过按位置赋值的方式进行改变:2、字典构建:通过字典构建产生的series索引为字典的键:按照想要的顺序指定字典键的顺序使生成的索引顺序满足要求3、通过Numpy中的一维数组构建4、通过DataFrame中的某一列构建二、序列的索引获取一维数组的所有索引方法都可以应用在序列上;相对...

2019-05-19 15:57:17 572

原创 学习总结二:Numpy基础

学习总结二:Python数值计算工具Numpy第一部分所使用的存储数据的列表对象,其无法直接参与数值运算,列表+列表,列表*num,只是列表元素的增加和重复,因此需要一种可以实现各种常见数学运算的数据结构——数组。构成数组的元素都是同质的,即每一个值都具有相同的数据类型。numpy中常见生成数组的函数array:将输入数据(列表、元组等其他序列)转换为ndarray,如:1、一维数组创建...

2019-05-18 15:40:44 483

原创 william的python数据分析与挖掘学习总结一:python入门基础知识

@Python数据分析与挖掘学习总结Python数据分析与挖掘学习总结经过一段时间的学习,基本掌握了利用python进行数据分析挖掘的基础技能,由于学习到的基础内容较多,因此个人打算做一个专题的小总结以及展现前段时间所完成的数据分析与挖掘小项目,由于本人是从零开始自学,过程中个人的理解可能存在不恰当的地方,写此专题博客目的是为了巩固自己的知识,仅供其他读者参考,另外,本人自学所使用的主要书籍是...

2019-05-17 16:54:30 396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除