自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 pd学习,缺失

缺失信息的统计这里写的是isna 或isnull ,其实我用的只有后面这个,图方便我们就看看这个没啥意义,因为太多了看不到,我们要统计下当然,这里也有特殊的搜索渠道,一般来说,用的比较少数据删除这里介绍的是dropna函数,默认是删除行(事实上,我用的都是删除列)这个就相当于是高和重里面有一个是确实的,我们都删了,所以是删了174行填充值,明天补充~~...

2021-01-03 22:57:23 142

原创 pd学习Task6

连接这个其实我SQL里面学过,基本上用的SQL里面的会比较多,一共是利用了左连接右连接,里连接和外连接,这里也都有涉及当然,我们先读取数据再说牛逼,这里的是文件夹,里面有很多的表 首先得学会如何批量读取import pandas as pdimport numpy as npdate_range函数是生成一个固定频率的时间索引,其中periods:固定时期,取值为整数或Nonefor i in date: df=pd.read_csv('data/us_report/' + d +

2020-12-29 21:42:43 133 1

原创 pd学习 tesk05

变形事实上,这个我是没有听说过和使用过,算是一个全新的学习类似于是把表格的索引改变,一共有如下几个函数df = pd.DataFrame({'Class':[1,1,2,2],'Name':['San Zhang','San Zhang','Si Li','Si Li'], 'Subject':['Chinese','Math','Chinese','Math'], 'Grade':[80,75,90,85]})df.pivot(index='Name', columns='

2020-12-27 23:24:06 154

原创 pd学习 tesk04

分组df = pd.read_csv('data/car.csv')找到分组的本质意义:其实就是以某个单位对什么进行分组写法为df.groupby(分组依据)[数据来源].使用操作我们读取了习题的数据,并进行了基本的分组df.groupby('Brand')['Mileage'].mean()df.groupby(["Country","Type"])['Mileage'].mean()也可以设定条件语句condition = df.Weight > df.Weight.me

2020-12-24 10:57:43 109

原创 pd学习tesk3

索引import pandas as pdimport numpy as npdf = pd.read_csv('data/company.csv')df.head()这里,我们索引基本的列名df['age'].head()当然,也可以多个索引df[['age','EmployeeID']].head()因为这里[]是索引,索引就会打2个[]才可以当然,也有行索引,我看了手册。其实只要用loc就可以了df.loc[1]这个是根据最左边的id编号搜索的也可以这样df

2020-12-22 23:20:50 186

原创 pd学习 tesk2

pd基础文件读取这里基本上说的是指令,所以我就直接拿题目demoimport pandas as pdimport numpy as npdf = pd.read_csv('pokemon.csv') 当然,这里可以读取前几行与后几行的指令。通常来说,我一般就是用来看看基本情况而已df.head(3)# Name Type 1 Type 2 Total HP Attack Defense Sp. Atk Sp. Def Speed0 1 Bulbasaur Grass Poison

2020-12-19 03:10:37 186 2

原创 pandas 学习 tesk1

py基础知识理解for的使用,这个是我写的函数import pandas as pdl=[]def my_func(x): return 2*xfor i in range(5): l.append(my_func(i))l[0, 2, 4, 6, 8]相等于此代码[my_func(i) for i in range(5)]本质上是:把 A(i) for i in B 意思是把 A(函数) i为A里面的内容 B为for循环对象。基于此理解,多层嵌套就有了如下

2020-12-16 13:58:17 173 3

原创 tesk5

终于结束了,虽然模型融合没有真意义上demo完成。 采用的是得到的lgb模型,通过训练集带入测试得到的结果,当然敷衍提交的结果也不太好。总之,还是很很大的收获

2020-09-27 22:45:35 50

原创 tesk5

模型融合这里,我并没有成功demo。思路是依据lgb得到的模型 在训练集合种得到测试集 并提交结果。很遗憾没有进入排名~~·哈哈 不过这一路走来 真的感觉安排时间学习还是有蛮难的。

2020-09-27 22:40:25 75

原创 tesk4

建模与调参建模这里其实有很多种思考方式,在这里我采用的是传统的ML的LGB模型,如果使用DL中的时间序列模型可能效果也会好些,但是这样的数据预处理要稍作修改,这里我没有修改。调参一共分为3种,我才用的是传统的网格调参模型验证方面 我采用的是交叉验证 设k=10,并且设置基本的参数...

2020-09-27 22:32:15 83

原创 金融风控3

确实是有点难度,我争取把作业补上

2020-09-21 23:50:42 765

原创 金融风控2

特征选取因为之前做过相关的特征分析,这里我们就针对查看相关的特征特性感觉有些数据存在nan,0值。而且,特征类型存在区别,需要给他们进行编码等操作。所以我们得先进行特征预处理。这种在匿名特征存在很多nan值,需要进行处理。常见的方法有用0补充,用周围的数值补充和...

2020-09-18 23:42:39 222

原创 零基础入门金融风控作业1

之前打过2个比赛:1.二手车交易预测 2.工业蒸汽预测 这次参加的这个风控预测都是抱着学习的心态来参加。赛题理解依据赛制是否预测用户贷款是否违约为任务,这个目的本质上是个二分类问题(后面根据模型再讨论),不过因为不了解相关内容,所以查了下相关资料发现了相关概念,这里存在样本不平衡的问题,所以再评分标准就需要使用下面AUC的概念。AUC:被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接

2020-09-14 23:19:30 140

转载 pyttorch 中LSTM参数的理解

参考:https://zhuanlan.zhihu.com/p/102904450 与嘉神的 https://blog.csdn.net/ssjdoudou/article/details/105566465 结束会使用自己的demo讨论

2020-08-10 16:18:39 183

原创 关于MATELAB2019bc++可能出现的问题

关于MATELAB2019bc++可能出现的问题安装工具包安装工具包需要在后面输入 mex -setup时,可能会出现:未找到支持的编译器。您可以安装免费提供的 MinGW-w64 C/C++ 编译器;请参阅安装 MinGW-w64 编译器。有关更多选项,请访问 https://www.mathworks.com/support/compilers 的情况,这个时候是因为mat目前没有c++...

2020-01-07 22:16:49 682

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除