c_rush-CSDN博客

原创 DataWhale_CV_task5_模型集成

自己的结果惨不忍睹，这里记录下学习安大佬直播的笔记吧。训练集和测试集的resize尺寸不同导致结果不理想，这个彩蛋产生的原因是因为前面的池化层，虽然模型都能训练，但是图片的实际含义却发生了变化。通过观察训练集和测试机的loss，可以分析学习率是否合适，何时衰减学习率，还可以判断是否过拟合。模型不是越大越好，一些小的数据增强手段有时候就可以有很好的效果，分析问题注意控制变量。读源码，多实践，多看paper。高star的项目指路，由浅入深模型集成模型集成通常是指将多个模型结合起来得到结果，方法

2020-06-02 23:55:22 207

原创 DataWhale_CV_task4_模型训练与验证

训练def train(train_loader, model, criterion, optimizer): # 切换模型为训练模式 model.train() train_loss = [] for i, (input, target) in enumerate(train_loader): if use_cuda: input = input.cuda() target = target.cuda()

2020-05-30 23:39:52 151

原创 DataWhale_CV_task3_字符识别模型

网络结构class SVHN_Model1(nn.Module): def __init__(self): super(SVHN_Model1, self).__init__() model_conv = models.resnet18(pretrained=True) model_conv.avgpool = nn.AdaptiveAvgPool2d(1) model_conv = nn.Sequential(*list(mode

2020-05-26 23:58:31 101

原创 DataWhale_CV_task2_数据读取与数据扩增

数据读取pytorch内置了很多数据集，但是这次需要使用的是下载到本地的数据，这里就涉及到pytorch的自定义数据的读取了。pytorch提供了一个名为dataset的抽象类，个人感觉这个的形式更像一个接口了，重载getitem和len方法后，就可以定义一个自己的类了，使用这个类的好处是这样建立的数据集可以很好地被pytorch的其他类调用，比如Dataloader。而且在定义自己的数据类时还可以用transform方法对图片进行处理，这一部分就是涉及到下面的数据扩增了。lass SVHNDatase

2020-05-23 22:01:01 125

原创 DataWhale_CV_task1_赛题理解

问题性质图像识别问题即为分类问题，loss应该是使用交叉熵数据集3W训练集；1W验证集。源自SVHN，但不能使用SVHN原始数据。已经标记了位置框数据标签位置信息和字符信息。用字段height,label,left,top,width标注评价指标Accuracy解题思路定长字符串识别不定长字符串识别检测再识别...

2020-05-20 20:29:20 78

原创作业

原来看着作业一步步来不觉得。真正做起作业来，才知道自己的菜啊。还好有助教大佬的baseline，这里就分享一下学习助教大佬baseline的心得吧。全局平均池化。这个技巧可以在某些场合代替全连接层，减小过拟合。但是据说可能不利于迁移学习。ResNet网络的搭建。这一部分和课程差不太多，还勉强能理解。不过关于里面的超参，感觉就比较玄学了。寻最优结果的方法。baseline里面是从设计好的网...

2020-03-02 02:06:44 93

原创 DataWhale Task06&Task07&Task08

批量归一化和残差网络BatchNormalization一般放在全连接层中的仿射变换和激活函数之间，其目的是解决在深度模型中输入数据不稳定的问题。具体的操作上就是用统计的均值和方差进行调整，但是值得注意的是针对不同的模块，normalize的方法不一样。训练：以batch为单位,对每个batch计算均值和方差。预测：用移动平均估算整个训练数据集的样本均值和方差。def batch_nor...

2020-02-25 22:08:08 196

原创 DataWhale Task03&Task04&Task05

过拟合欠拟合及其解决方案概念：欠拟合（underfitting）：模型无法得到较低的训练误差。过拟合（overfitting）：训练误差远小于它在测试数据集上的误差。主要的影响因素是模型的复杂度和训练数据集的大小，通常模型复杂度低容易欠拟合，复杂度高容易过拟合；数据集小容易过拟合。常用的解决方案：从数据集角度：K折交叉验证，提高数据的利用率。从模型复杂度角度：可以才用权重衰减正...

2020-02-19 21:39:57 167

原创 DataWhale Task01&Task02

线性回归线性回归是机器学习中的经典问题，其实本章的意义我认为应该是在于让大家熟悉一下pytorch的编程风格，我本人在本章的收获如下：1.本地pytorch环境的搭建。询问度娘，几经波折后，我选择了anaconda+cuda+pycharm的方式建立了本地的pytorch环境，简单的三步走，平时在学校没有遇到下载速度太慢的问题，这次在家下载贼慢，我的解决方法是通过某雷下载到本地再pip，后来看...

2020-02-14 20:26:59 107

c_rush的博客