csCaiRujia-CSDN博客

原创 QT问题： qt.qpa.plugin: Could not load the Qt platform plugin “xcb“ in

问题：qt.qpa.plugin: Could not load the Qt platform plugin “xcb” in …解决方法：opencv-python版本过高，导致QT不兼容，降低opencv-python到4.3.0.36即可解决。

2021-11-13 15:50:41 1958

原创 python3.8 @cached_property 缓存装饰器

from functools import cached_propertyclass Foo(): @cached_property def myfunc(self): print('using myfunc') return 20 def func1(self): return 1if __name__ == '__main__': F = Foo() print(F.myfunc) print('*'

2021-03-14 16:44:21 1065

原创零基础入门语义分割-Task4 评价函数与损失函数

本文内容主要介绍语义分割中的评价函数和损失函数。

2021-03-01 22:08:44 329

原创零基础入门语义分割-Task3 语义分割模型发展

语义分割模型介绍本章主要讲解的是语义分割网络模型的发展：FCN 、SegNet、Unet、DeepLab、RefineNet、PSPNet、GAN语义分割。 FCN SegNet Unet DeepLab RefineNet PSPNet GANFCNFCN首先将图片进行以一系列的卷积和池化操作得到特征图，包含较强的语义信息，但是缺少细节信息，然后利用反卷积对最后一个卷积层得到的特征图进行上采样，得到与原图大小的特征图，从而实现对于每个像素值的预测。主要特点：因为只有卷积和池化

2021-02-26 23:33:22 162

原创零基础入门语义分割-Task2 数据扩增

本文主要介绍语义分割中的数据增广方法，使用了OpenCV和albumentations两个库完成具体的数据增广操作。1、常见的数据增广方法对于语义分割而言，数据增广方法回改变图像的标签，因为在改变图片时，对应的像素会发生变化，导致标签也会发生变化。水平翻转垂直翻转旋转随机缩放（极其重要）cutout2、albumentations数据扩增albumentations是基于OpenCV的快速训练数据增强库，拥有非常简单且强大的可以用于多种任务（分割、检测）的接口，易于定制且添加其他框架非

2021-02-23 23:08:24 349

原创零基础入门语义分割-Task1 赛题理解

1、赛题理解零基础入门语义分割-地表建筑物识别，是DataWhale与天池联合发起的入门比赛，以计算机视觉为背景，希望通过过此次比赛了解语义分割的相关知识。1.1Task1学习内容理解赛题背景和数据。掌握RLE编码。解体思路。2、赛题介绍2.1 题目介绍遥感技术已成为获取地表覆盖信息最为行之有效的手段，遥感技术已经成功应用于地表覆盖检测、植被面积检测和建筑物检测任务。本赛题使用航拍数据，需要参赛选手完成地表建筑物识别，将地表航拍图像素划分为有建筑物和无建筑物两类。如下图，左边为原

2021-02-20 21:27:09 240

原创 Python 队列

一、队列的定义二、Python队列的种类Queue：普通的先进先出（FIFO）队列。LifoQueue：后进先出（LIFO）队列，类似于栈。PriorityQueuedeque

2021-02-16 10:55:21 504 1

原创 Python glob模块介绍

globglob模块可以根据Unix终端所使用的规则找出所有匹配特定模式的路径名，但会按照不确定的顺序返回结果。glob.glob(pathname, *, recursive=False)返回匹配 pathname 的可能为空的路径名列表，其中的元素必须为包含路径信息的字符串。 pathname 可以是绝对路径 (如 /usr/src/Python-1.5/Makefile) 或相对路径 (如 …/…/Tools//.gif)，并且可包含 shell 风格的通配符。结果也将包含无效的符号链接（与在

2021-01-15 12:46:14 195

原创 Python shutil用法

shutil介绍shutil 模块提供了一系列对文件和文件集合的高阶操作。特别是提供了一些支持文件拷贝和删除的函数。对于单个文件的操作，请参阅 os 模块。最常用的主要是copy()、move()等函数。shutil模块常见函数1. shutil.copyfileobj(fsrc, fdst[, length])将文件类对象 fsrc 的内容拷贝到文件类对象 fdst。 copyfileobj是最基本的函数，下面的很多函数都用到了此函数。import shutilshutil.copyfi

2021-01-11 15:35:01 625

原创 Python 常见的函数操作

文章目录mapreducefilter* 和 ** 的用法mapmap(func, *iterables) --> map objectmap会根据提供的函数对指定序列做映射，将函数作用在迭代器中的每一个元素上。reduce参考：Python reduce() 函数python3 的reduce已经移到了functools中。from functools import reducereduce(function, sequence[, initial]) -> value

2021-01-05 11:46:23 172

原创 Task05 天池新闻推荐入门赛之【排序模型+模型融合】

排序模型通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是：LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到

2020-12-06 19:55:43 218

原创 Task04 天池新闻推荐入门赛之【特征工程】

我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等用户的设备特征信息上面这些直接可以用的特征，待做完特征工

2020-12-03 23:19:46 130

原创 Task03 天池新闻推荐入门赛之【多路召回】

召回层的作用推荐系统的两个重要组成部分就是召回阶段和排序阶段。其中召回阶段负责将海量的候选集缩小至几百到几千的规模；而排序阶段负责对缩小后的候选集进行精准排序。多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意

2020-11-30 21:57:18 199

原创 pytorch安装

官方下载安装pytorch直接去官网下载即可。根据自己的需求进行下载，由于pytorch的源在国外，这里推荐使用conda，然后配置清华镜像进行下载，当然也可以配置清华源pip进行下载（不过pytorch最新版本的无法下载）。配置conda请参考conda清华镜像说明。各系统都可以通过修改用户目录下的 .condarc 文件。Windows 用户无法直接创建名为 .condarc 的文件，可先执行 conda config --set show_channel_urls yes 生成该文件之后再修

2020-11-30 15:22:52 96

原创零基础入门推荐系统【数据分析】Task2

数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。数据预处理对用户的点击时间进行排序还有计算用户的点击次数。数据浏览train_click_log.csv文件数据中每个字段的含义user_id: 用户的唯一标识click_article_id: 用户点击的文章唯一标

2020-11-27 23:00:50 114

原创天池新闻推荐入门赛之【赛题理解+Baseline】Task01

赛题简介这个比赛是新闻推荐场景下的用户行为预测挑战赛，以新闻APP中的新闻推荐为背景，目的是要求我们根据用户历史浏览点击新闻文章的数据信息来预测用户未来的点击行为，即用户的最后一次点击的新闻文章。数据概况赛题以预测用户未来点击新闻文章为任务，数据集报名后可见并可下载，该数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性，将会从中抽取20万用户的点击日志数据作为训练集，5万用户的点

2020-11-25 22:51:23 159

原创 LeetCode 分类练习：1、分治

分治引文MapReduce（分治算法的应用）是 Google 大数据处理的三驾马车之一，另外两个是 GFS 和 Bigtable。它在倒排索引、PageRank 计算、网页分析等搜索引擎相关的技术中都有大量的应用。尽管开发一个 MapReduce 看起来很高深，感觉遥不可及。实际上，万变不离其宗，它的本质就是分治算法思想，分治算法。如何理解分治算法？为什么说 MapRedue 的本质就是分治算法呢？主要思想分治算法的主要思想是将原问题递归地分成若干个子问题，直到子问题满足边界条件，停止递归。将子

2020-08-19 22:15:53 207

原创 Datawhale零基础入门NLP赛事 - Task6 基于深度学习的文本分类3-BERT

学习目标了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在Attention is All You Need中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化

2020-08-04 22:31:09 178

原创 YOLOv3 从零开始训练自己的数据集

第一部分：准备数据1.1标注数据我们在这里使用LabelImg进行数据标注。LabelImg使用教程可以之间看github中的教程conda install pyqt=5conda install -c anaconda lxmlpyrcc5 -o libs/resources.py resources.qrcpython labelImg.py得到标注后的数据将标注的标签和数据放在data目录下的elevator中，我们这里是要做电梯面板的检测。1.2 将数据分为训练集和测试集

2020-08-03 22:35:54 1299

原创论文阅读：Siamese Neural Networks for One-shot Image Recognition

论文：Siamese Neural Networks for One-shot Image Recognition代码：https://github.com/kevinzakka/one-shot-siamese地址：https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf来源：ICML2015Approach训练：通过同类物体或者不同类物体的pair，使得同类图片的距离尽可能小，不同类别的距离尽可能大。网络架构网络主要用了卷积、最大池化.

2020-08-03 13:13:03 721

原创 Datawhale零基础入门NLP赛事 - Task4 基于深度学习的文本分类2-1Word2Vec

Task5 基于深度学习的文本分类2在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每

2020-07-31 22:03:21 209

原创 Datawhale零基础入门NLP赛事 - Task4 基于深度学习的文本分类1-fastText

Task4 基于深度学习的文本分类1-fastText与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节，我们介绍几种文本表示方法：One-hotBag of WordsN-gramTF-IDF也通过sklean进行了相应的实践，相信你也有了初步的认知。但上述方法都或多或少存在一定的问

2020-07-27 18:38:56 159

原创 Datawhale零基础入门NLP赛事 - Task3 基于机器学习的文本分类

Task3 基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广，且包括多个分支，本章侧重使用传统机器学习，从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程，机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支，对于学

2020-07-25 22:59:57 161

原创 Datawhale零基础入门NLP赛事 - Task2 数据读取与数据分析

学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。这里的read_csv由三部分构成：读取的文件路径，这里需要根据改成你本地的路径，可以使用相对路径或绝对路径；分隔符sep，为每列分割的字符，设置为\t即可；读取行数nrows，为此次读取文件的函数，是数值类型（由于数据集比较大，建议先设置为100）；import pandas as

2020-07-22 22:10:45 135

原创 Datawhale零基础入门NLP赛事 - Task1 赛题理解

赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的文本分类任务。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载，理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房

2020-07-21 20:38:18 111

原创 YOLOV3 论文解读

论文：YOLOv3: An Incremental Improvement地址：https://arxiv.org/abs/1804.02767代码：Pytorch版本官方版本（c）来源：arxivStructure这篇博客中的图片很好的解释了YOLOV3的结构，我们先从总体上进行介绍。DBL：如图左下角所示，DBL包含三部分组成，分别是卷积、BN、Leakely relu。在cfg文件中就是如下部分，batch_normalize=1代表了有BN，activeation=leak.

2020-07-19 17:38:19 942

原创论文阅读：CROSS-DOMAIN FEW-SHOT CLASSIFICATION VIA LEARNED FEATURE-WISE TRANSFORMATION

论文：CROSS-DOMAIN FEW-SHOT CLASSIFICATIONVIA LEARNED FEATURE-WISE TRANSFORMATION地址：https://arxiv.org/abs/2001.08735代码：https://github.com/hytseng0509/CrossDomainFewShot来源：ICLR2020摘要由于不同领域的数据特征分布具有差异性，因此少样本分类算法对于之前为见过的领域数据效果不好。次论文主要解决的是基于度量的方法在领域迁移（dom.

2020-06-19 11:38:39 2315 4

原创论文阅读：Learning to Compare: Relation Network for Few-Shot Learning

论文：Learning to Compare: Relation Network for Few-Shot Learning地址：https://arxiv.org/abs/1711.06025v2代码：https://github.com/floodsung/LearningToCompare_FSL来源：CVPR 2018

2020-06-14 21:54:27 549

原创 pytorch conv2d参数讲解

pytorch conv2d参数讲解""" Args: in_channels (int): Number of channels in the input image out_channels (int): Number of channels produced by the convolution kernel_size (int or tuple): Size of the convolving kernel stride (int

2020-06-08 20:13:36 6114 4

原创 Task05：模型集成

5.1 学习目标学习集成学习方法以及交叉验证情况下的模型集成学会使用深度学习模型的集成学习5.2 集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度，常见的集成学习方法有Stacking、Bagging和Boosting，同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期，如果硬件设备不允许建议选取留出法，如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证，训练得到10个CNN模型。那么在10个CNN模型可以使用如下方式进行集成

2020-06-02 23:13:57 249

原创 Task04: 模型训练与验证

模型训练与验证为此本章将从构建验证集、模型训练和验证、模型保存与加载和模型调参几个部分讲解，在部分小节中将会结合Pytorch代码进行讲解。4.1 构造验证集在机器学习模型（特别是深度学习模型）的训练过程中，模型是非常容易过拟合的。深度学习模型在不断的训练过程中训练误差会逐渐降低，但测试误差的走势则不一定。在模型的训练过程中，模型只能利用训练数据来进行训练，模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好，模型就会记住训练样本的细节，导致模型在测试集的泛化效果较差，这种现象称为过拟合（O

2020-05-30 23:16:46 469

空空如也

空空如也