ying wong-CSDN博客

原创 Competence-based Multimodal Curriculum Learning for Medical Report Generation (ACL 2021) 解读+总结

摘要：针对两个问题：【1】严重的数据偏差：视觉数据偏差：数据集中正常样本图像的比例远超于异常样本图像；此外，每个异常样本图像中，正常区域的占比远超于异常区域的占比。文本数据偏差：放射学家标注的参考报告，通常遍历所有部位生成了描述，使得整个报告中正常本文描述占了绝大多数。此外，描述同一个部位的许多句子重复率极高。【2】有限的医学数据：大部分现有的方法不会考虑它们的难度，而统一进行随机采样。有限数据的不平衡的数据偏差将会误导模型训练。所以，提出了CMCL（具体做法）:...

2021-12-10 20:47:56 3058

原创 Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 解析+总结

paper:2004.06165.pdf (arxiv.org)code:microsoft/Oscar: Oscar and VinVL (github.com)多模态学习初入门最近，视觉和语言预训练（Vision-Language Pretraining, 简称VLP）在解决多模态学习方面已显示出巨大的进步。这类方法最有代表性地通常包括如下两步：预训练：是以自监督的方式在海量 "图像-文本"数据（Image-Text Pair，或者叫做“图文对”）上训练大型的基于Transform...

2021-12-05 11:14:12 1695

原创 Natural language to visualization by neural machine translation （IEEE VIS 2021）解读+总结

论文：Github：https://github.com/Thanksyy/ncNet

2021-12-05 11:02:21 764

原创 nocaps: novel object captioning at scale ---- 文章解读和baseline复现

摘要关键问题：应用于实际场景的话，必须利用较少监督学习大量视觉概念为了图像描述模型能学习来自不同数据源的视觉概念，提出第一个针对此任务的数据集 ----“nocaps”：从开放的图像校验和测试集由166100人类生成的字幕描述15100张图片。训练数据由COCO图像-描述对+Open Images 图像级标签和物体框组成。测试集中400种物体类别在训练集描述中没有或者几乎很少注释的（nocaps）。针对此任务建立强基线并提供指导未来工作的分析1 Introduction现有模型存在的问题：对于实际

2021-10-09 10:17:02 2133

原创 maskrcnn-benchmark报错 KeyError “Non-existent config key: MODEL.BACKBONE.OUT_CHANNELS“

在尝试利用vqa-maskrcnn-benchmark:Files · master · Vedanuj Goswami / vqa-maskrcnn-benchmark · GitLab提取视觉特征的时候，依据INSTALL的指示编译maskrcnn-benchmark后，运行python script/extract_features.py ... 出现错误：KeyError "Non-existent config key: MODEL.BACKBONE.OUT_CHANNELS"

2021-08-20 16:36:14 3201 1

原创 Generating Radiology Reports via Memory-driven Transformer （EMNLP-2020）

Generating Radiology Reports via Memory-driven Transformer文章链接：https://www.aclweb.org/anthology/2020.emnlp-main.112.pdf摘要医学图像常被用于临床诊断和医疗诊断的实验。写医学报告对于无经验的医生来说是一个耗时且容易出错的。因此，自动地生成医疗报告被赋予高期望去减轻放射科专家的工作量，并推动临床自动，这对于应用人工智能到医学领域是一个关键任务。本文，我们提出利用memory-driven的

2021-06-25 18:36:04 1952 17

原创 Hybrid Retrieval-Generation Reinforced Agent for Medical Image Report Generation（NIPS 2018）总结

Hybrid Retrieval-Generation Reinforced Agent for Medical Image Report Generation混合检索生成强化的代理----------医学报告生成文章链接：https://proceedings.neurips.cc/paper/2018/file/e07413354875be01a996dc560274708e-Paper.pdf此博客适合对于image captioning 和 reinforcement learning 具有一

2021-06-25 18:01:05 594 1

原创 The User Simulator for Task-completion Dialogue 任务完整对话的用户模拟器-------文章解读+源码解析

The User Simulator for Task-completion Dialogue 任务完整对话的用户模拟器-------源码解析文章目录The User Simulator for Task-completion Dialogue 任务完整对话的用户模拟器-------源码解析摘要介绍一、pandas是什么？二、使用步骤1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合

2021-05-15 23:58:41 697

原创 On the Automatic Generation of Medical Imaging Reports Github源码复现

On the Automatic Generation of Medical Imaging Reports （ACL2018） Github源码复现数据集获取地址：https://github.com/nlpaueb/bio_image_caption代码地址：https://github.com/ZexinYan/Medical-Report-Generation文章目录On the Automatic Generation of Medical Imaging Reports （ACL2018）

2021-04-19 19:51:21 1124 27

原创 Spatio-Temporal graph for video captioning with knowledge distillation

视频描述是一项要求对视觉场景有一个深度理解的具有挑战性的任务。最先进的生成描述的方法要么使用场景级要么使用对象级信息，然而却没有清晰地建模对象的相互作用。因此，他们往往无法做出有视觉根据的预测，并且对虚假的相关性很敏感。在这篇文章中，我们提出一个新颖的视频描述的时空图模型，该模型利用了时空中对象间的相互作用。我们的模型建立了可解释的连接，并能够提供明确的视觉根据。为了避免因对象数量变化而导致性能不稳定，我们进一步提出了一种基于局部对象信息的全局场景特征正则化的对象感知知识蒸馏机制。我们通过在两个基准上的大量

2020-04-10 16:20:47 1656 3

weixin_44384749的博客