deepfashion数据集baiduyun
DeepFashion包含超过800,000种不同的时尚图像,从精美的商店图像到无约束的消费者照片。
DeepFashion注释了丰富的服装商品信息。此数据集中的每个图像都标有50个类别,1,000个描述性属性,边界框和服装标记。
DeepFashion包含超过300,000个交叉姿势/跨域图像对。
使用DeepFashion数据库开发了四个基准,包括属性预测,消费者到商店的衣服检索,店内衣服检索和地标检测。这些基准的数据和注释也可以用作以下计算机视觉任务的训练和测试集,例如衣服检测,衣服识别和图像检索(In-shop)
VidTIMIT Audio Video Dataset国内源下载
VidTIMIT数据集由43人背诵短句的视频和相应的音频记录组成。 它可以用于唇读、多视角人脸识别、多模态语音识别和人脸识别等领域的研究。
数据集记录在3个会话中,会话1和会话2之间的平均延迟为7天,会话2和会话3之间的平均延迟为6天。 这些句子是从TIMIT语料库的测试部分选择的。 每人有10个句子。 前6个句子(按文件名按字母数字排序)分配给会话1。 接下来的两句话分配给会话2,剩下的两句话分配给会话3。
所有人的前两句话都是一样的,剩下的八句话则因人而异。
除了句子之外,每个人在每个环节都要进行头部旋转。 这个序列包括人向左,向右,回到中心,向上,然后向下,最后回到中心。
录音是在办公环境中使用广播质量的数字摄像机进行的。 每个人的视频被存储为一个编号序列的JPEG图像,分辨率为512 x 384像素。 在JPEG图像的创建过程中使用了90%的质量设置。 相应的音频存储为单声道,16位,32千赫WAV文件。
CSTR VCTK Corpusu国内源下载
CSTR语音克隆英语多说话人语料库工具包
概述
这个CSTR VCTK语料库包含了109个以不同口音为母语的英语使用者的语音数据。 每位演讲者要朗读大约400句句子,其中大部分是从报纸上挑选出来的,再加上彩虹段落和一段旨在识别演讲者口音的启事段落。 这些报纸文本是在先驱时报集团(Herald & Times Group)的许可下,从格拉斯哥的《先驱报》(The Herald)上摘取的。 每位演讲者阅读一组不同的报纸句子,每组句子都是通过贪婪算法选择的,该算法旨在最大限度地扩大上下文和语音覆盖范围。 彩虹段落和启发性段落对所有演讲者都是一样的。 彩虹之旅可以在国际英语方言档案(http://web.ku.edu/~idea/readings/rainbow.htm)中找到。 引出段落与用于语音重音存档(http://accent.gmu.edu)的段落相同。 语音口音档案的细节可以在http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf上找到
所有的语音数据都是使用相同的录音设置记录的:一个全向头戴式麦克风(DPA 4035),采样频率为96kHz, 24位,在爱丁堡大学的半暗室中。 所有录音均转换为16位,基于STPK下采样至48 kHz,并手动端点。 该语料库的录制是为了构建基于hmm的文本-语音合成系统,特别是用于使用多个发言者训练的平均语音模型和发言者自适应技术构建基于发言者自适应的语音合成系统。
复制
该语料库是在开放数据共享署名许可(ODC-By) v1.0下授权的。
http://opendatacommons.org/licenses/by/1.0/
http://opendatacommons.org/licenses/by/summary/
下载
http://dx.doi.org/10.7488/ds/1994
确认
CSTR VCTK语料库由:
Christophe Veaux(爱丁堡大学)
Junichi Yamagishi(爱丁堡大学)
克里斯汀•麦克唐纳
导致这些结果的研究部分得到了EPSRC EP/I031022/1 (NST)和EP/J002526/1 (CAF)的资助,来自RSE-NSFC的资助(61111130120)和JST CREST (uDialogue)的资助。
3D图像DWT变换MATLAB源码
3D图像DWT变换MATLAB源码
European_Parliament_Proceedings_Parallel_Corpus_1996-2011.torrent
European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计 机器翻译 的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本:
罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语)
日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语)
Slavik(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语)
Finni-Ugric(芬兰语,匈牙利语,爱沙尼亚语)
波罗的海语(拉脱维亚语,立陶宛语)
希腊语
European Parliament Proceedings Parallel Corpus 1996-2011 数据集最初由苏格兰爱丁堡大学信息学院于 2005 年发布,主要发布人为 Philipp Koehn。
该数据集于 2012 年发布第 7 版,相关论文有《Europarl: A Parallel Corpus for Statistical Machine Translation》
Collective Activity 集体活动视频数据集.torrent
Collective Activity 是一个集体活动的短视频数据集,它包含 5 种不同的集体活动,分别为交叉、步行、等待、交谈、排队以及 44 个短视频序列,其中一些是由消费者手持数码相机记录的。
该数据集于 2009 年由密歇根大学安娜堡分校电气工程系发布。
主要发布人:Wongun Choi, Khuram Shahid, Silvio Savarese
相关论文:《Collective Activity Classification Using Spatio-Temporal Relationship Among People》
Stanford Sentiment Treebank 标准情感数据集.torrent
Stanford Sentiment Treebank 是一个标准情感数据集,主要用于情感分类,其中每个句子分析树的节点均有细粒度的情感注解。
该数据集由斯坦福大学的 NLP 组发布,其中句子和短语共计 239232 条,相较于忽略单词顺序的大多数情绪预测系统,这套深度学习模型建立了基于句子 结构 的完整表示。它可根据单词组成的短语判断情绪。
该数据集由斯坦福大学 自然语言处理 组于 2013 年发布,相关论文有《Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank》。
AVSpeech – 视听语音数据集.torrent
AVSpeech是一个新的,大规模的视听数据集,包括语音视频剪辑没有干扰的背景噪声。视频片段长3-10秒,每个片段中可听到的声音都属于一个说话的人,在视频中可以看到。总的来说,这个数据集包含了大约4700个小时的视频片段,来自于YouTube上总共290k个视频,涵盖了各种人、语言和面部姿势。
MPII-Human-Shape.torrent
MPII Human Shape 是一个人体模型数据集,包括一系列人体轮廓和形状的 3D 模型及工具,其中训练模型从平面扫描数据库 CAESAR 学习得到。
MPII 人体形态是一组三维人体形态模型和工具,用于人体形态空间的构建、操作和评价,人体形状空间基于统计身体表示学习从凯撒数据集,也是迄今为止最大的商业可用扫描数据库。
该数据集由 Max Planck 信息学研究所于 2017 年发布, 主要发布人为 Leonid Pishchulin, Stefanie Wuhrer, Thomas Helten, Christian Theobalt and Bernt Schiele,相关论文《Building Statistical Shape Spaces for 3D Human Modeling》
Finding Lungs in CT Data – CT 影像数据集.torrent
Finding lungs in CT 是基于肺部 CT 影像分割处理的数据集,其包含一系列 CT 影像中对肺部影像的分割,并以此识别和估计肺部容积量。
该数据集包含 4 名患者的数据,以 nifti 格式的图像和分段肺面罩为主,由 Kaggle 于 2017 年发布。
TCGA-KICH 癌症 CT 影像.torrent
TCGA – KICH 癌症 CT 影像是腺瘤和腺癌相关的数据集,其包含来自 113 人共 2325 个数据文件,该数据集旨在对癌症诊治过程进行全程数字化跟踪,并以数字档案的形式记录检查结果、处方和疗效。
该数据集由 GDC Data Portal 发布。
癌症CT影像数据【Kaggle数据】.txt
本数据集是一个癌症CT图像数据,包括69位不同的患者的475个病例的中等规模的CT影像和患者年龄。该数据是 TCGA-LUAD 肺癌CT影像数据库的一部分。
NIH临床中心迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集.rar
提供了一系列图像。大家根据数据集图像情况看是否下载整个数据集
NIH临床中心最新公布了一个迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集DeepLesion,研究人员在此基础上训练深度神经网络,创建了一个具有统一框架的大规模通用病灶检测器,能够更准确、更自动地衡量患者体内所有病灶的大小,实现全身范围的癌症初步评估。
4427名独立的匿名患者
10594次CT扫描(平均每位患者有3次随访)
32735个带标记的病灶实例
一共928020张CT横切图像(512×512分辨率)
这就是美国国家卫生研究院(NIH)临床中心最新公开发布的大型CT图像数据集DeepLesion,也是迄今全球规模最大的多类别、病灶级别标注的开放获取临床医疗图像数据集。
360度全景图片的平面映射(鱼眼矫正).rar
就是将一个360度的全景球面照片映射到一个平面上,使之看上去没有变形。由于网上的一些鱼眼照片的校正程序不好用,自己通过球体的三角计算,找到了映射效果较好的方法代码已测试无问题。环境为:opencv2.4,vs2010。
swt-debug.jar
SWT开发中需要用到的SWT-debug.jar包很重要,含swt-debug.jar
Eclipse SWT JFace核心应用相关应用及源码.rar
基于 Java 桌面程序开发的图形库主要有 3 种,它们分别是 AWT、Swing 和 SWT。用前 两种库编写的桌面程序不够美观而且执行效率低,响应速度慢,SWT 恰好克服了 AWT 和 Swing 的缺点,它丰富的组件可以使程序员开发出功能很完善的 UI 程序。SWT 是由 IBM 领 导的开源项目 Eclipse 的一个子项目,但 SWT 应用上也存在不足,SWT 库反映的是本地操作 系统的基本窗口小部件,在许多环境下,这种方法较低级。JFace 库作为 SWT 的增强库很好 地弥补了它的缺点,JFace 对 SWT 的功能进行了很好的扩展。本书主要讲解了如何使用 SWT 和 JFace 进行应用程序的开发,通过本书系统而全面的 SWT/JFace 知识学习,将帮助读者快 速开发出完美、实用的 GUI 程序,轻松完成繁琐的界面、菜单编程。 本
SWT/JFace的核心应用与实战教程的PDF电子版.rar
基于 Java 桌面程序开发的图形库主要有 3 种,它们分别是 AWT、Swing 和 SWT。用前 两种库编写的桌面程序不够美观而且执行效率低,响应速度慢,SWT 恰好克服了 AWT 和 Swing 的缺点,它丰富的组件可以使程序员开发出功能很完善的 UI 程序。SWT 是由 IBM 领 导的开源项目 Eclipse 的一个子项目,但 SWT 应用上也存在不足,SWT 库反映的是本地操作 系统的基本窗口小部件,在许多环境下,这种方法较低级。JFace 库作为 SWT 的增强库很好 地弥补了它的缺点,JFace 对 SWT 的功能进行了很好的扩展。本书主要讲解了如何使用 SWT 和 JFace 进行应用程序的开发,通过本书系统而全面的 SWT/JFace 知识学习,将帮助读者快 速开发出完美、实用的 GUI 程序,轻松完成繁琐的界面、菜单编程.