自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (4)
  • 收藏
  • 关注

原创 Preserving Fairness Generalization in Deepfake Detection

3.在训练阶段,过拟合的模型会同时记住人种模式,直接最小化公平性损失会陷入不理想的局部或全局最小值,无法保持公平性的跨域泛化。3.许多工作致力于通过增加注释来解决Deepfake数据集中存在的数据偏差,但相关的公平性泛化问题一直没有得到有效解决。1.通过对比,发现公平性方法DAW-FDD和公平性损失DAW-FDD(UFC)在跨数据集测试时均会失效。使用解纠缠学习来提取人口统计学和与领域无关的伪造特征,并通过融合它们来促进公平学习。在泛化原则的指导下,利用解纠缠得到的特征促进公平性学习。

2024-04-20 14:59:36 651

原创 2024 CVPR AIGC集合

基于可变形点云对表情、颜色、位置等信息进行建模。对原始颜色进行解纠缠,得到固有反射和相关阴影。总结:可以看作是对局部像素的分解与扩展。通过神经渲染技术获得底层的几何表示。基于几何、物理、光照进行建模。总结:对全局结构的关注和扩展。二、talking-head。

2024-04-17 20:05:40 368

原创 A Decade’s Battle on Dataset Bias: Are We There Yet

1.更大的模型并没有带来更多的收益,更多的数据会提升模型性能,所以模型并没有试图记忆数据(模型规模扩大会使记忆能力增强,更多的数据会使记忆难度提升);3.推测:通过数据集分类习得的表征携带者可转移到图像分类任务中的语义信息,因此数据集分类可以促进网络的性能提升。2.如今的数据集规模更大、更丰富、偏差更小,促使神经网络发现概念、抽象、模式、偏差的能力也随之增强。2.用损坏的图像仍能进行准确的数据集分类,因此数据集分类的能力并不源自人眼不可见的低级特征。1.由于数据集的重要性,数据偏差也引起了人们的注意。

2024-03-17 21:25:15 267

原创 2024-AAAI-Exposing the Deception: Uncovering More Forgery Clues for Deepfake Detection

2.现有伪造检测技术依赖于缺乏理论约束的深度神经网络提取伪造特征,难以保证提取到全面的伪造线索和消除无关特征。通过提取多个不重叠的局部特征,并其融合成一个语义信息丰富的全局特征,实现最终特征的充分和纯净。2.基于对互信息的理论分析设计局部信息损失,以保证局部特征之间的正交性和充分性。2.现有方法没有理论支持,使其难以获取足够的标签相关信息和消除任务无关信息。4.基于信息瓶颈理论设计全局信息损失,以融合局部表示并消除任务无关的信息。实现全面的伪造线索提取和无关特征的去除。特征,同时进行全局特征的净化。

2024-03-09 20:23:48 986

原创 2023-CVPR-Patch-Mix Transformer for Unsupervised Domain Adaptation: A Game Perspective

思路:构建中间域数据,令特征提取器与分类器在中间域数据混合效果不佳时仍能提取到域不变特征。通过构建中间域来平滑地连接源域和目标域。

2024-02-23 14:14:44 789

原创 2023-CVPR-OSAN: A One-Stage Alignment Network to Unify Multimodal Alignment and UDA

无监督多模态域自适应有两个主要问题:域适应和模态对齐。现有工作通常用独立的两个阶段处理上述问题,因此难以利用域和模态之间的互补信息。直接使用原始源域、目标域特征进行对抗性学习效果不佳:不同域之间的差距极大,难以学到共有特征。2.寻找一个共同的域不变、跨模态表示空间来同时对齐域和模态。直接进行特征混合会造成信息冗余和震荡。1.探索域与模态之间的关系;

2024-02-21 13:18:59 763

原创 2023-CVPR-Semi-Supervised Domain Adaptation with Source Label Adaptation

提出源自适应范式,将源域数据视为目标数据的噪声版本,令源域数据去适应目标数据。提出了一个SSDA模型,从目标角度设计的标签净化组件,动态地清理标签噪声。半监督域自适应方法:利用特征空间映射、伪标签分配,将目标域向源域对齐。半监督域自适应定义:少量有标签目标域数据,大量无标签目标域数据。以源域为参照的方法会将目标域数据对齐到错误的源域类别。纠正有噪声的源域标签。

2024-02-20 16:51:30 195

原创 2023-CVPR-COT: Unsupervised Domain Adaptation with Clustering and Optimal Transport

提出基于聚类的最优传输(COT)算法,该算法将对齐过程定义为一个最优传输问题,并构造出源域和目标域聚类中心之间的映射,以此消除类别不平衡问题并降低了计算成本。1.通常,域自适应工作从全局角度出发,实现源域和目标域的分布对齐;最近,一些工作开始关注局部对齐,并通过最有传输理论进行实例对的对齐。1.最优传输理论需要保证每个源域样本都被映射到目标域,因此难以应对类别不平衡的情形。2.现有的基于最优传输理论的工作难以处理类别不平衡的问题,并带来极大计算开销。2.在源域和目标域分别建立不同的簇,以表征子域信息。

2024-02-20 14:54:37 235

原创 2023-CVPR-Adjustment and Alignment for Unbiased Open Set Domain Adaptation

Adjustment and Alignment (ANNA)

2024-02-17 17:32:02 167

原创 2024-arxiv-Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces

1.恢复阶段:仅利用真实数据,随机屏蔽区域,若能习得各面部区域的内在联系,真实面部图将得到较好的恢复效果,伪造面部图将得到较差的恢复效果。1.不同面部单元之间存在一致性,因此重建伪造图片的难度大于重建真实 图片的难度,而随机屏蔽会阻碍全局一致性的学习。3.伪造痕迹会出现在随机区域,因此屏蔽区域的伪造痕迹难以预测。2.不同伪造方法用不同形式随机修改不同面部区域,因此难以通过前一帧或其他伪造图片来进行结果预测。1.明确指出伪造区域可以让用户更加信任检测结果,而以往工作忽略了可以用重建结果定位伪造区域。

2024-01-27 16:37:35 548

原创 2022-ECCV-Adaptive Face Forgery Detection in Cross Domain

1.伪造视频是逐帧生成的,因此会造成时间维度上的伪影。而鲁棒的检测模型需要对同一身份的不同帧有一致的检测结果。2.Instance-Discrimination Module:根据输入实例动态调整超平面的位置。1.利用频率线索进行deepfake检测效果良好,但也会导致帧间不一致问题,即不同帧检测结果不同。1.提高预测结果的稳定性和一致性,以进一步提高检测算法的性能。2.以往方法中固定的分类超平面不能准确地分割所有帧的类别。2.根据单个实例自适应地调整鉴别中心并进行预测。

2024-01-20 16:08:39 934

原创 Intra-Inter Camera Similarity for Unsupervised Person Re-Identification

2.利用鲁棒的分类值生成跨相机伪标签,减轻特征受相机和姿态的影响。风格转换:使用生成对抗网络转换源域图片风格,并维持源域图片身份。2.前两种方法作用于源域,第三种方法作用于目标域。3.相对于原始特征,分类概率对域差异更为鲁棒。伪标签生成:通过聚类为目标域数据打伪标签。1.相机内身份匹配比跨相机身份匹配要简单。2.具有泛化性的分类器可以降低域差异。域自适应:对齐源域、目标域特征分布。1.提升分类器的泛化性。

2024-01-16 10:37:20 364

原创 Unveiling the Power of CLIP in Unsupervised Visible-Infrared Person Re-Identification

1.Cluster-Aware Prompt Learning(优化可学习文本提示):为行人图片建立可学习的聚类感知提示,并得到文本描述作为后续无监督训练的监督信息。2.对于跨模态行人重识别任务,利用生成对抗网络进行模态风格转换需要大量跨模态标签,利用无监督度量学习方法进行模态无关特征学习不需要标签。通过利用了CLIP的视觉-文本表示能力,为无监督跨模态行人重识别构建新的提示学习模式。2.利用CLIP进行提示学习可以获得比伪标签更好的语义监督。1.利用CLIP为无监督聚类学习提供文本描述作为补充知识。

2024-01-13 11:31:44 478

原创 2022-ECCV-Explaining Deepfake Detection by Analysing Image Matching

1.检测模型将既不与原图相关也不与目标图相关的视觉概念看作是与伪造相关的视觉概念,性能良好的检测模型应该基于源/目标-无关的视觉概念来判断真伪。2.在标签的监督下,伪造-原图-目标图匹配可以帮助丢弃伪造无关视觉特征,隐式学习伪造相关的视觉概念。直接将源/目标无关特征从源/目标视觉概念中分离出来去进行真伪检测可以提升在压缩视频上的性能。1.验证假设,并从图像匹配的角度评估视觉概念的关系,以此解释检测模型的预测结果。3.视觉概念:具有语义的人脸区域,如嘴、鼻子、眼睛。第二种:真实图片与伪造图片不相关。

2024-01-11 18:20:59 1044 1

原创 DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation

从无监督领域自适应的角度提出双向自适应策略,结合正向域自适应和反向域自适应,使检测器提取新型伪造特征的同时避免遗忘已有伪造知识。2.伪造痕迹相对细微,且单向域自适应方法会在知识迁移的过程中丢失目标域的部分信息,因此现有无监督域自适应模型难以直接应用。反向网络:无类别约束(真伪判断)的情况下进行域自适应,相对提取的域无关特征更充分,但分类能力会下降。2.通过对齐域差异将习得的伪造相关知识从源域迁移到目标域,并获得新增深度伪造手段的相关知识。4.数据增强、频域特征提取、零样本学习、少样本学习都有各自的缺点。

2024-01-04 17:44:15 368

原创 2022-ECCV-Hierarchical Contrastive Inconsistency Learning for Deepfake Video Detection

1.真实视频和伪造视频的面部动作规律不同,二者的时序信息不一致性可以作为识别深度伪造的有效线索。时间不一致性揭示了真实视频和伪造视频之间不一致的面部动作,因此应该通过比较来挖掘。2.现有的方法倾向于施加二分类监督,限制了模型只能关注类别层面的差异。4.现有伪造手段比较成熟,在单张图片上难以找到伪造痕迹。2.为时间不一致性对比学习提取更精细的局部和全局表示。提出层次对比不一致学习框架与两级对比范式(HCIL)。3.存在只有某一部分被篡改的视频。1.进行局部和全局对比。

2023-12-22 22:37:16 443

原创 Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

1.利用伪造配置池合成伪造数据来增加伪造的“多样性”。(配置:合成某种伪造数据的特定方法或控制特定合成过程的一组参数)为探索更大的伪造空间,使用对抗训练策略动态合成当前最具挑战性的伪造数据。将Deepfake检测器用于不可见的伪造手段仍比较困难。2.通过预测伪造配置增强模型对伪造的“敏感性”。泛化性好的表征应该对多种类型的伪造都很敏感。合成网络生成特定的伪造配置,即指定伪造区域。合成伪造数据:能合成的伪造类型比较有限。,并基于上述配制合成伪造图像。为经过变形操作产生的掩膜。预测输入图像的伪造配置。

2023-12-15 14:15:08 913

原创 End-to-End Reconstruction-Classification Learning for Face Forgery Detection

现有模型主要通过提取特定的伪造模式进行深度伪造检测,导致学习到的表征与训练集中已知的伪造类型高度相关,因此模型难以泛化到未知的伪造类型上使用。1.真实样本的特征分布相对更为紧凑,因此学习真实人脸之间的共同特性比学习训练集呈现出的过拟合伪造特性更为合适。提出基于重构-分类学习的伪造检测框架,着重学习真实人脸的紧凑表征,一从真实人脸中区分出未知模式的伪造人脸。只对真实样本进行重建学习以习得真实图像的紧凑表示,通过真实人脸与伪造人脸在分布上的重构差异进行伪造检测。构建度量学习损失,增加重建区分度。

2023-12-08 13:35:19 945

原创 2022-CVPR-Exploring Frequency Adversarial Attacks for Face Forgery Detection

2.在频域内进行对抗性攻击可以保证原始数据的视觉质量并减轻带给空间域的冗余噪声,同时提高检测器的迁移性。2.图片的低频区域与内容相关,高频段与边缘纹理相关,频率差异通常被作为Deepfake检测的线索。3.混合对抗攻击:基于元学习思想,在空间域和频率域交替进行扰动优化,提高攻击的泛化性能。3.相对于目标攻击,非目标攻击更能适应多样化的分类边界,泛化性也更强。1.真假样本在频段上呈现出差异性,假样本的高频段相对占比更大。3.对抗性样本的目的是欺骗检测器,伪造样本的目的是欺骗人类。

2023-12-01 12:31:02 369

原创 Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection

提出LSDA(Latent Space Data Augmentation)检测器,利用数据增强提高伪造空间的多样性,利用预训练人脸识别模型学习更综合的真实人脸特征。2.如果检测器过拟合于训练数据特有的伪影信息而不是提取伪造方法的共有特征,当训练数据与测试数据的分布差异过大时,检测器性能会骤降。2.通过样本插值来扩大伪造空间,以此鼓励模型习得更具泛化性的表征和更鲁棒的决策边界,缓解模型对特定伪造方法的过拟合。表征种类繁多的伪造类型需要更具泛化性的决策边界,从而减轻对特定方法的过拟合。

2023-11-23 21:07:26 864

原创 UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization

2.Parallel Cross-Attention Feature Pyramid Network(PCA-FPN):增强网络对短片段的识别、定位能力。现有deepfake检测模型大多只对单模态数据和人脸相关数据做检测。需要开发能够准确定位操纵边界的技术,促进AIGC任务的可靠应用。定位被操纵片段的开始和结束时间戳,帮助用户更好地理解检测结果。基于Transformer的模型可以适应不同模态的特征输入。UMMAFormer:在时间维度上对多种模态的输入进行定位。提出针对图像修复场景的操纵定位数据集。

2023-11-15 20:49:32 148 2

原创 Masked Relation Learning for DeepFake Detection

基于视频的检测技术更加关注相邻帧之间的时间不连贯性和时空不一致性,可降低对空间伪影的依赖并提升泛化性能。2.将关系特征作为一种泛化模式可以提升检测性能,但大量的冗余关系信息会阻碍信息的表达。3.遮挡建模在减轻信息冗余的同时促进高级语义信息(诱导性偏差较小)的挖掘,有助于提升网络的泛化性能。屏蔽部分区域间的相关性以减少信息冗余,以此促进对本质特征的学习并捕获全局视角下的不规则关系。从区域级关系中学习通用的鉴别性特征,减轻对视觉伪影的依赖。2.现有关系挖掘类的工作往往忽略了关系信息的传播。

2023-11-15 11:26:14 217

原创 DFIL: Deepfake Incremental Learning by Exploiting Domain-invariant Forgery Clues

2.由于数据分布的差异,模型检测新技术生成的图片时准确率显著降低。通过探究不同域样本对之间的语义关系,学习基于监督对比学习的域不变表示,减轻特征间的域差异,防止过拟合于不充足的新数据。提出了增量学习框架,通过从少量的新样本中不断学习,提升Deepfake Detection模型的泛化性。对新数据和旧数据之间的关系进行建模,基于少量新样本,快速将检测模型泛化到新的域。3.伪造检测任务存在数据不平衡问题,新增伪造方法样本远少于已知伪造方法。3.亟需一种能够应对多种潜在伪造方法的检测模型。

2023-11-09 22:28:21 121

原创 Controllable Guide-Space for Generalizable Face Forgery Detection

提出 controllable guide-space(GS)方法学习不同伪造域之间的差异性、相同伪造域内的一致性,以此增强对伪造线索的关注,提高特征的伪造相关性。这会导致伪造样本进一步以伪造不相关特征(如,身份、外观、背景)聚类,虽然在训练数据上呈现更紧凑的聚类,但并没有真正提取到伪造相关特征。1.预先构造理想的引导空间,并使特征向各自域的引导特征靠拢,实现真实域的紧凑性和伪造域间的可控分离(超参数可控)。在训练数据上,模型在监督信息的指导下会学习一个更相关的特征模式,并表现出良好的性能。

2023-11-01 18:36:37 231 2

原创 Towards Understanding the Generalization of Deepfake Detectors from a Game-Theoretical View

从博弈论的角度,量化不同order特征交互的贡献,并揭示检测器的泛化能力。2.提出降低低阶交互影响的通用方法,即直接删除与低阶交互相关的输出分数,以提升检测器的泛化性能。这一新角度,分解不同信息量对检测的影响,证明检测器不能从有限的信息中学习具有泛化性的伪影表示。2.上述工作通常是反映人类对伪造痕迹的理解,因此不能探究检测器中特征表示的泛化机制。1.检测器编码视觉概念间的多阶交互,其中的低阶交互通常对检测有很大的负面影响。2.具有良好泛化性能的检测器倾向于编码具有较少负面影响的低阶交互。

2023-10-29 16:34:32 94

原创 Quality-Agnostic Deepfake Detection with Intra-model Collaborative Learning

的模型内协作学习框架,以同时检测不同质量的深度伪造视频。在训练阶段,用单一模型同时学习同一图像的不同质量表示,以对齐高质量和低质量图像的分布。利用HSIC最大化高质量图片与低质量图片之间的几何结构,让不同质量的图片在浅层具有多样性表示,在深层具有相似的分布。2.强制使输入不同的中间层具有相似输出会使模型崩塌,或者导致模型记住训练数据,而不是学习鉴别特征。3.检测低质量视频或同时检测不同质量的视频仍然是一个严峻的挑战。2.现有基于鲁棒性设计的模型也不能处理任意压缩率的图片数据。

2023-10-27 15:51:17 110

原创 Contrastive Pseudo Learning for Open-World DeepFake Attribution

排名第二第三的预测结果依然有较高概率为正确类,只将排名最高的预测结果作为标签会带来严重噪声。基于open-world场景,利用无标签数据同时提高对已知伪造手段和未知伪造手段的溯源性能。1.目前的伪造模型溯源工作都是基于GAN生成数据,基于身份交换和表情转换的研究相对较少。判断输入数据是否为伪造,若为伪造,则基于伪造手段进行分类(无论伪造手段是否已知)。Protocol-2:对真实数据和伪造数据进行二分类,并对伪造数据进行溯源。2.现有方法假定训练集、测试集的标签空间相同,因此面对未知攻击时性能较差。

2023-10-25 22:50:01 122

原创 TALL: Thumbnail Layout for Deepfake Video Detection

提出Thumbnail Layout (TALL),将视频序列转换为预定义的布局,以实现空间和时间依赖性的保存,并允许模型捕获时空不一致性。将时间维度的信息附加于图像维度且不干扰空间信息,使模型挖掘时间信息的同时仍能保持较低计算复杂度。3.将帧缩小为子图,并将序列按预定义顺序重新排列为缩略图,使其具有与原始帧相同的大小。2.视频级伪造检测方法具有较强泛化性,但计算开销较大,使其难以部署和使用。1.使用密集采样提取视频中的多个序列,然后在视频序列中随机选择4个连续帧。1.基于视频的检测模型计算效率低。

2023-10-20 18:37:55 179

原创 UCF: Uncovering Common Features for Generalizable Deepfake Detection

对内容和痕迹解纠缠,将图片信息分离为:伪造不相关特征、方法特有的伪造特征、方法共有的伪造特征。1.由于过拟合于伪造不相关特征和特有伪造特征,现有的伪造检测方法很难泛化到新的伪造类型中使用。1.建立多任务学习策略:通过多类分类器(预测伪造方法)、二元分类器(预测是否伪造)减轻对特有伪造特征与不相关特征的过拟合。从内容和痕迹两方面解决伪造检测问题,减轻对不相关特征与特有特征的过拟合,提升泛化性能。2.设计条件编码器:同时利用伪造特征和伪造不相关特征进行图片重构,保证像素水平一致性。

2023-10-19 16:56:50 233

原创 Shape-Erased Feature Learning for Visible-Infrared Person Re-Identification

1、在一个子空间中学习shape-related特征(体型相关),在另一个正交的互补空间中学习shape-erased特征(体型无关),并实现shape-erased特征与身份特征的**条件(Y)**互信息最大化。1、体型信息和与身份相关的模态共享信息有部分重叠。因此,目标特征可分为体型相关、体型无关的独立两部分。2、模态共享的shape-related特征与shape-erased特征互相独立。2、由于去除了身份相关的体型信息,其他与体型无关的鉴别性信息会被进一步挖掘。

2023-10-07 15:21:33 69

原创 AUNet: Learning Relations Between Action Units for Face Forgery Detection

关注于AU相关的局部区域之间的关系,提出Action-Units Relation Learning framework,提高伪造检测的泛化性。ART通过AU-agnostic支路和AU-specific支路构建不同AU之间的关系,两条支路协同作用、互相补充,以挖掘伪造线索。(1)AU-specific Branch:提取单个AU的特征,并通过注意机制建立它们之间的关系。篡改与AU相关的区域生成伪样本,通过生成的监督信号来预测被篡改的AU区域。2、一组AU会共同负责某一表情,这意味着AU之间有潜在联系。

2023-09-19 11:37:28 242

原创 Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization

(1)为使模型只关注图像的局部区域,较少地关注全局身份信息,提出Artifact Detection Module,以指导模型关注局部伪影区域。2、基于二元分类器的方法泛化性差,因此,一些工作通过提取手工特征(如,伪影)来提升泛化性,但在伪造图片不包含此类特征时, 判断结果并不准确。1、在训练阶段,分类器倾向将某些身份组视为真实身份,而将其他身份组视为假身份。2、跨数据集进行测试时,上述与身份相关的有偏表示会被分类器错误利用,导致错误判断。当目标图像与伪造图像进行面部互换,目标图像的身份仍会发生改变。

2023-09-18 11:10:03 445 4

原创 Implicit Identity Driven Deepfake Face Swapping Detection

2、在EIC的指导下,真样本以显性身份聚集,假样本远离其显性身份,使得真样本和假样本在特征空间中的差异增大。3、进一步探索假样本的隐式身份,标记假人脸的隐式身份,将同一目标视频的假人脸标记为相同隐式身份,确保身份一致性。1、以往工作把人脸转换检测看作是二元分类问题,并以分类为导向去学习分布差异,使得网络难以习得人脸转换的真正内涵,缺少对伪造的理解。将人脸信息划分为隐式身份和显式身份,用隐式身份和显式身份之间的距离作为判断真假的依据,距离非常近则为真实视频,否则为伪造视频。身份出发,对人脸交换进行检测。

2023-09-15 22:22:54 349 2

原创 Dynamic Graph Learning with Content-guided Spatial-Frequency Relation Reasoning 4 Deepfake Detection

3、Dynamic Graph Spatial-Frequency Feature Fusion Network:挖掘空间特征频域特征的高阶关系。(1)Multi-Scale Attention Ensemble (MSAE):获得足够的感受野和丰富的上下文信息。(3)Bilinear Attention Pooling (BAP):获取关系感知的特征。2、空间特征和频率特征之间存在高阶关系,而图卷积网络(GCN)在关系推理中具有巨大的潜力。2、挖掘空间特征和频率特征之间的高阶关系。

2023-09-13 17:56:28 252 2

原创 AltFreezing for More General Video Face Forgery Detection

2、空间伪影比时间不协调性更明显,因此网络倾向于学习简单的空间伪影,使得模型不能依据所有伪影特征做分类,削弱了模型的泛化能力。1、将网络权重分为空间相关和时间相关两组。在训练过程中交替冻结两组权重,使模型能够学习空间特征和时间特征。1、现有的人脸伪造检测模型大多只检测空间伪影或时间伪影。3、引入视频级数据增强方法,以提高模型的泛化能力。2、普通的时空模型容易只依赖于其中一种伪影。使模型具备同时检测空间伪影和时间伪影的能力。3、视频级数据增强有助于提升模型泛化能力。1、空间伪影检测和时间伪影检测同样重要。

2023-09-11 22:15:06 229 2

原创 DF-Platter: Multi-Face Heterogeneous Deepfake Dataset

1、以往研究工作大多检测高分辨率的单人图片或视频,但现有深度伪造技术已有能力处理低分辨率的遮挡、多目标对象。2、在现实应用场景中,deepfake detection技术需要应对面部遮挡、多目标多姿态等非理想情况。2、现有deepfake detection技术在低分辨率情况、多目标情况下,检测性能均显著降低。(3)数据集中的人脸拥有多种属性标注,如性别、年龄、肤色和遮挡。1、在现实应用场景中,为提高传输效率,视频的分辨率大多较低。(1)低分辨率和高分辨率的多目标deepfakes。

2023-09-11 11:09:07 95

原创 Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection

1、阶段一:通过自监督的方式,利用图像信息和音频信息之间的自然对应关系,习得包含面部动作、表情、身份等信息的时间密集特征。1、伪造检测所面临如下挑战:对于伪造检测任务,基于单张视频帧的泛化方法已较为成熟,但这些方法对干扰比较敏感(例如,分辨率压缩)。将时间维度纳入考虑,利用talking faces在外貌和动作中蕴含的丰富信息解决上述问题,同时避免模型过拟合于现有伪造技术。2、阶段二:伪造检测器将时间密集视频特征作为输出目标,并进行伪造分类任务。

2023-09-06 19:49:31 103

原创 VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval

基于视频特性,建立三种视频促进机制,对帧位置(聚合同一帧内的信息)、帧内容(聚合上下文信息到帧内)、层功能进行建模(自适应地协助学习帧内或帧间的亲和关系)(1)文本-视频检索工作需要额外的模块对预训练模型进行微调,这会引入更多参数并增加计算负担;(2)同时为视频和文本编码器引入 prompts,即Co-operative Prompt;(2)用于微调的数据量过低还会造成原有模型的知识遗忘,带来过拟合风险;(3)探索视频prompt,使VoP综合更多帧的时空信息;视频理解需要同时汇总时空信息;

2023-07-25 22:28:31 185

原创 Dual Alignment Unsupervised Domain Adaptation for Video-Text Retrieval

3、提出Dual Alignment Consistency (DAC),逐渐增加正样本对,并使噪声样本在后期对齐,以此生成更多的对齐目标域正样本对,确保目标域特征的鉴别性;仅拉近源域和目标域样本的距离,而忽略了目标域中不同模态数据成对错位的问题,会造成不同语义样本的混淆。彼此最相似,可被视为可靠的正样本对,也就是dual aligned pair;2、通过生成中间域,逐渐连接源域和目标域,最小化域偏移程度;1、利用对比损失,在源域中生成有鉴别性的跨模态语义嵌入;(1)DAC:当且仅当。

2023-07-25 17:59:56 122

原创 Continual Test-Time Domain Adaptation

在无源域域自适应问题中,目标域的状态往往不是静止的,而是随时间发生变化。因此,常用的伪标签方法会存在较大的噪声,并带来误差积累和灾难性遗忘。题目:Continual Test-Time Domain Adaptation。解决误差积累和灾难性遗忘问题。

2023-07-06 11:34:41 210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除