自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

翻译 EMO: Emote Portrait Alive 译文

我们提出了EMO,一种表达性音频驱动的人像视频生成框架。输入单个参考图像和语音音频,例如说话和唱歌,我们的方法可以生成具有表达性面部表情和各种头部姿势的语音化身视频,同时,我们可以根据输入音频的长度生成任何持续时间的视频。

2024-03-04 16:39:00 158

原创 使用pnnx将Torch模型转换为ncnn

PyTorch神经网络eXchange(PNNX)是PyTorch模型互操作性的开放标准。PNNX为PyTorch提供了一种开放的模型格式。它定义了计算图以及严格匹配PyTorch的高级运算符。

2024-01-04 17:12:16 1140

原创 使用pyscenedetect进行视频场景切割

在视频剪辑有转场一词:一个视频场景转换到另一个视频场景,场景与场景之间的过渡或转换,就叫做转场。本篇介绍一个强大的开源工具PySceneDetect,它是一款基于opencv的视频场景切换检测和分析工具

2023-12-05 15:21:18 1546

转载 Windows 下使用 SSHFS 通过 SSH 协议挂载远程服务器目录

由于本地磁盘自带容量不足,因此考虑挂载Linux服务区磁盘。一般情况下,我们可以通过 samba 协议挂载远程服务器上的文件夹。然而,并非所有服务器都开放了 samba 端口,特别是在外网情况下,通常只会开放一个 ssh 端口。而 sshfs 是通过 ssh 协议模拟的方式,实现将远程服务器上的硬盘挂载到本地。也就是说,只要你的服务器支持ssh连接,你就可以将服务器的硬盘挂载到本地,然后采用本地的方式来操作硬盘里的文件。下面将介绍使用winfsp + sshfs-win方式挂载Linux磁盘。

2023-11-23 13:49:09 426

原创 OpenGL LUT滤镜算法解析

LUT全称LookUpTable,也称为颜色查找表,它代表的是一种映射关系,通过LUT可以将输入的像素数组通过映射关系转换输出成另外的像素数组。通过这个映射关系就可以将一个像素的颜色转换为另外一种颜色。

2023-10-11 13:40:14 519

转载 Deep Video Portraits解读

我们方法通过迁移源参与者的头部姿势,面部表情和眼睛动作来提供对目标参与者头部的完全控制,同时保留目标的身份和外观。首先,使用SOT的单目人脸重构方法(使用参数化人脸和照明模型)跟踪源和目标参与者,由此得到低的维参数向量序列,表示每个视频帧中参与者的身份,头部姿势,表情,视线和场景照明。合成和编辑视频肖像(即构成人的头部和上半身的视频)是计算机图形学中的一个重要问题,在视频编辑和电影后期制作,虚拟现实和远程呈现等方面有许多的应用。提出了一个可以将粗糙的面部模型转换到真实的人脸视频输出的网络。

2023-09-11 10:43:11 160

转载 达摩院CVPR2023人脸重建论文HRN解读——REALY榜单冠军模型

受限于 3DMM 的低维表征,大多数基于 3DMM 的人脸重建方法无法恢复高频面部细节,如皱纹、酒窝等。一些方法尝试引入细节贴图或非线性操作,结果仍然不理想。为此,我们在本文中提出了一种新颖的层次化表征网络 (HRN),以实现单图的高精细人脸重建。具体来说,我们对人脸几何细节进行了解耦并引入了层次表征来实现精细的人脸建模。同时,结合面部细节的3D先验,提高重建结果的准确性和真实性。我们还提出了一个de-retouching模块,以实现更好的几何和纹理解耦。

2023-08-29 14:47:23 543

原创 Face2Face: Real-time Face Capture and Reenactment of RGB Videos (CVPR 2016) 译文

我们提出了一种用于单目目标视频序列(例如Youtube视频)的实时面部再现的新方法。源序列也是单目视频流,用商品网络摄像头实时捕获。我们的目标是通过源演员将目标视频的面部表情动画化,并以逼真的方式重新渲染被操纵的输出视频。为此,我们首先通过基于非刚性模型的捆绑解决了从单目视频中恢复面部身份的约束不足问题。在运行时,我们使用密集的光度一致性测量来跟踪源视频和目标视频的面部表情。然后通过在源和目标之间快速有效的变形传递来实现再现。从目标序列中检索与重新定位表达最匹配的口腔内部,并扭曲以产生准确的匹配。

2023-08-28 10:54:19 393

原创 Android 使用模拟器模拟Linux操作系统

在Android手机上使用模拟器模拟ubuntu等操作系统,便于测试。

2023-08-25 10:17:23 2789 3

原创 在x86机器上的Docker运行arm64容器

工作中常用电脑主机CPU为x86架构,有时由于产品需要,我们需要编译aarch64架构的SDK或者应用程序供使用或者测试。一种比较快捷的方式是使用aarch64的CPU构建相应操作系统,实现真机运行。但在无arm架构CPU环境下,我们可否x86配合相应软件模拟aarch64指令集,实现程序的正常运行呢?答案是可行的,下述方法将介绍一种使用qemu + 容器化部署方式,使我们可在x86机器上的Docker运行arm64容器。

2023-08-25 10:12:45 3256

翻译 StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN 译文

图1。我们的统一框架支持高分辨率的通话人脸生成,通过驾驶视频或音频解除纠缠控制,以及灵活的人脸编辑。我们的方法首次将一次性会说话的人脸生成的分辨率提高到1024×1024。第一行显示了一个视频驱动的交叉身份再现的合成视频。第二行显示了一个由音频驱动的嘴唇运动生成的合成视频。第三行显示,在谈话视频生成过程中,我们可以通过GAN倒置在任何时间戳上一致地自由编辑面部属性。第四行显示,我们可以基于嵌入式3DMM执行直观的人脸编辑以及会说话的人脸生成。

2023-07-18 16:08:10 613

翻译 StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single Video 译文

人脸再现方法试图尽可能真实地恢复和再现人脸特征视频。现有的方法面临着质量与可控性的两难境地:与3D方法相比,基于2D GAN的方法实现了更高的图像质量,但在面部属性的细粒度控制方面受到影响。在本文中,我们提出了StyleAvatar,一种使用基于StyleGAN的网络的实时照片真实感人像头像重建方法,它可以生成具有忠实表情控制的高保真人像头像。我们通过引入组合表示和滑动窗口增强方法来扩展StyleGAN的功能,这使得能够更快地收敛并提高翻译泛化能力。

2023-05-15 13:54:01 1214

翻译 SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking

我们提出了SadTalker,它从音频中生成3DMM的3D运动系数(头部姿势,表情),并隐式调制了一种新颖的3D感知面部渲染,用于说话的头部生成。为了学习真实的运动系数,我们明确地分别模拟音频和不同类型的运动系数之间的联系。准确地说,我们提出ExpNet通过提取系数和3d渲染的面部来从音频中学习准确的面部表情。对于头部姿势,我们通过一个有条件的VAE来设计PoseVAE来合成不同风格的头部运动。最后,将生成的三维运动系数映射到所提出的人脸渲染的无监督三维关键点空间,并合成最终的视频。

2023-03-14 09:49:55 4134 1

翻译 One-Shot Face Reenactment on Megapixels 译文

One-Shot Face Reenactment on Megapixels 译文

2023-03-06 14:40:15 518

翻译 Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis 译文

Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis模仿任意说话风格进行真实音频驱动的人脸合成

2023-03-06 14:34:09 670

翻译 Face2Faceρ: Real-Time High-Resolution One-Shot Face Reenactment 译文

Face2Faceρ: Real-Time High-Resolution One-Shot Face Reenactment 译文

2023-03-06 14:23:17 1168

原创 Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读

Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读

2023-03-06 14:15:44 647

原创 人脸及人脸关键点检测开源项目调研

人脸及人脸关键点检测开源项目调研

2023-03-06 14:12:28 507

原创 Android端 TNN编译流程

Android端 TNN编译流程

2023-03-06 14:06:58 278 1

原创 C++构建跨平台引擎调研及总结

C++构建跨平台引擎调研及总结

2023-03-06 14:01:33 153

原创 C++的返回值优化

C++的返回值优化

2023-03-06 13:57:01 141

原创 Windows端内存泄漏检测vld使用

Windows端内存泄漏检测vld使用

2023-03-06 13:52:54 680

原创 TNN模型转换为mem

TNN模型转换为mem

2023-03-06 13:46:21 98

原创 Linux端C++代码移植至Windows端VS配置总结

Linux端C++代码移植至Windows端VS配置总结

2023-03-06 13:45:18 798

原创 macOS13 VM虚拟机搭建

macOS13 VM虚拟机搭建

2023-03-06 13:42:57 3426 2

原创 OpenGLES中的EGL与同异步理解

OpenGLes中的EGL与同异步理解

2023-03-06 11:54:45 823

原创 C++ 标准库async理解

C++ 标准库async理解

2023-03-06 11:49:02 528

原创 OpenGLES跨平台glReadPixels API问题解决

OpenGLES跨平台glReadPixels API问题解决

2023-03-06 11:46:52 474

原创 使用人脸关键点进行人脸对齐与矫正

使用人脸关键点进行人脸对齐与矫正

2023-03-06 11:44:52 1562 1

原创 Vulkan 与 OpenGL 对比

Vulkan 与 OpenGL 对比

2023-03-06 11:38:22 7711 2

原创 BlazeFace 理解

Blazeface模型是Google推出的一款专为移动GPU推理量身定制的轻量级且性能卓越的人脸检测器,BlazeFace 在旗舰移动设备上以200-1000 + FPS的速度运行。 这种超实时性能使其能够应用于任何对性能要求极高的增强现实应用中。

2023-03-06 11:32:46 341

原创 OpenGL 仿射变换原理解析

OpenGL 仿射变换原理解析

2023-03-06 11:26:37 236

原创 美妆素材获取与技术实现

美妆素材获取与技术实现

2023-03-06 11:22:19 50

原创 人像美妆简介与唇彩算法实现

人像美妆简介与唇彩算法实现

2023-03-06 11:14:30 295

原创 使用 OpenCV 进行 Delaunay 三角剖分

人脸复杂形变,换脸,人脸融合等技术均使用到了三角剖分,因此本文介绍下Delaunay三角剖分及OpenCV实现

2023-03-06 10:53:19 393

原创 人脸检测闪烁问题分析与平滑

人脸检测闪烁问题解决

2023-03-06 10:28:26 311

原创 OpenCV编译子模块及重命名流程 VS2019

OpenCV编译子模块及重命名流程 VS2019

2023-03-06 10:20:04 278

原创 TNN 人脸关键点检测模型分析

在腾讯开源的TNN深度学习推理引擎中,存在一个腾讯优图的人脸关键点检测模型,腾讯一直都是良心开源,因此准备测试下其效果和性能,并对其源码进行Debug。

2023-03-06 10:09:20 398

原创 Win端离线授权方案探讨

Win端离线授权方案

2023-03-06 10:01:02 340

原创 XOR加密应用解读

XOR原理解读

2023-03-06 09:49:16 215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除