胖胖腐乳-CSDN博客

翻译 EMO: Emote Portrait Alive 译文

我们提出了EMO，一种表达性音频驱动的人像视频生成框架。输入单个参考图像和语音音频，例如说话和唱歌，我们的方法可以生成具有表达性面部表情和各种头部姿势的语音化身视频，同时，我们可以根据输入音频的长度生成任何持续时间的视频。

2024-03-04 16:39:00 158

原创使用pnnx将Torch模型转换为ncnn

PyTorch神经网络eXchange（PNNX）是PyTorch模型互操作性的开放标准。PNNX为PyTorch提供了一种开放的模型格式。它定义了计算图以及严格匹配PyTorch的高级运算符。

2024-01-04 17:12:16 1140

原创使用pyscenedetect进行视频场景切割

在视频剪辑有转场一词：一个视频场景转换到另一个视频场景，场景与场景之间的过渡或转换，就叫做转场。本篇介绍一个强大的开源工具PySceneDetect，它是一款基于opencv的视频场景切换检测和分析工具

2023-12-05 15:21:18 1546

转载 Windows 下使用 SSHFS 通过 SSH 协议挂载远程服务器目录

由于本地磁盘自带容量不足，因此考虑挂载Linux服务区磁盘。一般情况下，我们可以通过 samba 协议挂载远程服务器上的文件夹。然而，并非所有服务器都开放了 samba 端口，特别是在外网情况下，通常只会开放一个 ssh 端口。而 sshfs 是通过 ssh 协议模拟的方式，实现将远程服务器上的硬盘挂载到本地。也就是说，只要你的服务器支持ssh连接，你就可以将服务器的硬盘挂载到本地，然后采用本地的方式来操作硬盘里的文件。下面将介绍使用winfsp + sshfs-win方式挂载Linux磁盘。

2023-11-23 13:49:09 426

原创 OpenGL LUT滤镜算法解析

LUT全称LookUpTable，也称为颜色查找表，它代表的是一种映射关系，通过LUT可以将输入的像素数组通过映射关系转换输出成另外的像素数组。通过这个映射关系就可以将一个像素的颜色转换为另外一种颜色。

2023-10-11 13:40:14 519

转载 Deep Video Portraits解读

我们方法通过迁移源参与者的头部姿势，面部表情和眼睛动作来提供对目标参与者头部的完全控制，同时保留目标的身份和外观。首先，使用SOT的单目人脸重构方法（使用参数化人脸和照明模型）跟踪源和目标参与者，由此得到低的维参数向量序列，表示每个视频帧中参与者的身份，头部姿势，表情，视线和场景照明。合成和编辑视频肖像（即构成人的头部和上半身的视频）是计算机图形学中的一个重要问题，在视频编辑和电影后期制作，虚拟现实和远程呈现等方面有许多的应用。提出了一个可以将粗糙的面部模型转换到真实的人脸视频输出的网络。

2023-09-11 10:43:11 160

转载达摩院CVPR2023人脸重建论文HRN解读——REALY榜单冠军模型

受限于 3DMM 的低维表征，大多数基于 3DMM 的人脸重建方法无法恢复高频面部细节，如皱纹、酒窝等。一些方法尝试引入细节贴图或非线性操作，结果仍然不理想。为此，我们在本文中提出了一种新颖的层次化表征网络 (HRN)，以实现单图的高精细人脸重建。具体来说，我们对人脸几何细节进行了解耦并引入了层次表征来实现精细的人脸建模。同时，结合面部细节的3D先验，提高重建结果的准确性和真实性。我们还提出了一个de-retouching模块，以实现更好的几何和纹理解耦。

2023-08-29 14:47:23 543

原创 Face2Face: Real-time Face Capture and Reenactment of RGB Videos (CVPR 2016) 译文

我们提出了一种用于单目目标视频序列(例如Youtube视频)的实时面部再现的新方法。源序列也是单目视频流，用商品网络摄像头实时捕获。我们的目标是通过源演员将目标视频的面部表情动画化，并以逼真的方式重新渲染被操纵的输出视频。为此，我们首先通过基于非刚性模型的捆绑解决了从单目视频中恢复面部身份的约束不足问题。在运行时，我们使用密集的光度一致性测量来跟踪源视频和目标视频的面部表情。然后通过在源和目标之间快速有效的变形传递来实现再现。从目标序列中检索与重新定位表达最匹配的口腔内部，并扭曲以产生准确的匹配。

2023-08-28 10:54:19 393

原创 Android 使用模拟器模拟Linux操作系统

在Android手机上使用模拟器模拟ubuntu等操作系统，便于测试。

2023-08-25 10:17:23 2789 3

原创在x86机器上的Docker运行arm64容器

工作中常用电脑主机CPU为x86架构，有时由于产品需要，我们需要编译aarch64架构的SDK或者应用程序供使用或者测试。一种比较快捷的方式是使用aarch64的CPU构建相应操作系统，实现真机运行。但在无arm架构CPU环境下，我们可否x86配合相应软件模拟aarch64指令集，实现程序的正常运行呢？答案是可行的，下述方法将介绍一种使用qemu + 容器化部署方式，使我们可在x86机器上的Docker运行arm64容器。

2023-08-25 10:12:45 3256

翻译 StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN 译文

图1。我们的统一框架支持高分辨率的通话人脸生成，通过驾驶视频或音频解除纠缠控制，以及灵活的人脸编辑。我们的方法首次将一次性会说话的人脸生成的分辨率提高到1024×1024。第一行显示了一个视频驱动的交叉身份再现的合成视频。第二行显示了一个由音频驱动的嘴唇运动生成的合成视频。第三行显示，在谈话视频生成过程中，我们可以通过GAN倒置在任何时间戳上一致地自由编辑面部属性。第四行显示，我们可以基于嵌入式3DMM执行直观的人脸编辑以及会说话的人脸生成。

2023-07-18 16:08:10 613

翻译 StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single Video 译文

人脸再现方法试图尽可能真实地恢复和再现人脸特征视频。现有的方法面临着质量与可控性的两难境地:与3D方法相比，基于2D GAN的方法实现了更高的图像质量，但在面部属性的细粒度控制方面受到影响。在本文中，我们提出了StyleAvatar，一种使用基于StyleGAN的网络的实时照片真实感人像头像重建方法，它可以生成具有忠实表情控制的高保真人像头像。我们通过引入组合表示和滑动窗口增强方法来扩展StyleGAN的功能，这使得能够更快地收敛并提高翻译泛化能力。

2023-05-15 13:54:01 1214

翻译 SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking

我们提出了SadTalker，它从音频中生成3DMM的3D运动系数(头部姿势，表情)，并隐式调制了一种新颖的3D感知面部渲染，用于说话的头部生成。为了学习真实的运动系数，我们明确地分别模拟音频和不同类型的运动系数之间的联系。准确地说，我们提出ExpNet通过提取系数和3d渲染的面部来从音频中学习准确的面部表情。对于头部姿势，我们通过一个有条件的VAE来设计PoseVAE来合成不同风格的头部运动。最后，将生成的三维运动系数映射到所提出的人脸渲染的无监督三维关键点空间，并合成最终的视频。

2023-03-14 09:49:55 4134 1