自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(303)
  • 资源 (2)
  • 收藏
  • 关注

原创 stabel-TTS

文章目录model archmodel archgithub测试网页text encoder 换成DiT结构;decoder 用flow结构,text 到mel的时长对齐,使用MAS,和Glow-TTS的结构很像【encoder从transformer变成了diffusion】

2024-04-23 14:37:22 51

原创 stable diffusion基本原理

stable diffusion的输入【step, noisy image,文本特征】,为了加强文本对生成内容的控制,引入classifier free guidance进行控制;有文本控制和没有文本控制的情况下,生成两种噪声,互减之后的部分既是文本引导改变的噪声部分,乘一定的系数对文本引导改变的结果进行加强,再加上没有文本引导部分的噪声,合并成本轮预测的噪声。stable diffusion的推理流程:CLIP模型对文本进行编码,得到文本-图片共享域的embedding;

2024-04-12 19:26:14 377

原创 MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

160,发现增大到8。

2024-04-10 16:38:59 300

原创 MusicHiFi: Fast High-Fidelity Stereo Vocoding

主要用于高精度的音乐场景文章主要做了两件事:(1)低频mel谱输入,生成更高频率的语音;(2)单声道音频生成立体声;整体包含三个结构:(1)低频vocoder,低频mel还原低频音频;(2)band-width extension:HiFi vocder,低频音频生成高频音频;(3)mono-to-stereo,变立体声。三个部分使用的都是BigVGAN的结构,权重/loss独立。

2024-03-18 19:17:53 167

原创 naturspeech3

文章目录abstractmodel archabstractmodel arch

2024-03-14 19:25:15 130

转载 HIFI-CODEC

本文提出一个高分辨率的编解码器,HiFiCodecs,提出了group-residual vector quantization (GRVQ)的方案,使用4个码本。本文的motivation:在保证高质量还原的目标下,使用更少的码本。因为RVQ的第一个码本包含最多的信息,因此对于第一层编码,使用多个码本,即GroupRVQ。

2024-01-14 15:42:47 98

原创 LauraGPT

git:https://github.com/alibaba-damo-academy/FunCodec

2024-01-05 14:31:35 773

原创 Charsiu-G2P

‒ 输入格式:“language关键字+文本”首先过transformer-AutoTokenizer按照letter进行编码;编码序列送入charsiug2p模型(T5ForConditionalGeneration)‒ 输出格式:输出也是来源于发音词典 & g2p 模型预测结果两个部分。

2023-12-06 14:04:37 157

原创 【meta-mms-tts+uroma encoding】Scaling Speech Technology to 1,000+ Languages

uroman转写工具N-to-M mapping 转写的规范,包含一些中文-拼音,拉丁文-读法的规则转换。字符串匹配规则下的查字典;将字母对应到发音单元转写规范转写过程尽量做到可逆映射;忽略变音符号,比如ouou`ou和ououou,转写结果是一样的;不会对缺乏原音的文本进行元音化数字,除了0-9一一进行阿拉伯数字的对应,还会对不同语言书写格式转写到阿拉伯计数上;

2023-11-30 16:36:53 177

原创 多语言TTS:Multilingual speech synthesis

相似语种,英文-西班牙语的音色迁移更容易一些,英文-普通话效果差一些;motivation:单语种多语言发音问题。音色迁移成功,不代表口音native。

2023-11-13 16:32:06 226 1

原创 tf-lite转换记录

【代码】tf-lite转换记录。

2023-10-07 11:20:09 136

原创 小约翰可汗视频随记

霍查,1946-1986,劳动党,统治阿尔巴尼亚40年,坚定支持苏联&斯大林,对外外交全凭个人喜好。先后与多国交恶,在国内大修军事基建以及储备军火。被国内的拥护者宣称霍查永生,墓碑只有生年,没有卒日。意大利人,ponz,在美国搞得邮票骗局,生成可以支付40%的利息,因而募集到大量的社会资金。死后暴雷,人们发现高额的利息是新钱还旧债,因此被称为“庞氏骗局”。

2023-10-07 11:18:41 122

原创 GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

目标:做out-of-domain (OOD)style transfer(情感、音色、韵律)两个改进:(1)multi-level style adaptor :包括global style以及 local style (utterance, phoneme, and word-level);(2) content adaptor with Mix-Style Layer Normalization:用以消除输入文本特征中的风格信息,改善模型泛化能力;

2023-08-28 21:14:12 143

原创 LLM-chatgpt训练过程

OT​POtT​。

2023-08-25 16:36:25 1451

原创 NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

想要zero-shot的实现TTS音色复刻,包括对韵律,多样性风格的复刻。方法:neural codec/decodec的方法,和vall-e/audio_LM等不同的是,本文使用的是量化后的index编码回查码本的连续域向量(这个选择后文说理由),代替传统TTS系统中使用的声学特征(mel之类)。声学模型部分和fastspeech类似,输入音素,预测phn/pitch/duration相关的信息,送给diffusion结构作为condition,预测编码的连续域向量,最后通过镜像结构的解码器生成音频。

2023-08-06 00:47:27 280

原创 DDPM和DDIM

拿到预训练的DDPM之后可以选择其中一部分的时间节点进行反向过程,中间的(t-1)步实际上都被优化好了;因此训练的时候可以选

2023-08-02 22:06:03 2685

原创 mega-TTS 1&2

大数据是关键,pooling的结构是关键----prosody encoder选择mean-pooling=8,因为统计数据集的phn-dur平均值为9.1(phoneme pooling或者8倍pooling,个人认为8倍会好一点,比phoneme更鲁棒,因为脏数据提取的phoneme边界不太准确),content length需要用对齐信息扩展到T,然后//8。并且prompt是音乐,生成的就是音乐,prompt是底噪,生成的也会有一定底噪。加适当英文是对中文有提升的,但是英文数据尽量不要远大于中文;

2023-07-24 22:12:30 2246 3

原创 大文件下载

google chrome下载大文件的时候,没有断点续传的功能,会因为网络不稳定多次下载失败。

2023-07-05 17:13:31 301

翻译 Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short

motivation:VITS的质量很好,本文工作旨在用更小的模型、更快的推理速度实现高质量合成。最耗时的是decoder(HFG)生成波形的模块,用iSTFTNet取代,完成频域到时域的转化;multi-band生成:each iSTFT module generates sub-band signals, summed to generate the full-band target waveform.

2023-07-04 10:30:58 145

原创 Self-Supervised Representations for Singing Voice Conversion

2023.3meta AImethod本文更偏向于多个维度实验之后的经验分享,实操性还是比较强的hubert提取content embedding,f0经过f0-encoder得到更多的谐波表征,speaker-emb经由LUT之后,三种特征拼接在一起送入HiFiGan.基频处理的方式如下图实验结果speech+sing的数据比sing-single的数据合成质量更好;本文用24k数据200h 高保真说话,10+h歌唱数据(NUS48E+CSD+AmericanSong)自监督

2023-05-16 11:51:38 165

翻译 ImageBind: One Embedding Space To Bind Them All

问题:当人类接触世界的时候,视觉,听觉,嗅觉,触觉等多个感官都在接收信息。而当前的多模态任务,实际上是两个模态之间的交互,比如image-text pair,speech-text pair,image-audio pair,实际上并没有实现视觉-图像-文本三个模态的打通。主要难点在于,如果想要在同一空间建立多个模态的映射,就需要对于一张图片多个模态的描述信息,而这样的数据集是不存在。

2023-05-10 21:47:44 285

翻译 AudioLM: a Language Modeling Approach to Audio Generation

motivation:生成高质量的音频,且具有长时相关性。speech量化成discrete tokens,然后恢复成音频。

2023-04-28 17:55:06 709

原创 多模态论文串讲:ALBEF & VLMo & BLIP & CoCa & Beit V3

image text matching loss(ITM Loss):经由fc layer,实际上是一个二分类loss,判断一个【text,image】是不是一对数据,但实际训练中,会有大量的分类结果为否的情况,使得ITM Loss看起来很低,但实际并不一定起到足够的效果。因此,从ITC对比学习计算的cosine distance中选择和真实样本距离最近的(最难分辨的,称之为hard negatives),用于ITM loss训练;损失函数:2个IT,2个MLM,1个ITM。

2023-04-25 21:53:16 747

翻译 DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

使用降噪diffusion模型完成TTS任务,引入GAN训练进一步增强生成质量。只需要4步就可以生成高质量语音,方法分为两个阶段 :(1)训练一个TTS声学模型提供先验知识,(2)训练DDPM。也可以进通过一步denoising生成语音。

2023-04-20 19:41:10 389

翻译 SPEAR-TTS:Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

用两种离散的特征表示,将TTS分解成两个seq2seq任务:(1)文本到semantic tokens,类似于reading,需要audio-text平行数据(2)semantic tokens到acoustic tokens,类似于speaking,只需要纯音频,因此最终生成音频的质量和多样性和可获得的平行数据无关了。因为常规处理方法下,TTS需要平行数据(text-audio pair),这就导致数据来源受限。通过这样两阶段的改进,就可以利用到网上的海量的纯音频数据。

2023-04-17 22:03:02 660

原创 InstructTTS: Modeling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt

风格控制TTS的常见做法:(1)style-index控制,但是只能合成预设风格的语音,无法拓展;(2)reference encoder提取不可解释的style embedding用于风格控制。本文参考语言模型的方法,使用自然语言提示,控制提示语义下的风格。为此,专门构建一个数据集,speech+text,以及对应的自然语言表示的风格描述。

2023-04-14 20:07:48 632

翻译 乌龟TTS--TorToiSe

当前图像生成领域发生重大变革,趋势有两个:一是自回归transformer,二是DDPM。本文尝试将这两种方法的优点结合,将大规模预训练语言模型领域的经验引入合成,实现高表现力,多音色的语音合成,并将此工作命名为TorToiSe。本文使用UnivNet作为vocoder进行波形重建。本文通过:(1)使用通用的transformer结构;(2)使用超大的、高质量的数据集;(3)用非常大的batch_size训练。实现了SOTA的语音合成。

2023-03-27 20:06:44 1282

翻译 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

SpeechT5 将speech和text投射到共享高维空间中,提取通用模态表征。encoder-decoder的结构,以及six modal-specific (speech/text) pre/post-nets,单独处理text和speech。在多项下游任务中取得优势,包括ASR、TTS、speech translation,VC,speech identification (SID),speech enhancement (SE)

2023-03-24 17:54:05 556

翻译 Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentatio

痛点:speech2speech translation平行数据稀缺,常规的方法是级联ASR-MT-TTS的方法制造平行数据。方案:使用无标签数据+自监督方法+数据增广,使用一个speech-to-unit translation的工具(S2UT),将音频编码为离散的表征,然后通过pretrain+局部finetune的方法,对离散的表征进行优化,最后通过unit HiFi-GAN vocoder 合成为另外一个语种的音频。

2023-03-23 21:04:36 161

原创 付鹏财经视频笔记

在经济下行周期,利率下降,市场上有很多热钱,这时候人们会觉得所有的东西在巨量流动的资金下都很便宜,买买买造成对实物标的进行冲击,比如08年放水导致的房价上升,18年放水带来的虚拟货币上升,以及当时市场上一些项目投融资获得巨额的估值。相反,当一个公司业绩下滑时,每股收益减少或下降,市场给予的估值也下降,股价得到相乘倍数的下跌,这就叫戴维斯双杀。但是现在这个利差逐渐缩小,甚至反过来,短期利率>长期利率,原来的投资杠杆不存在了,如果长期维持这个现状会发生什么问题?但是此后,有可能是反过来了。

2023-03-21 14:24:54 167

原创 diffusion-TTS : ProDiff & FastDiff

DDPMs的模型因为迭代采样的方法,因而生成速度受限。本为提出一种快速高质量端到端TTS生成的方法:(1)使用一系列不同感知野的time-aware location-variable conv,通过adaptive condition实现了高效的长时建模。(2) 使用noise schedule predictor,在不牺牲质量的情况下减少采样步数。结果:在V100上实现58x实时。对unseen mel的泛化性比较好。首次工业级实时的diffusion-TTS。

2023-03-15 21:56:12 720

翻译 Learning the Beauty in Songs: Neural Singing Voice Beautifier

歌唱修音主要难点在于将基频和对应歌曲模板对齐,传统的是使用DTW或者CTW(Canonical Time Warping)算法, 本文提出Shape-Aware DTW算法,可以改善对齐的鲁棒性。传统的修音只考虑了基频对齐,没有考虑整体听感的舒适感,本文将说话人的歌唱分为两部分:(1)vocal tone,是各种歌唱技巧的统称,(2)vocal timbre,具体指的是发音人的个性,比如音色。

2023-03-09 21:49:28 153

翻译 Bag of Tricks for Unsupervised Text-to-Speech

在少量无监督数据,做语音合成。

2023-03-07 22:58:28 229

原创 CLIP & CLAP

CLIP/CLAP,图文/音频文字+对抗学习的表征

2023-03-07 15:46:32 1054

翻译 Fre-gan: Adversarial frequency-consistent audio synthesis

神经网络声码器在面对频率域真实谱和生成谱的不同时,会产生比如嘶嘶声,回声等噪音。本文的Fre-GAN可以完成更高质量的合成:(1)提出resolution-connected generator和resolution-wise discriminator,有助于在多个频带中学习多样的谱分布。(2)在判别器中使用离散小波变换代替average pooling作为降采样的方法,因为DWT可以确保所有的信息被保留,而AP会洗掉一些高频的成分。

2023-02-10 17:30:53 125

翻译 Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

做了什么事情?支持各种形式的输入(文本,音频,图片,视频),最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。text-to-audio生成的难点:(1)没有大量的txt-audio数据,(2)生成唱的连续音频较难;Make-An-Audio 的做法:(1)数据问题:使用distill-then-reprogram的方法引入伪prompt enhancement,从而实现对海量无标注语音数据的利用;

2023-02-10 14:20:48 805

原创 GNN:A Gentle Introduction to Graph Neural Networks

由点,点链接的边组成的拓扑结构,包括有向图,无向图等。可以用于表示现实生活的物理含义,比如人和人之间的关系,分子结构等。图的数据存储可以由邻接矩阵表示,但是由于有的图包含的点非常多,对应的邻接矩阵也会非常大。虽然可以进行稀疏化存储,但是稀疏化的数据并不利于模型学习。因此,在GNN中,用点,边,边对应的节点三种数据组合表示一张图。因为图具有对称性,变换点的index顺序,对应的边,以及边对应节点的顺序也会发生改变,但是图还是一张图。

2023-02-08 10:45:42 342

原创 NLP发展关键模型:BERT,GPT

基于深度学习的nlp发展进程

2023-02-07 15:32:54 740

原创 2023待看论文清单

待看论文

2023-02-02 19:47:44 95

翻译 DelightfulTTS

提出一种高效有用的高质量语音生成系统:生成48KHz语音,本文使用声学模型生成16khz的,然后HiFiNet将16K的mel-spec再升采样为48k语音,在训练效率,模型稳定度、语音质量上求得折中。建模变量:输入的特征:(1)说话人id,语言id,pitch, duration,前两个都使用look up table;reference encoder编码;使用优化后的Conformer结构,实现更好的local & global建模。

2023-02-02 19:46:19 437

数字信号处理,理论算法与实现

数字信号处理,理论算法与实现 胡广书, pdf可编辑版本

2018-05-09

自适应滤波器原理

自适应滤波器原理,第四版, 西蒙赫金 原理推导 LMS,NLMS

2018-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除