林林宋-CSDN博客

原创 stabel-TTS

文章目录model archmodel archgithub测试网页text encoder 换成DiT结构；decoder 用flow结构，text 到mel的时长对齐，使用MAS，和Glow-TTS的结构很像【encoder从transformer变成了diffusion】

2024-04-23 14:37:22 51

stable diffusion的输入【step, noisy image，文本特征】,为了加强文本对生成内容的控制，引入classifier free guidance进行控制；有文本控制和没有文本控制的情况下，生成两种噪声，互减之后的部分既是文本引导改变的噪声部分，乘一定的系数对文本引导改变的结果进行加强，再加上没有文本引导部分的噪声，合并成本轮预测的噪声。stable diffusion的推理流程：CLIP模型对文本进行编码，得到文本-图片共享域的embedding；

2024-04-12 19:26:14 377

原创 MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

160，发现增大到8。

2024-04-10 16:38:59 300

原创 MusicHiFi: Fast High-Fidelity Stereo Vocoding

主要用于高精度的音乐场景文章主要做了两件事：（1）低频mel谱输入，生成更高频率的语音；（2）单声道音频生成立体声；整体包含三个结构：(1)低频vocoder，低频mel还原低频音频；（2）band-width extension：HiFi vocder，低频音频生成高频音频；（3）mono-to-stereo，变立体声。三个部分使用的都是BigVGAN的结构，权重/loss独立。

2024-03-18 19:17:53 167

原创 naturspeech3

文章目录abstractmodel archabstractmodel arch

2024-03-14 19:25:15 130

转载 HIFI-CODEC

本文提出一个高分辨率的编解码器，HiFiCodecs，提出了group-residual vector quantization (GRVQ)的方案，使用4个码本。本文的motivation:在保证高质量还原的目标下，使用更少的码本。因为RVQ的第一个码本包含最多的信息，因此对于第一层编码，使用多个码本，即GroupRVQ。

2024-01-14 15:42:47 98

原创 LauraGPT

git：https://github.com/alibaba-damo-academy/FunCodec

2024-01-05 14:31:35 773

原创 Charsiu-G2P

‒ 输入格式：“language关键字+文本”首先过transformer-AutoTokenizer按照letter进行编码；编码序列送入charsiug2p模型（T5ForConditionalGeneration）‒ 输出格式：输出也是来源于发音词典 & g2p 模型预测结果两个部分。

2023-12-06 14:04:37 157

原创【meta-mms-tts+uroma encoding】Scaling Speech Technology to 1,000+ Languages

uroman转写工具N-to-M mapping 转写的规范，包含一些中文-拼音，拉丁文-读法的规则转换。字符串匹配规则下的查字典；将字母对应到发音单元转写规范转写过程尽量做到可逆映射；忽略变音符号，比如ouou`ou和ououou，转写结果是一样的；不会对缺乏原音的文本进行元音化数字，除了0-9一一进行阿拉伯数字的对应，还会对不同语言书写格式转写到阿拉伯计数上；

2023-11-30 16:36:53 177

原创多语言TTS：Multilingual speech synthesis

相似语种，英文-西班牙语的音色迁移更容易一些，英文-普通话效果差一些；motivation：单语种多语言发音问题。音色迁移成功，不代表口音native。

2023-11-13 16:32:06 226 1

原创 tf-lite转换记录

【代码】tf-lite转换记录。

2023-10-07 11:20:09 136

原创小约翰可汗视频随记

霍查，1946-1986，劳动党，统治阿尔巴尼亚40年，坚定支持苏联&斯大林，对外外交全凭个人喜好。先后与多国交恶，在国内大修军事基建以及储备军火。被国内的拥护者宣称霍查永生，墓碑只有生年，没有卒日。意大利人，ponz，在美国搞得邮票骗局，生成可以支付40%的利息，因而募集到大量的社会资金。死后暴雷，人们发现高额的利息是新钱还旧债，因此被称为“庞氏骗局”。

2023-10-07 11:18:41 122

原创 GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

目标：做out-of-domain （OOD）style transfer(情感、音色、韵律）两个改进：（1）multi-level style adaptor ：包括global style以及 local style (utterance, phoneme, and word-level)；(2) content adaptor with Mix-Style Layer Normalization：用以消除输入文本特征中的风格信息，改善模型泛化能力；

2023-08-28 21:14:12 143

原创 LLM-chatgpt训练过程

OTPOtT。

2023-08-25 16:36:25 1451

原创 NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

想要zero-shot的实现TTS音色复刻，包括对韵律，多样性风格的复刻。方法：neural codec/decodec的方法，和vall-e/audio_LM等不同的是，本文使用的是量化后的index编码回查码本的连续域向量（这个选择后文说理由），代替传统TTS系统中使用的声学特征（mel之类）。声学模型部分和fastspeech类似，输入音素，预测phn/pitch/duration相关的信息，送给diffusion结构作为condition，预测编码的连续域向量，最后通过镜像结构的解码器生成音频。

2023-08-06 00:47:27 280

原创 DDPM和DDIM

拿到预训练的DDPM之后可以选择其中一部分的时间节点进行反向过程，中间的（t-1）步实际上都被优化好了；因此训练的时候可以选

2023-08-02 22:06:03 2685

原创 mega-TTS 1&2

大数据是关键，pooling的结构是关键----prosody encoder选择mean-pooling=8，因为统计数据集的phn-dur平均值为9.1(phoneme pooling或者8倍pooling，个人认为8倍会好一点，比phoneme更鲁棒，因为脏数据提取的phoneme边界不太准确)，content length需要用对齐信息扩展到T，然后//8。并且prompt是音乐，生成的就是音乐，prompt是底噪，生成的也会有一定底噪。加适当英文是对中文有提升的，但是英文数据尽量不要远大于中文；

2023-07-24 22:12:30 2246 3

原创大文件下载

google chrome下载大文件的时候，没有断点续传的功能，会因为网络不稳定多次下载失败。

2023-07-05 17:13:31 301

翻译 Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short

motivation：VITS的质量很好，本文工作旨在用更小的模型、更快的推理速度实现高质量合成。最耗时的是decoder（HFG）生成波形的模块，用iSTFTNet取代，完成频域到时域的转化；multi-band生成：each iSTFT module generates sub-band signals, summed to generate the full-band target waveform.

2023-07-04 10:30:58 145

原创 Self-Supervised Representations for Singing Voice Conversion

2023.3meta AImethod本文更偏向于多个维度实验之后的经验分享，实操性还是比较强的hubert提取content embedding，f0经过f0-encoder得到更多的谐波表征，speaker-emb经由LUT之后，三种特征拼接在一起送入HiFiGan.基频处理的方式如下图实验结果speech+sing的数据比sing-single的数据合成质量更好；本文用24k数据200h 高保真说话，10+h歌唱数据（NUS48E+CSD+AmericanSong）自监督

2023-05-16 11:51:38 165

翻译 ImageBind: One Embedding Space To Bind Them All

问题：当人类接触世界的时候，视觉，听觉，嗅觉，触觉等多个感官都在接收信息。而当前的多模态任务，实际上是两个模态之间的交互，比如image-text pair，speech-text pair，image-audio pair，实际上并没有实现视觉-图像-文本三个模态的打通。主要难点在于，如果想要在同一空间建立多个模态的映射，就需要对于一张图片多个模态的描述信息，而这样的数据集是不存在。

2023-05-10 21:47:44 285

翻译 AudioLM: a Language Modeling Approach to Audio Generation

motivation：生成高质量的音频，且具有长时相关性。speech量化成discrete tokens，然后恢复成音频。

2023-04-28 17:55:06 709

原创多模态论文串讲：ALBEF & VLMo & BLIP & CoCa & Beit V3

image text matching loss(ITM Loss)：经由fc layer，实际上是一个二分类loss，判断一个【text，image】是不是一对数据，但实际训练中，会有大量的分类结果为否的情况，使得ITM Loss看起来很低，但实际并不一定起到足够的效果。因此，从ITC对比学习计算的cosine distance中选择和真实样本距离最近的（最难分辨的，称之为hard negatives)，用于ITM loss训练；损失函数：2个IT，2个MLM，1个ITM。

2023-04-25 21:53:16 747

翻译 DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

使用降噪diffusion模型完成TTS任务，引入GAN训练进一步增强生成质量。只需要4步就可以生成高质量语音，方法分为两个阶段：（1）训练一个TTS声学模型提供先验知识，（2）训练DDPM。也可以进通过一步denoising生成语音。

2023-04-20 19:41:10 389

翻译 SPEAR-TTS：Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

用两种离散的特征表示，将TTS分解成两个seq2seq任务：（1）文本到semantic tokens，类似于reading，需要audio-text平行数据（2）semantic tokens到acoustic tokens，类似于speaking，只需要纯音频，因此最终生成音频的质量和多样性和可获得的平行数据无关了。因为常规处理方法下，TTS需要平行数据（text-audio pair），这就导致数据来源受限。通过这样两阶段的改进，就可以利用到网上的海量的纯音频数据。

2023-04-17 22:03:02 660

原创 InstructTTS: Modeling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt

风格控制TTS的常见做法：（1）style-index控制，但是只能合成预设风格的语音，无法拓展；（2）reference encoder提取不可解释的style embedding用于风格控制。本文参考语言模型的方法，使用自然语言提示，控制提示语义下的风格。为此，专门构建一个数据集，speech+text，以及对应的自然语言表示的风格描述。

2023-04-14 20:07:48 632

翻译乌龟TTS--TorToiSe

当前图像生成领域发生重大变革，趋势有两个：一是自回归transformer，二是DDPM。本文尝试将这两种方法的优点结合，将大规模预训练语言模型领域的经验引入合成，实现高表现力，多音色的语音合成，并将此工作命名为TorToiSe。本文使用UnivNet作为vocoder进行波形重建。本文通过：（1）使用通用的transformer结构；（2）使用超大的、高质量的数据集；（3）用非常大的batch_size训练。实现了SOTA的语音合成。

2023-03-27 20:06:44 1282

翻译 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

SpeechT5 将speech和text投射到共享高维空间中，提取通用模态表征。encoder-decoder的结构，以及six modal-specific (speech/text) pre/post-nets，单独处理text和speech。在多项下游任务中取得优势，包括ASR、TTS、speech translation,VC，speech identification (SID)，speech enhancement (SE)

2023-03-24 17:54:05 556

翻译 Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentatio

痛点：speech2speech translation平行数据稀缺，常规的方法是级联ASR-MT-TTS的方法制造平行数据。方案：使用无标签数据+自监督方法+数据增广，使用一个speech-to-unit translation的工具（S2UT)，将音频编码为离散的表征，然后通过pretrain+局部finetune的方法，对离散的表征进行优化，最后通过unit HiFi-GAN vocoder 合成为另外一个语种的音频。

2023-03-23 21:04:36 161

原创付鹏财经视频笔记

在经济下行周期，利率下降，市场上有很多热钱，这时候人们会觉得所有的东西在巨量流动的资金下都很便宜，买买买造成对实物标的进行冲击，比如08年放水导致的房价上升，18年放水带来的虚拟货币上升，以及当时市场上一些项目投融资获得巨额的估值。相反，当一个公司业绩下滑时，每股收益减少或下降，市场给予的估值也下降，股价得到相乘倍数的下跌，这就叫戴维斯双杀。但是现在这个利差逐渐缩小，甚至反过来，短期利率>长期利率，原来的投资杠杆不存在了，如果长期维持这个现状会发生什么问题？但是此后，有可能是反过来了。

2023-03-21 14:24:54 167

原创 diffusion-TTS : ProDiff & FastDiff

DDPMs的模型因为迭代采样的方法，因而生成速度受限。本为提出一种快速高质量端到端TTS生成的方法：（1）使用一系列不同感知野的time-aware location-variable conv，通过adaptive condition实现了高效的长时建模。(2) 使用noise schedule predictor，在不牺牲质量的情况下减少采样步数。结果：在V100上实现58x实时。对unseen mel的泛化性比较好。首次工业级实时的diffusion-TTS。

2023-03-15 21:56:12 720

翻译 Learning the Beauty in Songs: Neural Singing Voice Beautifier

歌唱修音主要难点在于将基频和对应歌曲模板对齐，传统的是使用DTW或者CTW(Canonical Time Warping)算法，本文提出Shape-Aware DTW算法，可以改善对齐的鲁棒性。传统的修音只考虑了基频对齐，没有考虑整体听感的舒适感，本文将说话人的歌唱分为两部分：（1）vocal tone，是各种歌唱技巧的统称，（2）vocal timbre，具体指的是发音人的个性，比如音色。

2023-03-09 21:49:28 153

翻译 Bag of Tricks for Unsupervised Text-to-Speech

在少量无监督数据，做语音合成。

2023-03-07 22:58:28 229

原创 CLIP & CLAP

CLIP/CLAP，图文/音频文字+对抗学习的表征

2023-03-07 15:46:32 1054

翻译 Fre-gan: Adversarial frequency-consistent audio synthesis

神经网络声码器在面对频率域真实谱和生成谱的不同时，会产生比如嘶嘶声，回声等噪音。本文的Fre-GAN可以完成更高质量的合成：（1）提出resolution-connected generator和resolution-wise discriminator，有助于在多个频带中学习多样的谱分布。（2）在判别器中使用离散小波变换代替average pooling作为降采样的方法，因为DWT可以确保所有的信息被保留，而AP会洗掉一些高频的成分。

2023-02-10 17:30:53 125

翻译 Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

做了什么事情？支持各种形式的输入（文本，音频，图片，视频），最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。text-to-audio生成的难点：（1）没有大量的txt-audio数据，（2）生成唱的连续音频较难；Make-An-Audio 的做法：（1）数据问题：使用distill-then-reprogram的方法引入伪prompt enhancement，从而实现对海量无标注语音数据的利用；

2023-02-10 14:20:48 805

原创 GNN:A Gentle Introduction to Graph Neural Networks

由点，点链接的边组成的拓扑结构，包括有向图，无向图等。可以用于表示现实生活的物理含义，比如人和人之间的关系，分子结构等。图的数据存储可以由邻接矩阵表示，但是由于有的图包含的点非常多，对应的邻接矩阵也会非常大。虽然可以进行稀疏化存储，但是稀疏化的数据并不利于模型学习。因此，在GNN中，用点，边，边对应的节点三种数据组合表示一张图。因为图具有对称性，变换点的index顺序，对应的边，以及边对应节点的顺序也会发生改变，但是图还是一张图。

2023-02-08 10:45:42 342

原创 NLP发展关键模型：BERT，GPT

基于深度学习的nlp发展进程

2023-02-07 15:32:54 740

原创 2023待看论文清单

待看论文

2023-02-02 19:47:44 95

翻译 DelightfulTTS

提出一种高效有用的高质量语音生成系统：生成48KHz语音，本文使用声学模型生成16khz的，然后HiFiNet将16K的mel-spec再升采样为48k语音，在训练效率，模型稳定度、语音质量上求得折中。建模变量：输入的特征：（1）说话人id，语言id，pitch, duration，前两个都使用look up table；reference encoder编码；使用优化后的Conformer结构，实现更好的local & global建模。

2023-02-02 19:46:19 437

数字信号处理，理论算法与实现

自适应滤波器原理

空空如也