Aidanmomo-CSDN博客

原创 Joint Time-Frequency and Time Domain Learning for Speech Enhancement

对于单通道语音增强，基于时域的方法和基于时频域的方法各有优劣，本文提出了一种跨域框架，TFT-Net，该模型以时频谱作为输入，以时域波形信号作为输出。该方法利用了我们所掌握的关于频谱的知识，避免了T-F域方法存在的缺点。在TFT-Net中，我们设计了一个双路注意力块（DAB），以充分利用沿时间和频率轴的相关性。本文进一步发现，独立于样本的DAB(SDAB)在提高与语音质量和复杂性之间实现了良好的权衡。消融实验的结果表明，跨域设计和SDAB块对模型性能的提升帮助很大。典型的时频域方法如图1（a）所示，网络的

2022-06-12 15:25:10 1650 1

原创 DPT-FSNET: DUAL-PATH TRANSFORMER BASED FULL-BAND AND SUB-BAND FUSION NETWORK FOR SPEECH ENHANCEMENT

子带模型对谱图的局部模式建模方面取得了较好的结果。已有部分工作将子带信息和全带信息进行融合，以提升模型的性能。本文提出了一种基于transformer的双分支全带、子带融合网络（DPT-FSNet），用于频域的语音增强。模型的intra和inter部分分别对子带信息和全带信息进行建模。本文提出的方法所使用的特征比时域的双分支网络所使用的的特征更易解释。本文在Voice Bank+ DEMAND和Interspeech2020 Deep Noise Suppression数据集上进行了实验对比，实现了SOTA

2022-06-04 15:29:08 4097

原创 Teacher-Student Learning For Low-latency Online Speech Enhancement Using Wave-U-Net

文章目录ICASSP 20210. 摘要1. 简介2. Wave-U-Net for Speech Enhancement3. Proposed Online Low-latency Model3.1 Online Wave-U-Net3.2 Teacher-Student Learning for Knowledge Transfer4. 实验阶段4.1 Datasets4.2 Networks architectures and training settings4.3 实验结果ICASSP 202

2022-04-19 15:15:07 1723

原创 Neural Noise Embedding for End to End Speech Enhancement with Conditional Layer Normalization

文章目录ICASSP20210. 摘要1. 简介2. 模型方法2.1 Conditional Layer Normalization2.2 网络架构2.3 损失函数3. 实验3.1 实验步骤3.2 噪声嵌入向量的可视化3.3 实验结果ICASSP20210. 摘要为了应对各种复杂的噪声场景，本文引入了一种新的增强架构，它将深度自动编码器与神经噪声嵌入相结合。在这项研究中，引入了一种新的归一化方法，称为条件层归一化 (CLN)，以改进基于深度学习的语音增强方法对unseen environments

2022-04-16 20:53:40 2939 1

原创 Dynamic noise embedding: Noise aware training and adaptation for speech enhancement

文章目录0. 摘要1. 简介2. Proposed method2.1 Estimating confident noise frames2.2 Dynamic Noise Embedding3. Speech Enhancement Module4. Voice Activity Detection Module5. 实验步骤6. 结果分析6.1 DNE在SE模型中的有效性6.2 Finding optimal threshold for the DNE6.3 Expansion to other neu

2022-04-15 09:32:12 242

原创 Noise aware learning for speech enhancement

文章目录1. Noise prior knowledge learning for speech enhancement via gated convolutional generative adversarial network1.1 摘要1.2 语音增强生成对抗网络SEGAN1.3 本文提出的方法1.4 实验分析2. A noise prediction and time-domain subtraction approach to deep neural network based speech en

2022-04-14 16:49:31 234

原创 VARIATIONAL AUTOENCODER FOR SPEECH ENHANCEMENT WITH A NOISE-AWARE ENCODER

文章目录0. 摘要1. Introduction0. 摘要当前有许多噪声适应技术用于对语音增强的深度学习模型进行微调，从而适应噪声环境不匹配的问题。然而，对新环境的适应可能导致对之前学习环境的灾难性遗忘。本文提出了一种基于正则化的增量学习语音增强策略(regularization-based incremental learning SE, SERIL)，在不使用额外存储的情况下补充了现有的噪声适应策略。通过正则化约束，参数被更新到新的噪声环境，同时保留了先前噪声环境的知识。1. Introduct

2022-04-12 20:35:19 2540 2

原创 DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

文章目录1. 简介2. 模型架构2.1 分段2.2 块处理2.3 重叠相加3. 实验部分1. 简介DPRNN提出的依据：因此如果出现超长的语音序列，使用传统的RNN模型将无法高效的处理。而一维卷积的感受野小于音频序列长度，因此无法进行utterance-level的语音分离。DPRNN 是一种双路径递归神经网络，在深度模型上优化RNN，使其可以对极长的语音序列进行建模。其将较长的音频片段分成较小的块（chunk），迭代应用块内和块间操作。当前时域的语音分离方法主要分为两个部分：自适应前端和直接回归

2022-04-04 16:49:52 2930

原创 Divide and Conquer: A Deep CASA Approach toTalker-Independent Monaural Speaker Separation

0. Abstract本文从深度学习和计算听觉场景分析(CASA)的角度解决与说话者无关的单通道语音分离问题。具体来说，本文将多说话人分离任务分解为同时分组（Simultaneous grouping）和顺序分组(sequential grouping)阶段。首先在每个时间帧中执行同时分组，其通过使用排列不变训练的神经网络分离不同说话者的频谱。在第二阶段，上一步得到的帧级分离频谱通过聚类网络顺序分组到不同的说话人。所提出的深度CASA方法依次优化了帧级分离和说话人跟踪，并在这两个目标上取得了很好的结果。.

2022-03-10 15:09:44 3443

原创 Wavesplit: End-to-End Speech Separation by Speaker Clustering

0. Abstract本文提出了一种端到端声源分离系统，Wavesplit。从混合语音中，模型推断每个声源的表示，然后根据每个声源的特征表示进一步估计声源，该模型经过训练，可以从原始波形中联合执行这两项任务。Wavesplit通过聚类推断一组声源的特征表示，其解决了声源分离的基本排列问题。在语音分离任务中，本文工作对长语音序列具有更加稳健的分离性能。本文模型在2人/3人纯净语音(WSJ0-2/3mix)，以及带噪语音、混响语音数据集都获得STOA性能。1. Introduction设计的模型能够保持.

2022-03-08 17:04:36 3332 1

原创 AST：Audio Spectrogram Transformer

文章目录0. Abstract1. Introduction2. Audio spectrogram transformer2.1 Model architecture2.2 ImageNet Pretraining3. Experiments3.1 AudioSet Experiments3.1.1 Dataset and Training Details3.1.2 AudioSet Results3.1.3 Ablation Study0. Abstract该文发表于Interspeech2021

2022-01-04 15:22:59 5303 1

原创 Interactive Speech and Noise Modeling for Speech Enhancement

文章目录0. 摘要1. Introduction2. Related work2.1 Deep learning-based speech enhancement2.2 Noise-aware speech enhancement2.3 Two-Branch neural network2.4 Self-Attention model3. Proposed Method3.1 Overview3.2 Encoder and Decoder3.3 RA Block3.4 Interaction Module

2022-01-03 15:33:57 2400

原创 DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement

文章目录0. 摘要1. Introduction2. DCCRN+2.1 The new design2.2 Subband Processing2.3 Complex TF-LSTM Block2.4 Convolution Pathway2.5 SNR Estimator2.6 Post-Processing2.7 Loss Functio：3. Experiments3.1 Datasets3.2 Training setup and baselines3.3 Experimental results

2021-12-29 16:05:42 2829

原创 DCCRN:Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement

文章目录0. 摘要1. Intorduction1.1 Related work1.2 Contributions2. The DCCRN Model2.1 Convolution recurrent network architecture2.2 Encoder and decoder with complex network2.3 Training target2.4 Loss function3. Experments3.1 Datasets3.2 Training setup and baselin

2021-12-28 17:05:43 2222

原创 Transformer and Self-Attention(Pytorch实现)

文章目录1. Attention2. Self-Attention3. Multi-Head Attention4. Transformer4.1 Encoder4.2 Decoder5. Transformer6. 补充，masked_self_attentioncode by Tae Hwan Jung(Jeff Jung) @graykode, Derek Miller @dmmiller6121. AttentionAttention函数的本质可以描述为：将查询(query)和一组键值(key-

2021-11-22 15:40:14 2702

原创 FLOPS, FLOPs and MACs

FLOPS: Floating Point Operations Per Second, 每秒浮点运算次数，是一个衡量硬件速度的指标FLOPs: Floating Point Operations, 浮点运算次数，用来衡量模型计算复杂度，常用来做神经网络模型速度的间接衡量标准MACs: Multiply–Accumulate Operations, 乘加累积操作数，常常被人们与FLOPs概念混淆实际上1MACs包含一个乘法操作与一个加法操作，大约包含2FLOPs。通常MACs与FLOPs存在一个2倍的关

2021-11-16 22:04:00 1483

原创 Latex排版：字母上方加上角标加横线加波浪线等

使用Latex进行论文排版或者Markdown编辑笔记时，需要在符号上方加一些符号，如下操作：加上角标输入\hat{} 或者 \widehat{}\hat{A_i}和 \widehat{A_i}Ai^和Ai^\hat{A_i}和 \widehat{A_i}Ai^和Ai加横线输入\overline{}\overline{A_i}Ai‾\overline{A_i}Ai加波浪线输入\tilde{}和 \widetilde{}\tilde{A_i}和 \wideti

2021-11-15 15:15:29 17152

原创知识图谱笔记（1）——知识图谱基础

文章目录1. 什么是知识图谱2. 知识图谱的计算3. 知识图谱的存储3.1 RDF存储3.2 图数据库存储3.3 RDF与图数据存储的区别1. 什么是知识图谱知识图谱（Knowledge Graph）是由谷歌公司2012年提出来的新名词，其初衷是优化搜索殷勤返回的结果，增强用户搜索质量及体验。实际上，知识图谱并不是一个全新的概念，早在 2006 年就有文献提出了语义网（Semantic Network）的概念，呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义，RDF（resource descr

2020-07-02 19:58:31 1310

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Annotated Lucene 中文版 Lucene源码剖析

人工智能一种现代的方法（第三版）英文原版

人工智能一种现代的方法（第三版）英文答案

docker 技术入门与实战第1版pdf

python基础教程视频

微信小程序开发视频及资料

飞机大战python3.6源码+素材

python+tensorflow+keras 基于Inception-v3模型迁移学习处理clatech256分类

Python简明教程

JAVA编写的基于文本相似度匹配的文本聚类

windows NLPIR中文分词

NFC蓝牙wifi快速连接方案探讨

用NFC技术快速建立蓝牙安全连接问题研究

ACR122 Android Lib

Mifare文档

飞机票模拟程序

第二最短路径问题

猜数字小程序

旅行商问题TSP

最短路径问题

编写shell解释器

空空如也