qq_14962179-CSDN博客

原创 dual microphone wind noise reduction

coherence weightinguse magnitude squared coherence(MSC)supression gain:limit gain functioncoherence based wind noise estimationwind noise estimation and reduction separation.combine with other...

2020-03-20 16:14:58 616 1

原创 matlab实现以不同信噪比在干净语音信号中叠加噪声

原理公式信噪比计算公式：一般情况下我们使用分贝的形式，即单位是dB，其值为对数信号与噪声功率比的十倍。matlab实现代码function [y,noise]=add_noise_model(clean_signal,noise_signal,SNR)%clean_signal是干净语音信号%noise_signal是噪声信号%SNR是信噪比[x,fs1]=audioread(...

2019-11-29 17:50:25 4485 4

原创 matlab实现简单清浊音检测

清浊音检测原理公式清浊音检测是在一段语音信号中区分出清音段、浊音段和静音段。原理框图如下所示：1.过零率：2.对数能量3.单位延迟自相关系数归一化4.lpc系数使用Leveson-Durbin算法求得，取[-a2,-a3,…,–aM的值即为LPC系数]matlab代码实现代码针对每一帧语音信号进行检测。...

2019-11-29 17:50:16 3303 3

原创 leetcode124.二叉树中的最大路径和

题目：给定一个非空二叉树，返回其最大路径和。本题中，路径被定义为一条从树中任意节点出发，达到任意节点的序列。该路径至少包含一个节点，且不一定经过根节点。示例：思路：post-order-traversal(后序遍历)变形题，left最大路径和right最大路径后更新最终结果的状态。采用递归，每遍历一个节点，判断左子树和右子树的值，如果子树的值大于0，则加上子树的值，同时利用全局变...

2019-05-13 09:31:34 243

原创 DFSMN——Alibaba2018

论文：DEEP-FSMN FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION Alibaba 2018DFSMN 特点：跳层连接，更深的层数。和LFR结合。模型尺寸更小，低延迟。实验结果表明DFSMN是用于声学模型的BLSTM强有力替代方案。skip connectionsBLSTM网络lower frame rate(LFR)...

2019-05-06 19:50:55 3757

原创 ubuntu爬坑

在Ubuntu中，有时候运用sudo apt-get install 安装软件时，会出现一下的情况E: Could not get lock /var/lib/dpkg/lock - open (11: Resource temporarily unavailable)E: Unable to lock the administration directory (/var/lib/dp...

2019-04-12 09:58:51 201

原创 RNN BPTT算法推导

BPTT(沿时反向传播算法)基本原理与BP算法一样，包含三个步骤：前向计算每个神经元的输出值反向计算每个神经元的误差项δjδ_jδj,它是误差函数E对神经元j的加权输入netjnet_jnetj的偏导数计算每个权重的梯度最后再用随机梯度下降算法更新权重循环曾如图所示：1.1前向计算循环层的前向计算：隐层：st=f(Uxt+Wst−1)s_t=f(Ux_t+Ws_{t-1})...

2019-03-26 22:29:58 2436 1

原创 2.7.5lattice generation and n-best search

lattice生成和N-best搜索：引用多种假设思想，使语音解码器输出多个得分较高的结果，然后再利用一些附加知识如当前状态及谈话主题选择一个合理的结果。multiple hypotheses在multi-pass decoding，DT，unsupervised adaptation，confidence estimation中都有应用。multi-pass decoding：核心是首先用...

2019-03-10 13:47:28 329

原创 lattice

lattice在实际的语音识别系统中，最优路径不一定与实际字序列匹配，我们一般希望能够得到得分最靠前的多条候选路径，即N-best。为了紧凑地保存候选路径，我们一般采用lattice(词图)来保存识别的候选序列。lattice本质上是一个有向无环图。图上的每个节点代表一个词的结束时间点，每条边代表一个可能的词，以及该词发生的声学得分和语言模型得分。在生成one-best结果时，只需要从最优...

2019-03-02 14:31:41 2289

原创 discriminative training鉴别性训练

MLE(maximum likelihood estimation最大似然估计)：之前用于训练HMM参数(A和B矩阵)所用的Baum-Welch算法和嵌入式训练时基于最大化训练数据的似然度的。MLE的替代方案是不再将最佳模型和数据相匹配，而是从其他模型中区分出最佳模型。鉴别性训练包括MMIE(最大互信息估计准则，Woodland and Povey, 2002)使用NN/SVM分类器，MCE(最...

2019-03-01 12:54:55 1030

原创 WebRTC AEC

AEC算法主要模块：1.回声时延估计(用于自适应滤波器部分延时估计对齐)2.NLMS滤波器（归一化最小均方自适应算法），即PBFDAF(分段块频域自适应滤波算法)。3.NLP是非线性滤波，取掉残余回声。4.CNG舒适噪声产生判断远端和近端是否说话的情况，称为双端检测，需要检查一下四种情况：a.仅远端说话，此时有回声，利用这种状态进行NLMS自适应滤波器的系数更新，使其尽快收敛。b....

2019-03-01 11:08:02 3502 1

原创 WebRTC NS

噪声频谱使用语音/噪声似然函数进行估计。将接收到的每帧信号和频率分量分类为噪声或语音。NS主要用于宽带，加性，有色噪声。WebRTC中NS是对语音/噪声似然比(VAD检测时就用了该方法)函数进行改进，将多个语音/噪声分类特征合并到一个模型中形成一个多特征综合概率密度函数，对输入的每帧频谱进行分析，可以有效地抑制风扇/办公设备等噪声。抑制过程如下：对接收到的每一帧带噪语音信号，以对该帧的初始噪...

2019-03-01 09:49:13 859 1

原创给出n, m，有两种操作，n 减一和 n 乘以 2，问最少要多少次操作才能把n 变成 m。

https://blog.csdn.net/castledrv/article/details/45305577思路：n>m,最优方法是一直减1，返回n-m；n<m分组讨论：1.m为奇数，让m+1然后除以2；2.当m为偶数，直接除以2...

2019-02-28 21:42:59 2914

原创语音识别——TDNN时延神经网络

参考：http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.htmlhttps://blog.csdn.net/richard2357/article/details/16896837https://zhuanlan.zhihu.com/p/28283265相当于CNN的前身，相当于1dcnn,即一维CNN。它的共享权重被限制在...

2019-02-28 10:35:32 20500 1

原创剑指offer刷题

3.数组中重复的数字：题目描述在一个长度为n的数组里的所有数字都在0到n-1的范围内。数组中某些数字是重复的，但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。例如，如果输入长度为7的数组{2,3,1,0,2,5,3}，那么对应的输出是第一个重复的数字2。思路：a.排序后找重复的，需要排序的时间复杂度。O(nlogn)b.利用哈希表。从头到尾按顺序扫...

2019-02-27 20:39:43 113

原创 leetcode85. 最大矩形

示例：思路：动态规划https://blog.csdn.net/maxiaotiaoti/article/details/62230381定义概念，初始化边界，一般递推cur_left当前元素可以延伸到最左边元素的下标。当元素为0时，cur_left取0。cur_right为当前元素可以延伸到最右边元素的下标加1.当前元素为1时，cur_right取n数组长度。总结：cur_lef...

2019-02-27 14:01:36 231

原创 SVD模型裁剪 TDNN-f

论文:Daniel Povey 2018年论文，Simi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks 半正定低秩矩阵分解DNN摘要：TDNN又被称为1维CNN(1dCNNS)。本文提出的TDNN-F，结构与经过SVD分解的TDNN相同。但TDNN-F的训练开始于随机初始化，SVD分解后，其中一个矩阵被限制...

2019-02-27 13:02:25 1635 1

转载语音识别实践7.1——训练加速

GPU流水线反向传播异步随机梯度下降增广拉格朗日算法及乘子方向交替算法减小模型规模改善训练速度可以通过更好的训练算法或者使用更小的模型。DNN中的权值矩阵大体上是低秩的，且DNN最后一层占用了系统50%的模型参数以及训练计算量。且DNN任意层只有最大的30%~40%的权重是重要的，每个权值矩阵可以近似地进行低秩分解且没有识别精度的损失。使用SVD，每个权值矩阵可以分解为两个更小的矩阵，...

2019-02-26 17:12:10 512

原创 kaldi 语音识别 lattice-free MMI声学训练

List item在语音识别领域，DT训练能显著提高语音识别系统的性能。DT训练需要所有的单词序列组合来做训练。一般而言我们会先利用交叉熵准则训练一个基准模型，配合使用一个相对较弱的语言模型生成相应的词图(lattice).Lattice里面除了包含与正确识别结果相对应的路径外，还包含与正确路径足够接近的其它路径。DT训练就是要提高模型走正确路径的概率，同时压低走相似路径的概率。近年来CT...

2019-02-25 11:14:04 3424

原创 leetcode4.寻找两个有序数组的中位数

题目：给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数，并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 不会同时为空。示例：示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]nums2 = [3, 4]则...

2019-02-23 16:30:58 98

原创网易2018语音算法笔试编程1

题目：小易有一个长度为N的正整数数列A = {A[1], A[2], A[3]…, A[N]}。牛博士给小易出了一个难题:对数列A进行重新排列,使数列A满足所有的A[i] * A[i + 1](1 ≤ i ≤ N - 1)都是4的倍数。小易现在需要判断一个数列是否可以重排之后满足牛博士的要求。输入描述:输入的第一行为数列的个数t(1 ≤ t ≤ 10),接下来每两行描述一个数列A...

2019-02-19 22:14:00 361

转载 MMI在ASR中的应用

介绍ASR中DNN声学模型训练通常使用CE准则作为损失函数进行训练，CE准则是最小化帧错误率，但在基于帧识别的ASR中我们一般直接使用WER(自错误率)来评价语音识别准确率，更关心的是序列的准确性，会导致损失函数和训练目标不一致。DT在识别序列上定义误差，更接近语音识别的最终目标。常用DT目标函数有MMI，BMMI，MPE，MBR。使用CE准则时，又可能帧的正确率提高了但是最终解码WER...

2019-02-19 16:56:28 1056 1

转载 HMM中的训练问题

baum-Welch 最大化似然度准则CE准则最小化帧错误率MMI准则最大化O与V的互信息，也即最小化H(W|O)条件熵。最大化句子正确率MPE准则最小化音素错误率sMBR 最小化状态错误率EM算法EM是HMM训练的基础，主要解决在不完全数据下的最大似然估计问题。原理：EM算法通过迭代，**最大化完全数据对数似然度的期望，**从而间接最大化对不...

2019-02-19 15:08:11 967

转载语音识别中DT训练和ML的区别

X表示训练数据中的语音信号，W代表训练数据中的文本，θ\thetaθ代表声学模型参数，LM语言模型是固定的。ML的目标函数是：θ^ML=arg⁡max⁡θpθ(X∣W){{\hat \theta }_{ML}} = \arg \mathop {\max }\limits_\theta p{}_\theta (X|W)θ^ML=argθmaxpθ(X∣W)而DT的目标函数是：θ^DT...

2019-02-19 14:05:29 801

原创 WFST优化算法

Determinization确定化DFA仅具有一个单个初始状态，并且对于来自每个状态的任何输入标签，最多只有一个转换，即给定符号在给定状态下的转换是唯一的，因此目标状态也是唯一的，因此，如果输入符号序列被接受，则从初始状态到最终状态只有一条路径。这称之为FA。Determinization就是将NFA转换为FA的过程。从一个状态出发的弧当中，输入标签不能重复。如果存在重复的输入标签，就无法...

2019-02-17 15:39:55 906

原创 Speech Recognition Algorithms Using Weighted Finite-State Transducers

语音识别概述语音识别统计框架语音分析/特征提取声学模型子词模型和发音字典上下文相关音素模型语言模型解码WFSTFAFA基本性质半环理论基本操作转换器组合算法优化算法：确定化、weight pushing 、minimizationepsilon removal基于WFST的语音识别基于WFST的语音识别概述WFST的构建：声学模型、因素上下文相关、发音字典、...

2019-02-15 17:32:18 1141 1

原创 the kaldi speech recognition toolkit——翻译

基于WFST的语音识别，利用开源的openfst。C++编写，核心库支持

2019-01-17 17:15:18 189

原创 state-of-the art speech recogniton with seqence to sequence models

Google 2018attention-based 注意力机制encoder-decoder 编码解码模型LAS 模型

2019-01-17 16:56:59 250

原创动态规划——0-1背包问题

0-1背包问题：题目：有一个背包，它的容量为C(capacity)。现在有n种不同的物品，编号为0…n-1,其中每一件物品的重量为W(i),价值为v(i)。问可以向这个背包中盛放哪些物品，使得在不超过背包容量的基础上，物品的总价值最大。有一个背包，它的容量为C(capacity)。现在有n种不同的物品，编号为0…n-1,其中每一件物品的重量为W(i),价值为v(i)。问可以向这个背包中盛放哪...

2019-01-17 13:47:03 384

原创 leetcode309.最佳买卖股票时机含冷冻期

题目：给定一个整数数组，其中第 i 个元素代表了第 i 天的股票价格。设计一个算法计算出最大利润。在满足以下约束条件下，你可以尽可能地完成更多的交易（多次买卖一支股票）:你不能同时参与多笔交易（你必须在再次购买前出售掉之前的股票）。卖出股票后，你无法在第二天买入股票 (即冷冻期为 1 天)。示例：输入: [1,2,3,0,2]输出: 3解释: 对应的交易状态为: [买入, 卖...

2019-01-16 22:00:39 214

原创 leetcode337.打家劫舍 III

题目：在上次打劫完一条街道之后和一圈房屋后，小偷又发现了一个新的可行窃的地区。这个地区只有一个入口，我们称之为“根”。除了“根”之外，每栋房子有且只有一个“父“房子与之相连。一番侦察之后，聪明的小偷意识到“这个地方的所有房屋的排列类似于一棵二叉树”。如果两个直接相连的房子在同一天晚上被打劫，房屋将自动报警。计算在不触动警报的情况下，小偷一晚能够盗取的最高金额。示例：示例1：示例2...

2019-01-16 21:57:53 139

原创 leetcode213.打家劫舍 II

题目：你是一个专业的小偷，计划偷窃沿街的房屋，每间房内都藏有一定的现金。这个地方所有的房屋都围成一圈，这意味着第一个房屋和最后一个房屋是紧挨着的。同时，相邻的房屋装有相互连通的防盗系统，如果两间相邻的房屋在同一晚上被小偷闯入，系统会自动报警。给定一个代表每个房屋存放金额的非负整数数组，计算你在不触动警报装置的情况下，能够偷窃到的最高金额。示例：示例 1:输入: [2,3,2]输出: ...

2019-01-16 21:55:16 66

原创 leetcode198.打家劫舍，动态规划

题目：你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统，如果两间相邻的房屋在同一晚上被小偷闯入，系统会自动报警。给定一个代表每个房屋存放金额的非负整数数组，计算你在不触动警报装置的情况下，能够偷窃到的最高金额。示例：示例 1:输入: [1,2,3,1]输出: 4解释: 偷窃 1 号房屋 (金额 = 1)...

2019-01-16 21:50:34 127

原创 leetcode63.不同路径 II

题目：一个机器人位于一个 m x n 网格的左上角（起始点在下图中标记为“Start” ）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角（在下图中标记为“Finish”）。现在考虑网格中有障碍物。那么从左上角到右下角将会有多少条不同的路径？网格中的障碍物和空位置分别用 1 和 0 来表示。说明：m 和 n 的值均不超过 100。示例：示例 1:输入:[[...

2019-01-15 21:39:40 146

原创 leetcode62.不同路径

题目：一个机器人位于一个 m x n 网格的左上角（起始点在下图中标记为“Start” ）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角（在下图中标记为“Finish”）。问总共有多少条不同的路径？例如，上图是一个7 x 3 的网格。有多少可能的路径？说明：m 和 n 的值均不超过 100。示例：示例 1:输入: m = 3, n = 2输出: 3解释:...

2019-01-15 21:37:13 81

原创 leetcode91.解码方法

题目：一条包含字母 A-Z 的消息通过以下方式进行了编码：‘A’ -> 1‘B’ -> 2…‘Z’ -> 26给定一个只包含数字的非空字符串，请计算解码方法的总数。示例：示例 1:输入: “12”输出: 2解释: 它可以解码为 “AB”（1 2）或者 “L”（12）。示例 2:输入: “226”输出: 3解释: 它可以解码为 “BZ” (2 26)...

2019-01-15 21:34:14 223

原创 leetcode279.完全平方数

题目：给定正整数 n，找到若干个完全平方数（比如 1, 4, 9, 16, …）使得它们的和等于 n。你需要让组成和的完全平方数的个数最少。示例：示例 1:输入: n = 12输出: 3解释: 12 = 4 + 4 + 4.示例 2:输入: n = 13输出: 2解释: 13 = 4 + 9.思路：代码:...

2019-01-15 21:32:33 207

原创 leetcode343.整数拆分

题目：给定一个正整数 n，将其拆分为至少两个正整数的和，并使这些整数的乘积最大化。返回你可以获得的最大乘积。示例：示例 1:输入: 2输出: 1解释: 2 = 1 + 1, 1 × 1 = 1。示例 2:输入: 10输出: 36解释: 10 = 3 + 3 + 4, 3 × 3 × 4 = 36。说明: 你可以假设 n 不小于 2 且不大于 58。思路：代码：递...

2019-01-15 21:30:17 161

原创 leetcode64.最小路径和

题目：给定一个包含非负整数的 m x n 网格，请找出一条从左上角到右下角的路径，使得路径上的数字总和为最小。说明：每次只能向下或者向右移动一步。示例：输入:[[1,3,1],[1,5,1],[4,2,1]]输出: 7解释: 因为路径 1→3→1→1→1 的总和最小。思路：代码：...

2019-01-15 20:45:30 79

原创 leetcode120.三角形最小路径和

题目：给定一个三角形，找出自顶向下的最小路径和。每一步只能移动到下一行中相邻的结点上。示例：例如，给定三角形：[[2],[3,4],[6,5,7],[4,1,8,3]]自顶向下的最小路径和为 11（即，2 + 3 + 5 + 1 = 11）。思路：代码：...

2019-01-15 20:43:44 123

cmake交叉编译

空空如也