自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 资源 (3)
  • 收藏
  • 关注

转载 C++ 11中的右值引用

C++11相比C++98多了很多新特性,其中右值引用是其中的最重要的特性之一,右值引用减少了复制拷贝,进一步提升了C++的性能。以下文章对C++11中的右值引用做了比较详细的解释。转载自:https://www.cnblogs.com/TianFang/archive/2013/01/26/2878356.html...

2021-04-16 13:54:22 148

转载 语音识别token passing

在传统语音识别中,声学模型部分目前已经是神经网络的天下了,变的越来越傻瓜,解码部分还是保留,特别是在孤立词识别(唤醒)中,解码方案和参数对于识别的效果(准确率和唤醒率)的影响也不能忽略。在解码中,token passing算法是一种既使用又易于理解的算法。这里转载一篇文章,对token passing有比较全面的解释。转载自:https://blog.csdn.net/JosephPai/article/details/80522367...

2021-04-13 10:55:05 1066

原创 二叉树遍历

二叉树的遍历分DFS和BFS,DFS依赖的数据结构是栈,而BFS则是队列,栈的形式又可以用递归实现。所以可以分三种,分别是DFS递归,DFS非递归和BFS。其中按照输出的顺序又可以分为前序遍历,中序遍历和后序遍历。struct BinaryTree { int val; BinaryTree *left; BinaryTree *right; BinaryTree() : val(0), left(null_ptr), right(null_ptr) {}; .

2021-03-25 10:55:14 160

原创 语音识别开源项目汇总

语音识别技术随着神经网络的兴起和发展,准确率得到了很大的改善,在很多场景下都可以逐步商用落地了,很多公司也组建了语音团队。其实在github上,语音识别相关的项目也是层出不穷,其中的一些项目的质量很高,如果好好借鉴学习的话可以避免从头造轮子,毕竟造轮子也不是那么容易的 = =!。在这里,对一些比较流行的项目做一些汇总和简单介绍。1. ASR1.1 kaldihttps://github.com/kaldi-asr/kaldi最流行的语音识别工具包,不过比较古老了,在神经网络时代有些落后,目前

2021-02-08 11:22:13 8673

转载 HMM, CTC和RNN-Transducer对齐方式的差异

转载自:https://www.jianshu.com/p/fad774f76be2来自台湾大学李宏毅的课程,对这几个模型的对齐方式做了比较详细的说明。

2021-02-03 17:22:17 1033

原创 语音识别中的似然和后验概率

说到语音识别,一般都从以下公式开始介绍(转自:https://blog.csdn.net/yutianzuijin/article/details/77621511) 为什么声学模型是这种形式我一直有困惑,因为在实际使用中,现在的声学模型一般都是神经网络,神经网络的输入是声学特征,输出直接就是某个音素或者音节的概率了,和上述对声学模型的描述并不相符。向同事请教后,原来是因为我不明白似然概率和后验概率,生成式模型和判别式模型的区别。以下文章有比较详细的阐述:https://www.cnblogs...

2021-01-07 14:35:00 663

转载 FSMN及其变种

FSMN及其变种,CFSMN,DFSMN等在语音识别声学模型建模上面相比单纯的DNN,CNN和TDNN等常用模型有一定优势,虽然也引入了一定的时延,相比RNN等复杂时序单元具有计算量和更容易训练的优势,在阿里巴巴语音相关技术上有广泛的应用。这里转载一篇文章,详细介绍了从FSMN到CFSMN到DFSMN的演变,为系统了解FSMN结构提供了比较全面的介绍。转载自:https://blog.csdn.net/qq_26778411/article/details/896824471.FSMN综述 ..

2020-12-21 10:24:47 1237

转载 kaldi 数据表单和文件

kaldi是语音从业者避不开的工具,因为开发者的知识结构可能比较老了,主要是脚本驱动,还有各种自定义的文件格式,下文对kaldi中的各种文件格式做了一些介绍,值得学习。原文链接:http://blog.sina.com.cn/s/blog_444061c70101hx7l.html以下是我看kaldi教程记的些笔记,希望能对你有所帮助(你可以把这个文档当成kaldi tutorial 的简要翻译)命令行我都加了下划线。数据准备这部分基本略过了,比较简单。从data/...

2020-11-17 16:36:50 628

转载 C语言可变参数va_list

#include<stdlib.h>#include<stdio.h>#include<stdarg.h>/*1. 使用va_list va_start va_arg va_end实现可变参数*/void simple_va_fun(int i, ...) { va_list arguments; int j = 0; int k, m; va_start(arguments, i); j = va_arg(arguments, int); m.

2020-10-13 11:40:41 218

原创 语音唤醒重要论文

谷歌KWSSMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS亚马逊二级唤醒MONOPHONE-BASED BACKGROUND MODELING FOR TWO-STAGE ON-DEVICE WAKE WORD DETECTIONTFLITE 8比特量化Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inf

2020-09-14 19:15:16 443

原创 Valgrind 内存泄漏检测工具

C/C++语言的高性能是建立在程序员可以任意操作内存的风险之上的,对于C/C++代码来说,逻辑错误固然可能产生bug(事实上这种bug是不管哪种语言都难以避免的),不过更可怕的是内存相关的bug,对内存的任何错误操作都会导致严重的后果,而且内存踩踏导致的程序异常如果不能在线debug很难定位。有些语言为了规避这些问题,就索性不然程序员管理内存,比如java。不过在一些硬件设备上,C/C++仍然是唯二的选择。那么怎么尽量避免内存相关的问题呢,这里介绍一个利器叫valgring,借助它可以l发现linux下绝大

2020-08-21 10:11:09 148

转载 神经网络量化:Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

这篇文章是Google发布的关于神经网络量化方面的文章,文章地址:https://arxiv.org/abs/1712.05877主要内容摘自:https://www.jianshu.com/p/19467624b4b0有很少的修改介绍Low bits压缩再用于CNN推理当属该下的推理优化技术主流。将本是Float32类型的乘法或乘加计算使用INT8类型来做可一次批量(SIMD...

2019-11-20 10:12:11 1083

转载 depthwise conv 和 pointwise conv

转自:https://blog.csdn.net/tintinetmilou/article/details/81607721Depthwise(DW)卷积与Pointwise(PW)卷积,合起来被称作Depthwise Separable Convolution(参见Google的Xception),该结构和常规卷积操作类似,可用来提取特征,但相比于常规卷积操作,其参数量和运算成本较低。所以...

2019-10-29 14:06:04 4402 2

原创 语音识别基本概念 II

声学模型基本单元常用的声学模型基本单元是单词(Word)、上下文无关音素(Monophone)、上下文相关音素(Triphone,Biphone)和音节(Syllable)。Monophone 模型具有模型简单、状态数较少、识别速度刽、内存占用少且与识别词汇量无关等优点,但其对发音的相关性描述不够精确,一选识别率不搞。Triphone和Syllable模型对发音相关性能准确建模,但模型数量巨大...

2019-10-17 09:57:56 384

原创 语音中prior posterior likelihood的理解

上周看了一下亚马逊那篇二级唤醒的文章:MONOPHONE-BASED BACKGROUNDMODELING FOR TWO-STAGE ON-DEVICEWAKEWORD DETECTION里面提到第二个网络输入的特征中67维的有:这里likelihood score,normalized likelihood score 和 posteriror 分别指什么不太清楚,文中也没有解释。...

2019-09-10 14:32:42 991

原创 语音识别基本概念

这篇文章主要是对CMU Sphinx系列教程的第一篇文章的主要内容做一些总结。学习某个知识,掌握这些知识的基本概念是必要的。不了解这些基本概念和他们的英文表述,对于代码(kalid)和论文的阅读都会存在一些障碍。对这些基本概念是否了解,是检验一个人是否入门语音识别的一个标志。原文如下:https://cmusphinx.github.io/wiki/tutorialconcepts/语...

2019-09-06 11:10:12 1082

转载 语音识别技术构架

转自:https://coffee.pmcaff.com/article/1055672606603392/pmcaff?utm_source=forum&from=search很好的一篇文章,没有任何公式,但是把语音识别的技术框架说的很清楚,适合刚接触语音识别的小伙伴看一下。我转来备份一下。语音交互将会成为新的入口,也是各大公司务必争夺的资源之一,资源是指数据,不是技术,因为技术...

2019-05-06 18:58:28 7614

原创 数据结构与算法 - 开篇

数据结构与算法是检验一个程序员的编码能力的试金石,也是很多大公司面试初中级程序员必考的内容。但是数据结构与算法的确是不容易掌握,内容比较抽象,很多算法如果之前没有了解,现场是根本写不出来的。科班出身的程序员在大学几年的学习和研究生考试中对数据结构与算法会花很大的时间和精力进行学习。非科班的程序员比如像我就只能自学,但是因为这个的确不好学,掌握的就不如科班出身的程序员,这在面试中就非常吃亏,面试官也...

2019-04-12 15:46:48 151

原创 数据结构与算法 - 复杂度分析(上)

一、什么是复杂度分析?1.数据结构和算法解决是“如何让计算机更快时间、更省空间的解决问题”。2.因此需从执行时间和占用空间两个维度来评估数据结构和算法的性能。3.分别用时间复杂度和空间复杂度两个概念来描述性能问题,二者统称为复杂度。4.复杂度描述的是算法执行时间(或占用空间)与数据规模的增长关系。二、为什么要进行复杂度分析?1.和性能测试相比,复杂度分析有不依赖执行环境、成本...

2019-04-12 09:50:14 204

转载 机器学习中的基本数学知识

转自:https://www.cnblogs.com/steven-yang/p/6348112.html机器学习中的基本数学知识注:本文的代码是使用Python 3写的。机器学习中的基本数学知识 线性代数(linear algebra) 第一公式 矩阵的操作 换位(transpose) 矩阵乘法 矩阵的各种乘积 内积 外积 ...

2019-01-17 14:47:09 226

原创 内存段

(1)text段-代码段      text段存放程序代码,运行前就已经确定(编译时确定),通常为只读,可以直接在ROM或Flash中执行,无需加载到RAM。      在嵌入式开发中,有时为了特别的需求(例如加速),也可将某个模块搬移到RAM中执行。(2)rodata段(read-only-data)-常量区      rodata段存储常量数据,比如程序中定义为const的全局...

2018-11-09 14:53:21 266

原创 cache

CPU,内存和cache之间的关系  和 cache的操作https://blog.csdn.net/vanbreaker/article/details/7470830cache和内存的关联方式(associativity)https://blog.csdn.net/vanbreaker/article/details/7475093cache的写策略和多处理器支持https...

2018-11-01 17:39:40 4066

转载 C语言运算中的数据类型自动转换原则

转自:https://blog.csdn.net/cherish_2012/article/details/212430471、隐式转换    C在以下四种情况下会进行隐式转换:       1、算术运算式中,低类型能够转换为高类型。       2、赋值表达式中,右边表达式的值自动隐式转换为左边变量的类型,并赋值给他。       3、函数调用中参数传递时,系统隐式地将实参转换为形参的...

2018-09-29 16:35:08 22372

原创 本地建立SVN管理项目

转载自:https://www.cnblogs.com/curry1234/p/4927710.html1. Svn/Git: 当在公司或实验室进行项目开发的时候,不论是独立开发还是处在项目团队进行合作开 发,合理地对项目源代码进行管理是十分重要的。进入公司工作一年有余,有幸分别接触了SVN和Git两个版本控制工具,随着项目的深入,目前已经完全使用 Git进行项目管理。关于SVN和Gi...

2018-09-20 09:38:09 752

转载 c语言优化

转载自:https://www.cnblogs.com/wgang171412/p/5404504.htmlc语言优化虽 然对于优化C代码有很多有效的指导方针,但是对于彻底地了解编译器和你工作的机器依然无法取代,通常,加快程序的速度也会加大代码量。这些增加的代码也会 影响一个程序的复杂度和可读性,这是不可接受的,比如你在一些小型的设备上编程,例如:移动设备、PDA……,这些有着严格的内存限...

2018-09-07 14:54:35 3022

转载 C代码性能优化总结

转自:https://blog.csdn.net/chenyq991/article/details/790477411、优化代码框架个人觉得代码架构对性能的影响至关重要,就好骨架之于人,所以我把这个放在第一点。举个简单的例子:优化前:void main(){ while (isDone) { DoSomething1(); DoSomething2(); }...

2018-09-07 14:33:23 442

转载 Padding:valid和same

卷积操作有两个问题:1. 图像越来越小;2. 图像边界信息丢失,即有些图像角落和边界的信息发挥作用较少。因此需要padding。卷积核大小通常为奇数一方面是为了方便same卷积padding对称填充,左右两边对称补零;n+2p-f+1=np=(f-1)/2另一方面,奇数过滤器有中心像素,便于确定过滤器的位置。paddingpadding的方式:备注 "...

2018-08-02 15:21:49 2169

转载 理解卷积神经网络中的通道 channel

转自:https://blog.csdn.net/sscc_learning/article/details/79814146在深度学习的算法学习中,都会提到 channels 这个概念。在一般的深度学习框架的 conv2d 中,如 tensorflow 、mxnet ,channels 都是必填的一个参数。channels 该如何理解?先看一看不同框架中的解释文档。首先,是 tens...

2018-08-02 15:17:06 5859 5

转载 CTC

转自:https://blog.csdn.net/luodongri/article/details/77005948白话CTC(connectionist temporal classification)算法讲解2017年08月09日 17:24:21阅读数:7357 CTC是计算一种损失值,主要的优点是可以对没有对齐的数据进...

2018-07-02 10:21:08 1653

转载 梅尔频率倒谱系数(MFCC)

原文地址:https://blog.csdn.net/zouxy09/article/details/9156785/这学期有《语音信号处理》这门课,快考试了,所以也要了解了解相关的知识点。呵呵,平时没怎么听课,现在只能抱佛脚了。顺便也总结总结,好让自己的知识架构清晰点,也和大家分享下。下面总结的是第四个知识点:MFCC。因为花的时间不多,所以可能会有不少说的不妥的地方,还望大家指正。谢谢。   ...

2018-06-05 11:08:45 948

转载 定点化

谈到这个话题,有必要先介绍下“浮点数”和“定点数”这两个名词的概念。1.25 + (-2.75) = ?                                                                (1)上面这个算式我们心算就能轻松得出结果,同样的算式,交给单片机来完成,它要大致分解为下面三个计算步骤:1)加载操作数(也就是1.25和2.75);2)做加法运算;3...

2018-05-18 10:18:09 7878

转载 深入理解c++指针的指针和指针的引用

转载自:https://www.cnblogs.com/li-peng/p/4116349.html展示一下使用指针的指针和指针的引用修改传递给方法的指针,以便更好的使用它。(这里说的指针的指针不是一个二维数组)为什么需要使用它们当我们把一个指针做为参数传一个方法时,其实是把指针的复本传递给了方法,也可以说传递指针是指针的值传递。如果我们在方法内部修改指针会出现问题,在方法里做修改只是修改的指针的...

2018-04-11 10:01:26 406

转载 二叉树深度优先遍历和广度优先遍历

转载自:http://www.cnblogs.com/zhangbaochong/p/5492877.html今天去百度面试,第二道题就是这个,写不出来。。。记录一下  对于一颗二叉树,深度优先搜索(Depth First Search)是沿着树的深度遍历树的节点,尽可能深的搜索树的分支。以上面二叉树为例,深度优先搜索的顺序为:ABDECFG。怎么实现这个顺序呢 ?深度优先搜索二叉树是先访问根结点...

2018-04-10 17:15:12 171

转载 详解 LSTM

转自:https://www.jianshu.com/p/dcec3f07d3b5今天的内容有:LSTM 思路LSTM 的前向计算LSTM 的反向传播关于调参LSTM长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。长短时记忆网络的思路:原始 RNN 的隐藏层只有一个状态...

2018-04-09 11:01:48 910

转载 Global average Pooling

转载自:https://blog.csdn.net/losteng/article/details/51520555据说用GAP代替FC可以减少参数数量,了解了一下什么是GAP。这个概念出自于 network in network 主要是用来解决全连接的问题,其主要是是将最后一层的特征图进行整张图的一个均值池化,形成一个特征点,将这些特征点组成最后的特征向量进行softmax中进行计算。举个例子假...

2018-03-30 10:48:18 891

转载 卷积神经网络的复杂度分析

转载自:https://zhuanlan.zhihu.com/p/31575074在梳理CNN经典模型的过程中,我理解到其实经典模型演进中的很多创新点都与改善模型计算复杂度紧密相关,因此今天就让我们对卷积神经网络的复杂度分析简单总结一下下。本文主要关注的是针对模型本身的复杂度分析(其实并不是很复杂啦~)。如果想要进一步评估模型在计算平台上的理论计算性能,则需要了解 Roofline Model 的...

2018-03-29 16:46:10 4063

转载 YOLOv1

转载自:https://blog.csdn.net/hrsstudy/article/details/70305791这篇文章讲的比较清楚,而且有一些动图不错,yolo的损失函数是个关键,不太明白作者是怎么想出来的,这么设计的原因是什么。You Only Look Once: Unified, Real-Time Object DetectionAbstract作者提出了一种新的物体检测方法YOL...

2018-03-27 15:33:52 210

原创 Filter Concatenation理解

转载自:https://blog.csdn.net/qq_28132591/article/details/64124491 学习深度学习,有几篇论文大多数人都会读到。其中一篇就是《Going deeper with convolutions》,google在这片论文中提到了一个inception...

2018-03-26 17:16:13 1765 1

转载 Faster RCNN详解

在网上发现一篇写faster rcnn的文章,写的非常好。但是貌似找不到出处了,原文作者貌似把博客都删了,很可惜,很想看一下他的其他文章。 ↑↑↑↑目录在这里↑↑↑↑↑Faster RCNN github : https://github.com/rbgirshick/py-faster-rcnn...

2018-03-26 15:23:43 446

转载 C++ 面试题

转载自:https://www.cnblogs.com/liufei1983/p/7099401.html1 new/delete 与 malloc/free的区别    运算符是语言自身的特性,有固定的语义,编译器知道意味着什么,由编译器解释语义,生成相应的代码。    库函数是依赖于库的,一定程度上独立于语言的。编译器不关心库函数的作用,只保证编译,调用函数参数和返回值符合语法,生成call函...

2018-03-23 16:58:20 310

华为公司编程规范和范例(C++).pdf

华为公司编程规范和范例(C++).pdf

2021-04-08

华为技术有限公司C++语言编程规范.zip

华为技术有限公司C++语言编程规范.zip

2021-04-08

HTK BOOK 语音识别

HMM GMM 声学模型 语言模型 语音识别入门基础 HTK is a toolkit for building Hidden Markov Models (HMMs). HMMs can be used to model any time series and the core of HTK is similarly general-purpose.

2020-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除