sunfoot001-CSDN博客

原创 Speaker Recognition: Gaussian probabilistic LDA (PLDA)理解

"MSR Identity Toolbox"里使用到了G-PLDA(Gaussian probabilistic LDA)。根据文献[1]对G-PLDA的原理进行了初步的了解，记录如下。 1. 简化版的G-PLDA的模型定义如公式(3)。这里是观察向量，m是均值，是说话人特征子空间矩阵，是说话人隐变量，是残差高斯噪声。 2. 根据文献[1]，loglikelih...

2018-12-15 19:30:57 832

原创 Speaker Recognition: Feature Extraction

1. Short-Term Spectral Features常用的有MFCC, LPCC, LSF, PLP。实际应用中，如何选择哪个特征参数，重要性不如如何做好channel compensation。 2. Voice Source Features常用的有Fundamental frequency, glottal pulse shape。与“Short-Term Sp...

2018-11-25 14:03:58 618

原创 Speaker Recognition: GMM-UBM

1. WHY --- 为什么需要使用GMM-UBM来建立Individual Speaker Modeling？"Usually, we do not have much data from a single speaker. In most practical cases related to text-independent scenarios, the enrollment data i...

2018-11-25 14:00:24 874

原创 Ubuntu+Docker+Tensorflow+GPU安装

Docker对于在Linux下快速建立深度学习的工作环境很有帮助，参考一些文章，2小时安装完成。0.预备GCC，Python, CUDA等需要提前安装好。CUDA上次安装Kaldi时我已经安装好了，是9.1版本。1. 安装docker[1]$ sudo apt-get remove docker docker-engine docker.io$ sudo apt...

2018-08-12 21:28:16 3216

原创 Machine Learning 务实----Applying deep learning to real-world problems

1. Pre-tuning method 在现实世界里应用ML，得到大量精确标注的数据是昂贵的。如果只有少量精确标注的数据，pre-tuning method可以帮助提升最后训练模型的精度[1]。 First pre-tuning on cheap large datasets on related domain. Then fine-tuning on expensive well-l...

2018-07-14 19:51:26 266

原创 Kaldi AMI数据集脚本学习7---train_deltas.sh

1. 命令行格式在AMI数据集中num-leaves=5000(即5000个不同的states)，tot-gauss=80000（平均每个不同states 高斯模型数目是16个）."Usage: steps/tandem/train_deltas.sh <num-leaves> <tot-gauss> <data1-dir> <data2-dir> ...

2018-05-28 20:43:04 1503 4

原创 Kaldi AMI数据集脚本学习6---转移模型(Transition Model)

PdfClassPDF(probability density function)指的是概率密度函数，比如是一个GMM表示的概率密度函数。对monophone，pdfclass和每个音素下面的状态是一一对应的。对triphone，不同状态可以分享同一个pdfclass，而决策树也是根据pdfclass来进行聚类的。转移概率关于一个转移的过程，有以下几个问题需要思考：这个状态在哪个音素下面？phon...

2018-05-26 09:50:56 1064

原创 Kaldi AMI数据集脚本学习5---AMI mono phone文件 40.mdl分析

使用kaldi训练mono phone之后会在esp/mono/目录下产生一个40.mdl文件, 查看exp/mono/40.mdl 命令:kaldi/src/gmmbin/gmm-copy --binary=false exp/mono/40.mdl -1. 首先是<TransitionModel> <Topology> ...

2018-05-20 21:10:46 806

转载 win10装centos双系统之后，win10的启动项消失的解决方法

from: https://blog.csdn.net/u014520745/article/details/47442469在网上教程http://www.centoscn.com/image-text/setup/2014/0728/3365.html的指引下在win10的系统下安装完centos 7之后，莫名其妙原来Windows的启动引导消失了，启动项如图：我收集了网上的一些图片，提供了一...

2018-05-19 11:40:58 3455 1

转载 win10+ubuntu双系统修复ubuntu启动引导

from: https://www.cnblogs.com/lymboy/p/7783756.html因为windows是不能引导linux的，而每次win10升级或恢复都会将linux的启动引导覆盖掉，导致无法进入linux, 所以一直就禁止了win10更新．这几天win10出了点小毛病，所以就狠下心来恢复了系统,　好吧~_~ 这下嗝屁了，ubuntu进不去了．里面保存了不少资料，实在是不想重装...

2018-05-19 11:39:11 3156

转载从声学模型算法角度总结 2016 年语音识别的重大进步

94人阅读原文链接：http://click.aliyun.com/m/13878/免费开通大数据服务：https://www.aliyun.com/product/odps　在过去的一年中，语音识别再次取得非常大的突破。IBM、微软等多家机构相继推出了自己的 Deep CNN 模型，提升了语音识别的准确率；Residual/Highway 网络的提出使我们可以把神经网络训练的更加深。　　而诸如 ...

2018-05-15 20:54:10 1502

转载谷歌有情怀！谷歌开放大规模音频数据集 AudioSet

谷歌有情怀！谷歌开放大规模音频数据集 AudioSet2017-03-10 11:41来源：科技那回事关注分享加入自媒体纠错订阅导读：近日，谷歌开放了一个大规模的音频数据集 AudioSet。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段（包括 527 个标签）。此项研究论文已发表于最近正在新奥尔良举办的 IEEE ICASSP 2017 ...

2018-05-13 21:19:46 5429 1

转载干货：手把手教你在音频分类DCASE2017比赛中夺冠

这是一篇旧闻了。2017-09-23 00:00无人驾驶最新消息：来自英国萨里大学的团队徐勇博士等夺得DCASE2017 challenge比赛冠军。战胜来自CMU, New York University, Bosch, USC, TUT, Singapore A* Star, KoreanAdvanced Institute of Science and Technology, Seoul N...

2018-05-13 21:10:24 6030 2

原创《How to Reshape Input Data for Long Short-Term Memory Networks in Keras》学习笔记

跟随大神Jason Brownlee, Ph.D学习Deep Learning.《How to Reshape Input Data for Long Short-Term Memory Networks in Keras》原文地址点击打开链接Tips for LSTM Input：The LSTM input layer must be 3D.The meaning of the 3 input...

2018-04-14 17:52:25 327

转载米小爱团队负责人王刚：语音交互背后，有多少人工就有多少智能

转自： https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/79933707整理 | Just，阿司匹林出品 | AI科技大本营（公众号ID：rgznai100）【导语】近日，在英特尔与 O’Reilly 联合主办的中国人工智能大会上，小米的小爱团队负责人王刚分享了他们在语音交互技术上的进展以及面临的困境，其一是有些用户需求的处理方式仍...

2018-04-14 16:32:37 757

原创《How to Use the TimeDistributed Layer for Long Short-Term Memory Networks in Python》学习笔记

跟随大神Jason Brownlee, Ph.D学习Deep Learning.《How to Use the TimeDistributed Layer for Long Short-Term Memory Networks in Python》原文地址点击打开链接这篇文章是关于LSTM用于sequence prediction（n个time step的input，对应n个ti

2018-01-28 20:10:28 478

原创 Deep Learning快速学习方法

传统方法是，学习数学理论，机器学习理论，Deep Learning理论，然后是实践，这条路太漫长。而更快速的方法是使用Keras+Python快速的上手练习【1】。通过这些练习，达到2个目的：A. 熟悉Keras的 API函数的用法，来实现不同的DL模型B. 熟悉DL在语音，语言等建模中的应用。【1】列举了一些例子。对图像应用，MNIST是不错的数据集；对语音，TIM

2018-01-27 22:04:34 426

原创 Kaldi AMI数据集脚本学习4---train_mono.sh

1. 缺省配置nj=4 并行个数cmd=run.pl 处理程序scale_opts="--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1"num_iters=40 ** Number of iterations of training 训练循环次数max_iter_inc=30 *

2018-01-14 21:32:04 932

原创 Kaldi AMI数据集脚本学习3---run_ihm.sh stage 1~3

1. stage 1 在此之前，已经下载了130G的AMI数据在目录$AMI_DIR（wav_db/amicorpus）了。# Prepare ihm data directories,if [ $stage -le 1 ]; then local/ami_ihm_data_prep.sh $AMI_DIR local/ami_ihm_scoring_data_pr

2018-01-13 21:15:20 1428 3

原创 Kaldi AMI数据集脚本学习2----run_prepare_shared.sh

在学习脚本文件时，重点关注哪些是调用标准函数，哪些是调用特定数据集的数据处理函数;关注每个阶段处理的输入，输出和控制参数。不要面面俱到，试图理解每行代码。1. 下载AMI数据集的xml标注文件包；从xml格式的标注文件提取得到data/local/annotations文件夹下文本格式的标注文件train.txt,eval.txt,dev.txt.# Do

2018-01-13 16:32:48 1093

原创 Kaldi AMI数据集脚本学习1----cmd.sh和path.sh

1. cmd.sh我是在个人电脑上运行Kaldi的，所以脚本关键内容如下：export train_cmd=run.plexport decode_cmd=run.plexport tfrnnlm_cmd=run.plexport cuda_cmd=run.pl2.path.sh所有library和tool的路径在这里加到PATH环境变量里。

2018-01-13 11:27:48 1324

原创 IBM Bluemix 自然语言处理初识

今天注册了IBM Bluemix的30天免费账号，大概了解了下其提供的自然语言处理功能。这些自然语言处理还是浅层的处理，包括了识别概念、实体、关键字、类别，观点、情绪、关系、语义角色，并不包含推理等深层处理。一个典型的自然语言处理pipline包括：意图识别，实体识别，语气识别，上下文分析和知识扩展。基于Bluemix在云端实现一个领域内的chatbot不再是难事。Bl

2017-09-06 22:02:48 511

原创在cygwin下安装CRF++

作为序列标注器，CRF++在NLP领域有广泛用途。https://taku910.github.io/crfpp/#download网站提供的 “Binary package for MS-Windows”在win10下运行会出错，因此选择在cygwin下安装此工具，步骤如下。1. 从https://taku910.github.io/crfpp/#download下载CRF++-

2017-08-20 14:39:56 322

原创《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining

这是一本关于文本挖掘的很厚的英文电子书，看英文大部头，很容易边看边忘记。1.An Introduction to Text Mining1.1 介绍文本挖掘的三个问题：a. 主要的算法模型是什么？与其他数据挖掘的区别？b. 有哪些可用的工具和技术？（模型是形而上的，技术是形而下的）c. 有哪些关键的应用领域？文本挖掘的特点：a. 文本数据的高维度和稀疏性

2017-08-17 21:57:01 1004

转载结构化数据上的机器学习大杀器XGBoost

转自： http://geek.ai100.com.cn/2017/05/26/1640XGBoost是一个机器学习算法工具，它的原理本身就并不难理解，而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。它的威力有多强？自从2014年9月份在 Kaggle 的希格斯玻色子机器学习大赛中夺魁以来，XGBoost 与深度学习两个算法垄断了 Kaggle 大赛的大部

2017-07-31 23:09:07 342

原创 Kaggle/Titanic python分析和建模

Titanic是Kaggle入门项目，本文跟随https://www.kaggle.com/startupsci/titanic/titanic-data-science-solutions学习。1.Workflow stages完整的流程分7步；当然，Kaggle已经提供了第1和第2步了；绝大部分都是数据整理工作，即所谓的“特征工程”，其中，通过画图来探索数据是必备技能。其

2017-07-29 21:28:21 1014

原创 python下读sougou中文语料文件

下载的sougou中文语料文件是xml格式的，需要在python下进行正文的提取工作。1. 检测文件的中文编码在python下安装chardet包，使用chardet检查中文格式，参见以下代码.注意读文件时使用的是'rb'.import chardetdef detect_file_encoding(file_path): ''' 返回文件的编码 '''

2017-07-29 21:19:05 1031

原创 python爬取网页

1. 使用requests库import requests url="http://www.starbaby.cn/zhinan/609987" req =requests.get(url) req.encoding='utf-8' #显式地指定网页编码，一般情况可以不用 print(req.text)2. 使用BeautifulSoupfrom bs4 import Beau

2017-07-29 20:59:14 373

原创 Python环境下工具安装小结

1. conda常用命令1.1 检索可用软件版本D:\Software\sklearn-crfsuite\sklearn-crfsuite-0.3.6\sklearn-crfsuite-0.3.6>anaconda search -t conda gseapyUsing Anaconda API: https://api.anaconda.orgRun 'anaconda show

2017-07-29 20:56:58 387

转载 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？

转自： http://blog.h5min.cn/u014365862/article/details/50813945一篇不错的文章，加深对DL的理解。首先，我感觉不必像 @李Shawn 同学一样认为DNN、CNN、RNN完全不能相提并论。从广义上来说，NN（或是更美的DNN）确实可以认为包含了CNN、RNN这些具体的变种形式。在实际应用中，所谓的深度神经网络DNN，往往融合了多

2017-07-23 23:14:58 1896

转载 Python 代码性能优化技巧

转自：https://www.ibm.com/developerworks/cn/linux/l-cn-python-optim/index.htmlPython 代码优化常见技巧代码优化能够让程序运行更快，它是在不改变程序运行结果的情况下使得程序的运行效率更高，根据 80/20 原则，实现程序的重构、优化、扩展以及文档相关的事情通常需要消耗 80% 的工作量。优化通常包含

2017-07-23 22:26:45 481 1

原创 Keras学习---RNN模型建立篇

本例子是“IMDB sentiment classification task”，用单层LSTM实现。 1. 输入数据预处理因为RNN的隐层节点数是固定的，因此要求输入层节点数也是固定的。x_train = sequence.pad_sequences(x_train, maxlen=maxlen)有没有动态的呢？因为输入的句子长度本身是动态长度的。2. 关于E

2017-07-14 22:32:39 4517

原创 Keras学习---MLP和CNN模型建立篇

Keras学习---模型建立篇目前阶段，仅考虑线线性堆叠且单输出的网络结构，更复杂的网络有多任务（即多输出）的网络拓扑结构。1. 最简单的MLP模型model.add(Dense(512, input_shape=(784,)))model.add(Activation('relu'))model.add(Dropout(0.2))model.add(Dense(5

2017-07-14 11:48:14 1394

原创 Keras学习---数据预处理篇

数据预处理是必要的，这里以MNIST dataset的输入数据预处理为例。后续增加对文本的预处理说明。1. 设置随机种子np.random.seed(1337) # for reproducibility2. 输入数据维度规格化X_train = X_train.reshape(60000, 784)将类别标签转换为one-hot enc

2017-07-14 10:13:31 16437

原创开源bot工具Rasa学习---1

Rasa是一个不错的开源bot工具，全部基于python实现，主页是https://rasa-nlu.readthedocs.io/en/latest/index.html本节是关于工具安装和初步运行的记录。根据其文档进行安装，我选择的安装方式是：git clone [email protected]:RasaHQ/rasa_nlu.gitcd rasa_nlupip ins

2017-07-09 15:57:02 8366 1

转载关于RNNLM的思考，特别是与HMM，n-gram的区别

来自Quora.1. RNN do not make the Markov assumption and so can, in theory, take into account long-term dependencies when modeling natural language.但训练RNN也会面临gradient vanish问题，怎么解决，用LSTM吗？2.

2017-07-01 18:16:44 3131

原创 Tomas Mikolov's Recurrent Neural Networks Language Modeling Toolkit

基于RNN的LM在性能上优于传统的N-gram LM，在实际使用时RNN_LM还可以与N-gram LM联合使用，进一步提高性能。 1. 从点击打开链接下载c++代码。2. 修改makefile 中对应内容为： CC = g++3. 替换rnnlmlib.cpp中的函数exp10为pow(x,y)。4.在cygwin 下运行代码自带的example.sh,进行训练得到模型文件mo

2017-07-01 15:55:53 457

原创 CRFsuite 学习： CoNLL 2000 shared task

从 http://www.cnts.ua.ac.be/conll2000/chunking/下载了CoNLL 2000 shared task的训练和测试语料。从http://www.chokkan.org/software/crfsuite/下载了Win32 binary文件，无需编译，直接使用。根据http://www.chokkan.org/software/crfsuite/t

2017-01-17 20:12:38 3112 1

原创 win10+GTX1070+keras+Anaconda+python3.5安装记录

新组装了电脑，安装了win10 企业版，并升级到最新。然后安装了vs_community_2013，cuda8和git。第1次安装，完全按照网页http://ankivil.com/installing-keras-theano-and-dependencies-on-windows-10/进行安装，theano的测试用例成功通过，但运行testKeras.py例子的时候发生r

2016-12-31 16:26:43 1630

转载词形变换和词干提取工具（英文）

转载自: http://www.cnblogs.com/kaituorensheng/p/3437807.html词形变换和词干提取工具（英文）在信息检索和文本挖掘中，需要对一个词的不同形态进行归并，即词形规范化，从而提高文本处理的效率。例如：词根run有不同的形式running、ran另外runner也和run有关。这里涉及到两个概念：词形变化：把一个

2016-11-19 21:28:45 3579

语音信号处理电子书

空空如也