自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cheetah的专栏

分享、总结,关注语音识别、人工智能、音视频

  • 博客(20)
  • 资源 (5)
  • 收藏
  • 关注

原创 ffmpeg移植到android中使用

ffmpeg编译好了之后就可以移植到anroid上开发了。一、在android studio中创建一个支持C++的项目将编译好的ffmpeg头文件跟so文件拷贝到android项目对应目录下。二、配置相关信息在CMakeLists.txt里面配置cmake_minimum_required(VERSION 3.4.1)include_directories(../../../includes)#set ffmpegset(ffmpeg ${CMAKE_SOURCE_DIR}/../../.

2020-07-17 22:27:35 901 1

原创 ubuntu18.04 交叉编译ffmpeg的android版本库

安装环境Ubuntu16.04 ndk21export NDK=/root/soft/ndk/android-ndk-r21bexport PLATFORM=$NDK/platforms/android-19/arch-armexport TOOLCHAIN=$NDK/toolchains/llvm/prebuilt/linux-x86_64export CPU=armv7-aexport PREFIX=./android/$CPUCC=$TOOLCHAIN/bin/armv7a-li.

2020-07-14 18:47:30 814

原创 Tacotron2语音合成

Tacotron2是由Google Brain提出来的一个语音合成框架.模型架构:实验环境:在Ubuntu16.04 Ubuntu16.04 GPU GeForce RTX 2080(单个GPU)TensorFlow1.15 cuda10.0 cudnn7.6.3下完成.github上有一个Tacotron-2的Tensorflow实现,地址https://github.com/Rayhane-mamah/Tacotron-2用上面的开源代码跑Ljspeech数据集,tacotron_tra

2020-06-12 14:20:57 1475

原创 ubuntu上安装ESPnet

ESPnet是一个端到端的语音处理工具,主要侧重于端到端语音识别和端到端语音合成。ESPnet使用chainer和pytorch为主深度学习引擎,同时也遵循Kaldi风格的数据处理、特征提取格式。

2020-05-21 22:11:09 1329

原创 ubuntu上安装kaldi

首先下载kaldi.环境 Ubuntu16.04 系统git clone https://github.com/kaldi-asr/kaldi下载完成后进入tools目录.执行 extras/check_dependencies.sh 检查下有哪些包没有安装。执行sudo apt-get install automake autoconf sox gfortran subversion 安装缺少的包。安装完这些再执行extras/install_mkl.sh 安装mkl。...

2020-05-17 12:53:40 1503

原创 一种基于GOP改进的口语语音评测算法

最近在看语音评测的算法,看到2019年INTERSPEECH 2019 的的一篇paper。这篇主要是研究了 HMM transition probabilities对语音评测的影响。

2020-04-16 20:42:02 3022 5

原创 Athena跑aishell数据集

Athena是端到端自动语音识别(ASR)引擎。当前,该项目支持基于 Connectionist Temporal Classification (CTC)的模型,基于transformer-basesd encoder-decoder model and Hybrid CTC/attention的模型的训练和解码,以及unsupervised pretraning。

2020-04-08 14:33:31 1900 11

原创 kaldi中使用PyTorch训练模型

Daniel Povey 去年年末在小米开发者大会上说要打造下一代kaldi。目前官方网站上已经有一些进展,已经使用pybind11将Python接口添加到Kaldi中,在pybind11分支中。目前 Kaldi Pybind 仍然在开发完善中,不过可以下载下来实验。拉取最新代码。切换到 pybind11分支git checkout pybind11cd pybindpip ins...

2020-03-22 00:22:55 1134 1

原创 Ubuntu上Kaldi跑librispeech数据集步骤

Kaldi跑librispeech步骤步骤分为数据准备跟训练模型kaldi环境默认是安装好的,这里不详细说明kaldi的安装步骤,这里的实验室在Ubuntu16.04上跑的。一、数据准备数据准备分为两种:手动下载跟脚本下载。1.手动下载1.1下载训练数据:从http://www.openslr.org/12/网址下载librispeech数据下载train-clean-100.t...

2020-03-21 17:05:49 4308 8

原创 英语口语语音评测方法

主要有两种方案:1.GOP(Goodness of Pronunciation)2.MDD目前国内的语音评测算法大部分基于GOP(Goodness of Pronunciation)或者以此为基础来评测发音的好坏的,还有个就是香港中文大学蒙美玲教授团队搞的MDD方案,数据是标注到phone级别的,人工成本比较高。kaldi中也把GOP集成进来了,在egs里面有gop部分,有兴趣可以参考。...

2020-03-21 00:02:07 6832

原创 Kaldi中语音数据增强方法

在实际应用中,有时候数据不是很多,可以用数据增强方式扩展数据,在小的数据集上效果比较明显。语音数据增强主要有以下几种方式:音速扰动sputils/data/perturb_data_dir_speed_3way.sh音量扰动vputils/data/perturb_data_dir_volume.sh加上去年谷歌提出新型自动语音识别SpecAugment数据增强方式SpenAugm...

2020-03-20 16:22:59 3426 1

原创 kaldi中修改phones中音素个数

在工程项目中,有一天项目组说我们做语音评测的不需要这么多音素来表示,我们的产品英语语音评测是参考libirispeech中的脚本来修改的,默认是有360多个音素来表示的,查看phones.txt文件中,发现实际上音素包含有位置信息。kaldi中修改音素个数,将脚本中prepare_lang.sh中设置position-dependent-phones false 即可utils/prepar...

2020-03-20 14:17:08 478

原创 kaldi中使用迁移学习进行模型训练

在现实中我们学习语音识别过程中,我们可能没有那么多语音语料怎么办?我们可以采用别人训练出来的模型进行迁移学习。那么在kaldi中如何迁移学习呢?在kaldi中实际上很方便简单,只要在local/chain/tuning/run_tdnn_1d.sh脚本文件中配置下已有的声学模型文件即可,final.mdl 为已训练好的声学模型文件。如果没有大型的GPU服务器做实验,在kaldi官网上htt...

2020-03-20 13:28:27 1438 14

原创 Facebook 开源语音识别工具wav2letter环境搭建

wav2letter ++是Facebook AI Research语音团队的快速开源语音处理工具包,它是一个简单高效的端到端自动语音识别(ASR)系统。它完全用C ++编写,使用ArrayFire张量库和flashlight机器学习库来实现最高效率。该软件的目标是促进端到端语音识别模型的研究。 下面我们来搭建wav2letter ++开发环境。我的环境是ubuntu1...

2019-04-01 21:40:21 2017 1

原创 unity3d打包在安卓6.0上的权限问题

1.unity3d在android6.0上的权限问题2.禁止unity3d获取权限弹窗

2016-11-06 18:38:20 6741 7

原创 android studio 修改project的路径

android studio 开发中project的目录不知怎么路径变了,创建module跑到modle目录下去了。这里多了driver目录,实际上没有,去掉后 在Application.iml去掉后,重新打开studio后自动又加上了。在网上查了一圈还是没找到方法。没办法自己动手查,终于发现在C:\Users\Administrator\.AndroidStudi

2016-06-03 18:32:33 14308

原创 PhoneGap环境搭建(android平台)

PhoneGap是一能够让你用普通的web技术编写出能够轻松调用API接口和进入应用商店的HTML5应用开发平台。是唯一的一个支持7个平台的开源移动框架。这里以安卓平台为例搭建开发环境。1. 搭建安卓开发环境2.下载 PhoneGap3.新建PhoneGap项目

2014-12-09 00:05:42 619

转载 Android清除本地数据缓存代码

/*  * 文 件 名:  DataCleanManager.java  * 描    述:  主要功能有清除内/外缓存,清除数据库,清除sharedPreference,清除files和清除自定义目录  */import java.io.File;import android.content.Context;import android.os.Environment;

2014-07-12 18:03:32 668

转载 基于xmpp openfire smack开发之Android消息推送技术原理分析和实践[4]

http://blog.csdn.net/shimiso/article/details/8156439前面几篇给大家系统讲解的有关xmpp openfire smack asmack相关的技术和使用,大家如果有所遗忘可以参考基于xmpp openfire smack开发之openfire介绍和部署[1]基于xmpp openfire smack开发之smack类库介绍

2014-07-12 17:59:35 646

原创 Android使用HttpPost向服务器发送Json数据

Android使用HttpPost向服务器发送Json数据

2014-07-05 16:16:36 3367

ffmpeg4.16 ndk21 版本编译的android的库

ffmpeg4.16 ndk21 android 21 版本编译的库,包含 arm-v7a、arm-v8,包含include、动态链接库.so文件。

2020-07-14

Dlib 编译好的dLib 19.10

编译好的最新dlib 版本19.10,里面包含debug 和 release 编译的lib库

2018-04-13

dlib人脸特征库68个点

Dlib是一个包含机器学习算法的C++开源工具包。 dlib 人脸识别68个特征点数据包。

2018-04-11

ejb3-persistence.jar

ejb3-persistence.jar

2013-04-28

ssh三大框架整合

ssh三大框架整合,适合ssh初学者学习

2012-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除