自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 LaTeX数学符号大全

本篇博文介绍一些常用的LaTeX符号,方便使用时查询。文章目录1.操作符2.关系符3.希腊字母小写大写4.箭头5.点6.上标7.其他8.命令符9.跨行或跨列的符号:1.操作符SymbolCommandSymbolCommandSymbolCommand±\pm±\pm∓\mp∓\mp×\times×\times÷\div÷\div⋅\cdot⋅...

2019-04-28 21:12:44 400485 16

原创 面向新手的win10+vs2017+opencv3.4.5配置(永久配置)

在Win10环境下配置vs2017+opencv的过程,对新手来说极不友好,稍有不慎半天时间就白搭上去了。这里总结一下我配置的过程,给新手做个参考,也留着自己以后参考。这其中参考了很多博客,感谢这些大神们赠人玫瑰,这里就不一一致谢了。步骤如下1.下载vs2017社区版 传送门2.下载opencv3.4.5 传送门3.安装vs2017社区版如果没有特殊要求,只勾选 使用C+...

2019-04-05 10:08:15 13886 6

原创 【机器学习】用QR分解求最小二乘法的最优闭式解

【机器学习】用QR分解求最小二乘法的最优闭式解写在前面QR分解定义QR的求解线性回归模型用QR分解求解最优闭式解矩阵的条件数实验运行结果写在前面今天刷知乎,看到张皓在面试官如何判断面试者的机器学习水平?的回答里面讲到了关于用矩阵的QR分解求解最小二乘法闭式解的问题,碰巧前几天《矩阵分析》课堂上刚讲到QR分解,觉得挺有意思,值得深究,遂产生写本篇博文的动机。另外本人知识水平理解能力有限,如有错漏...

2018-12-09 22:37:31 11940 3

原创 【sox】解决 sox FAIL formats: no handler for detected file type `flac‘ 的问题

我们通过apt-get在Ubuntu 16.04上安装的SoX默认版本是14.4.1.5,这个版本不支持FLAC音频格式。从SoX官网下载更新版本可解决这个问题。目前(2020.12)能下载的最新版本是sox-14.4.2。首先安装FLAC:sudo apt install flac然后从源码编译安装SoX源码下载地址:https://sourceforge.net/projects/sox/files/sox/14.4.2/sox-14.4.2.tar.gz/download下载完成后解压缩

2020-12-30 17:05:47 2024 2

原创 【语音变速】变速不变调+变速变调

介绍两种语音变速的方法,一种是不改变pitch的变速,一种是改变pitch的变速。不改变pitch的变速方法:$ ffmpeg -n -i input.wav -filter:a "atempo=1.3" output.wav #速度变为原来的1.3倍$ ffmpeg -n -i input.wav -filter:a "atempo=0.8" output.wav #速度变为原来的0.8倍改变pitch的变速方法:$ sox input.wav output.wav speed 1.3 #速度

2020-10-15 18:58:11 1953

原创 【pyaudio】linux 安装pyaudio失败的解决办法

不罗嗦了,直接说解决办法,如下:1.先安装依赖库:sudo apt-get install libasound-dev portaudio19-dev libportaudio2 libportaudiocpp02. 安装pyaudiopip install pyaudio完事。

2020-08-30 23:38:57 2964 6

原创 【ffmepg】mp3转wav格式 | 重采样 | 从多通道中提取其中一个通道

ffmepg是功能非常强大的多媒体处理工具,可以处理音视频文件。安装方式自行请自行搜索。mp3格式转wav格式:ffmpeg -i test.mp3 test.wavmp3格式转wav格式,并提取其中一个通道。这里假设test.mp3文件是多通道音频。ffmpeg -i test.mp3 -ac 1 test.wavmp3文件重采样为32k,并保存为wav格式ffmpeg -i test.mp3 -ar 32000 test.wav重mp3文件中提取其中一个通道,并重采样为32k,然后保

2020-07-14 20:08:18 1684

原创 【webrtcvad】win10安装webrtcvad失败解决办法

请使用如下命令安装:pip install webrtcvad-wheels参考:github issue vijrishi95的回答

2020-06-01 15:11:58 4284 4

原创 【Linux】常用的压缩及解压缩命令

一、zip格式zip可能是目前使用的最多的文档压缩格式。它最大的优点就是在不同的操作系统平台上使用。缺点就是压缩率不是很高。压缩命令:zip -r archive_name.zip filename # -r 表示压缩文件解压命令:unzip archive_name.zip # 解压在当前目录 unzip archive_name.zip -d dir # 解压在指定目录 dir二、tar格式tar是在Linux中使用得非常广泛的文档打包格式。它的好处就是它只消耗非常少的CPU

2020-05-13 16:22:50 547

原创 【screen】解决screen中连不上Attached窗口的问题

问题描述:有时候使用screen的时候,用Ctrl+a d暂时离开当前session时,想要用screen -r name重新连接该session时发现连不上,提示There is no screen to be resumed matching xxx。输入screen -ls命令,发现有session处于Attached状态:如果想重新连接speaker这个session的话,如下:提示:There is no screen to be resumed matching speaker.解

2020-05-09 11:40:16 7553

原创 pytorch训练时给隐层网络特征图添加随机噪声导致训练效率低的解决办法

问题描述:最近在训练说话人识别模型x-vector时,在网络结构中,将frame-level特征进行 statistics pooling前给TDNN输出的特征添加随机噪声以提高模型的性能,但踩了个坑导致训练效率非常低,用nvidia-smi命令查看GPU的效率,时而100%时而0%,这其中肯定有问题。通过排查发现不是数据加载的问题,而是模型定义的问题。下面详细分析。模型定义的代码如下:class xvecTDNN(nn.Module): def __init__(self, numSpks, p_

2020-05-09 00:06:46 4273 2

原创 【内网穿透】如何在公网访问学校的服务器以及共享文件

由于疫情影响迟迟不开学,远程学习成为常态。像博主这样的调参侠需要远程连接实验室服务器,使用MobaXterm这样的工具虽然可以SSH服务器,但共享文件相对麻烦,每次本地写完代码都要上传一下,效率低不说,关键是不爽啊。如果能将服务器的文件共享到本地形成虚拟盘符那就省事多了,但是永恒之蓝病毒出来之后各大运营商关掉了445端口,通过samba服务是不能将文件共享到公网的,这篇文章介绍一种方法解决这个问题...

2020-04-15 15:14:06 5933

原创 【语音质量评估】在linux系统编译PESQ

PESQ用来对语音质量进行打分,是一种有参评估的方法, 即给定干净语音和该语音的带噪语音,以干净语音作为标准进行评估。这里记录PESQ工具的使用。首先到官网下载PESQ源代码,传送门,如下图所示点击下载c源码,并解压缩。Linux系统下编译安装PESQ工具来到PESQ工具的c源码的目录下cd T-REC-P.862-200511-I!Amd2!SOFT-ZST-E/Software/P...

2020-04-09 19:57:08 1131

原创 ubantu下的espnet安装

espnet是端到端语音识别开源框架,里面实现了很多端到端语音识别的方法。这里记录一下安装过程,便于以后换环境时能快速安装。安装步骤0.安装cmake# Using anaconda (If you don't have sudo privilege, the installation from conda might be useful)$ conda install cmake1...

2020-03-27 13:11:54 2581

原创 linux 中使用vim打开文本文件末尾显示^M的解决办法

在linux下,不可避免的会用VIM打开一些windows下编辑过的文本文件。我们会发现文件的每行结尾都会有一个^M符号,这是因为 DOS下的编辑器和Linux编辑器对文件行末的回车符处理不一致。解决办法使用dos2unix工具转换$ dos2unix filename需要安装dos2unixsudo apt-get install dos2unix...

2020-03-23 10:04:55 942

原创 【MATLAB】远程桌面打开MATLAB出现错误:License Manager Error -103

问题描述使用win10自带的远程桌面链接在远程计算机上打开MATLAB 2016b时会出现错误:License Manage Error -103解决办法:打开MATLAB安装目录,找到licenses文件夹,用记事本打开license_xxx_R2016a.lic文件,在每一行末尾加上 TS_OK,即可。如下:INCREMENT Aerospace_Blockset MLM 369 pe...

2020-02-24 12:22:58 1137

原创 【tmux】终端复用工具之tmux

最简易操作流程1、新建会话tmux new -s my_session。2、在 Tmux 窗口运行所需的程序。3、按下快捷键Ctrl+b d将会话分离。4、下次使用时,重新连接到会话tmux attach-session -t my_session。一、Tmux是什么?SSH远程控制服务器的时候,当关闭会话窗口(session)时远程进程会自动终止,有时候这就很令人讨厌,比如正在远...

2020-01-15 10:42:45 376

原创 GPU显存释放:GPU显存被占用,但不显示进程ID

如果使用命令nvidia-smi不显示占用GPU显存的进程,可以使用以下命令查看:fuser -v /dev/nvidia0nvidia后面的0表示GPU的id号。输入上述命令会显示残留的进程,如下:逐个把残留进程kill掉就行了,命令为:kill idkill完残留进程后,GPU显存即可完全释放。...

2019-12-18 16:56:43 9505 2

原创 【kaldi】提取二阶差分MFCC特征

在kaldi里面,提取MFCC特征的工具compute-mfcc-feats 没有选定提取二阶MFCC的参数,只能提取一阶。如果想要得到二阶的MFCC特征,用add-deltas 这个工具就能实现,例子如下 $cmd JOB=1:$nj $logdir/make_mfcc_${name}.JOB.log \ compute-mfcc-feats $vtln_opts $write_ut...

2019-11-28 09:18:05 1267

原创 音频通道转换

利用sox将多通道音频转换成单通道音频sox input.wav -c 1 output.wav其中,参数-c表示通道channel,1表示输出音频通道数为1。

2019-11-04 21:23:57 1354

原创 如何Windows本地浏览器打开远程服务器jupyter notebook

1、在本地机器上进行 ssh 端口映射在CMD命令行中输入ssh -p 21 -L 8008:127.0.0.1:8888 remote_user_name@remote_server_ip其中,-p 21 表示远程访问的端口,有的可能不是21,需要换成端口22表示ssh而不是ftp-L 8008:127.0.0.1:8888表示将远程服务器的 Jupyter Lab 端口8888 ...

2019-10-15 21:26:30 3063 3

原创 【linux】使用 nice、cpulimit 和 cgroups 限制 cpu 占用率

下面介绍3种控制进程运行的方法:1、使用 nice 命令手动控制任务的优先级。2、使用 cpulimit 命令不断的暂停进程,以控制进程所占用处理能力不超过特定限制。3、使用linux内建的control groups(控制组)功能,它提供了限制进程资源消耗的机制。1、nice 命令nice命令可以修改进程的优先级,这样就可以让进程运行得不那么频繁。 这个功能在运行cpu密集型的后台进程...

2019-10-15 02:20:07 1574

原创 【kaldi】kaldi的ark转numpy

kaldi的I/O机制比较特殊,它是将特征、mfcc向量等保存在.ark文件中,通过.scp文件进行索引。为了方便分析,有时候需要将特征转换成numpy形式保存。最近在github上搜寻发现一个非常好用的python工具kaldiio,可以直接将ark转换成numpy array。使用方式:首先安装:pip install kaldiio从.ark文件到numpy array...

2019-10-14 00:19:53 2890 6

原创 【kaldi】报错:fstarcsort: error while loading shared libraries: libfstscript.so.10: cannot open shared o

错误:在准备语言模型时输入脚本代码:utils/prepare_lang.sh --position-dependent-phones false data/local/dict "<UNK>" data/local/lang data/lang报错:fstarcsort: error while loading shared libraries: libfstscript.s...

2019-10-09 21:41:38 2006 2

原创 Tensorflow打印网络结构与变量

在用tensorflow搭建好网络之后,如果可视化一下网络的结构与变量,会对网络结构有一个更直观的了解。网络结构与变量的可视化方法如下:在搭建好网络之后,如下代码可以打印出网络的变量variables = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES)for v in variables: print(v)活动的...

2019-10-07 01:03:43 4872

原创 【语音增强】使用RIR_Generator从近场音频产生远场音频|混响

这里介绍一种使用近场的干净的音频生成(模拟)远场音频的方法。GitHub项目地址:RIR_Generator。只介绍方法,要了解原理的请参考项目里的rir_generator.pdf文档。1.首先把这个项目git clone到本地。2.将cpp文件编译成matlab可执行的文件(参考这里)方法是,在shell终端打开matlab,在matlab运行mex rir_generator.c...

2019-09-11 17:06:44 4316 14

原创 【python】【sox】音频降采样与改变位深度

这篇文章介绍如何使用python对音频进行降采样。手上有一批48k采样率的音频,需要将到16k。这里使用python的librosa库来完成。一行代码搞定:y_48k, sr = librosa.load(wav_filename, 48000) # 读取原音频y_16k = librosa.resample(y=y_48k, orig_sr=48000, targe_sr=16000) #...

2019-09-04 20:48:48 6372

原创 【python】python代码加密与License控制

背景在一些使用python的商业项目上,开发人员不想被用户看到源代码时,就需要对python代码进行加密;进一步地,如果想限制用户只能在获得授权的机器上运行你写的代码时(利益相关),就需要使用License控制。只有经过加密的代码才能进行License控制,试想一下,如果客户能拿到你的源代码,那么License控制就成为无稽之谈。这里提供一种代码加密与License控制的思路。先说pytho...

2019-08-31 20:33:21 11228 4

原创 pytorc使用多个GPU同时训练及常见问题解决办法

在pytorch上使用多个GPU(在同一台设备上,并非分布式)进行训练是件非常容易的事情,只要在源代码中添加(修改)两行代码即可。下面贴上官方教程给的示例代码。官方tutorial把模型放在GPU上:device = torch.device("cuda:0")model.to(device)将tensor复制到GPU上mytensor = my_tensor.to(device)...

2019-05-16 15:07:03 5896

原创 【Linux】用Linux命令一次性解压多个.tar.gz文件

一些大型的数据集通常以多个压缩包的形式保存,如下图所示,逐个解压就显得不那么明智了利用Linux命令行可以用一行命令一次性解压多个压缩包。对于解压多个.gz文件的,用此命令:for gz in *.gz; do gunzip $gz; done对于解压多个.tar.gz文件的,用下面命令:for tar in *.tar.gz; do tar xvf $tar; done参考:...

2019-05-13 10:05:43 10532 2

原创 【机器学习】错误拒绝率FRR,错误接受率FAR,等误率EER,准确率ACC 的理解

1.错误拒绝率(False Rejection Rate, FRR)分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例(即本不该拒绝的但拒绝了)。举个例子,用你的指纹解锁你自己的手机时,无法认证通过,则称为错误拒绝,错误拒绝率高则系统安全性高。错误拒绝率(FRR)为错误拒绝案例在所有同类匹配案例中占的比例。FRR=错误拒绝的案例错误拒绝的案例+正确拒绝...

2019-05-11 10:09:42 11457

翻译 【语音】提取MFCCs特征

MFCC: Mel Frequency Cepstral Coefficient tutorial任何自动语音识别(asr)系统的第一步都是提取特征,即识别音频信号中有利于识别语言内容的成分,丢弃所有其他携带信息的成分,如背景噪声、情绪等。想深入了解语音,先从了解人的发声原理开始。人发出的声音是通过舌、牙等声道的形状来过滤的,这种形状决定了发出什么样的声音。如果我们能准确地确定音素的形状,就能...

2019-05-10 21:25:49 2288

转载 如何在Pytorch中精细化利用显存

浅谈深度学习:如何计算模型以及中间变量的显存占用大小:https://oldpan.me/archives/how-to-calculate-gpu-memory如何在Pytorch中精细化利用显存https://oldpan.me/archives/how-to-use-memory-pytorchpytorch 减小显存消耗,优化显存使用,避免out of memory...

2019-04-24 21:44:49 654

原创 【python】csv文件的读写操作&&将字符串里的数字找出

最近在学习pytorch,有一个猫狗分类的kaggle比赛,预测结果要保存在csv文件中提交。其中格式要求第一列是id(纯数字),第二列是预测为狗的概率。 但我预测出来的id那一列里忘记tensor.item()操作了,以至于输出的不是纯数字,懒得在代码里改了,也抓住这个机会来学一学字符串的处理与csv的读取操作。这个是预测出来的图,很明显不符合赛方要求的格式需要将id这一列变成纯数字,如下...

2019-04-23 15:16:31 4877 1

原创 python中的*args和**kwargs用法

说理论太乏味枯燥,直接上例子def foo(*args, **kwargs): print("args = ", args) print("kwargs = ", kwargs) print("===============分割线=================")if __name__ == '__main__': foo(1,2,3,4) foo...

2019-04-22 21:12:21 213

原创 【机器学习】查准率与查全率+ROC曲线

对应的两类错误率:假阳性率、假阴性率:假阳性率(false positive rate)表示假阳性样本占总阴性样本的比例假阴性率(false negative rate)表示假阴性样本占总阳性样本的比例评价一种检测方法的效果,常用的两个概念:灵敏度(敏感性)和特异度ROC曲线绘制方法...

2019-04-15 19:32:15 636

原创 使用colab训练faster-rcnn

用colab配置环境训练faster-rcnn一、前言最近在实验室旧服务器上配置训练faster-rcnn的环境,因为没有sudo权限无法升级cuda版本(8.0),导致怎么编译都不成功,因此钻进了牛角尖去找各种不升cuda版本也能成功编译的解决办法,但这早就注定了是一场徒劳,期间发现别能编译成功的cuda版本至少是9.0,花了两天时间毫无进展,后来想到了免费的colab,决定尝试一下,没想到...

2019-04-14 21:50:57 8734 71

原创 解决每次进入shell都要source ~/.bashrc问题

这个问题困扰我很久,我明明改了~/.bashrc文件,重新通过ssh登录的时候每次我都要手动输入source ~/.bashrc,配置才会生效,很是头疼。解决方法shell下输入,编辑.bash_profile文件vim ~/.bash_profile在文件内部输入if test -f .bashrc ; thensource .bashrc fi按Esc,输入:wq保存退出vi...

2019-04-12 22:12:40 14744 5

原创 Linux下Anaconda创建、激活、退出、删除环境

Anaconda创建环境:下面是创建python=3.6版本的环境,取名叫python36conda create -n python36 python=3.6激活环境下面是激活刚刚创建的环境python36source activate python36退出环境source deactivate删除环境conda remove -n python36 --all...

2019-04-11 15:41:39 22741

原创 【论文笔记】目标跟踪算法之Siamese-RPN

High Performance Visual Tracking With Siamese Region Proposal Network文章目录High Performance Visual Tracking With Siamese Region Proposal Network一、简介二、补充知识三、算法总体框架四、具体实现4.1 损失函数五、实验结果六、总结论文地址pytorch代...

2019-04-09 22:34:02 2989

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除