自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(107)
  • 资源 (20)
  • 收藏
  • 关注

原创 Docker使用笔记

返回结果为True,说明可以用哦。

2023-12-04 19:16:19 520

原创 numpy报错can‘t convert np.ndarray of type numpy.object_.解决方案

numpy报错can't convert np.ndarray of type numpy.object_.解决方案

2023-01-10 09:56:18 3774 1

原创 python三种常见的读取语音方法的速度对比

python 中3种常见的读取语音方法的速度对比及使用建议

2022-12-29 19:36:07 835

原创 python批量添加不同噪声(可调节不同信噪比)

在进行一些语音任务时,可能需要对我们的语音信号进行加噪,难免会用到批量对语音信号进行加噪,下面我实现了使用python批量对语音文件进行加噪,希望能对大家有所帮助.在这里需要修改main函数中的那几个路径和信噪比就可以批量添加啦~,祝大家使用愉快。

2022-10-14 09:38:15 2649 11

原创 pytorch使用Dataloader加载自己的数据集train_X和train_Y

pytorch使用Dataloader加载自己的数据集train_X和train_Y。

2022-07-28 15:34:19 2984 1

原创 python开发中常碰到的问题-附带解决方案

pycharm开发中常碰到的问题-附带解决方案。

2022-07-28 14:42:28 994

原创 多种深度模型实现手写字母MNIST的识别(CNN,RNN,DNN,逻辑回归,CRNN,LSTM/Bi-LSTM,GRU/Bi-GRU)

多种深度模型实现手写字母MNIST的识别(CNN,RNN,DNN,逻辑回归,CRNN,LSTM/Bi-LSTM,GRU/Bi-GRU)

2022-07-28 14:39:06 644

原创 matlab求取语音的基音频率、共振峰信息并将其标注在语谱图上

matlab求取语音的基音频率、 共振峰信息并将其标注在语谱图上

2022-05-03 16:50:27 5595 6

原创 matlab 使用svm进行分类含实例代码(适用于二分类和多分类)

matlab 使用svm进行分类含实例代码(适用于二分类和多分类

2022-04-26 14:32:43 28074 21

原创 python调用matlab的.m函数并获取返回参数

python调用matlab的.m函数,并返回数据结果

2022-03-25 21:26:21 3779 8

原创 2021年秋招面试紫光展锐音频算法岗记录

2021年秋招面试紫光展锐音频算法岗记录

2021-12-03 10:29:35 3678 3

原创 python 批量去掉语音中的静音段

python批量去掉语音中的静音段,使用mfcc0参量进行端点检测,为平滑特征,对其进行中值滤波,最后可以灵活去除语音中的静音段

2021-12-02 15:27:33 7891 12

原创 基于VQ适量特征的说话人识别

基于VQ矢量量化的说话人识别流程图

2021-12-02 14:48:19 470

原创 pytorch分类模型绘制混淆矩阵及可视化

pytorch分类模型绘制混淆 及可视化

2021-12-02 10:46:32 18135 15

原创 提取IEMOCAP情感语料库标签

IEMOCAP语料库介绍该语料库包含的情感包括 anger, happiness, excitement, sadness, frustration, fear, surprise, other and neutral state分别用ang、hap、exc、sad、fru、fea、sur、oth、neu来表示如何查看标签数据进入文件夹 IEMOCAP\Session1\dialog\EmoEvaluation ,可以看到文件:这里以打开Ses01F_impro01.txt文件为例:该 t

2021-11-27 22:10:31 9423 37

原创 深度学习过拟合及如何防止过拟合

0.过拟合深度学习模型的过拟合通常是指针对设计好的深度学习网络,在使用训练数据集训练时,在训练数据集上可以获得很高的识别精度(针对分类问题),或者很低的均方根误差(很对回归问题),但是把训练好的模型应用于测试集进行预测时,预测效果往往不是很理想。我们称这种现象为过拟合。1.如何防止过拟合1.1 增加数据量更多的训练样本通常会使得模型更加稳定,所以训练样本的增加不仅可以得到更有效的训练结果,也能在一定程度上防止模型过拟合,增强网络的泛化能力。,例如在图像的分类任务中,物体在图像中的位置、姿态、尺度、图

2021-11-19 16:34:49 4645

原创 html网页调用cmd命令行并执行命令(亲测可用)

html调用cmd命令行并执行命令(亲测可用) <html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><title>测试php+js调用cmd命令行</title></head> <body> <a href="#"

2021-09-27 15:23:20 15187 9

原创 windows 使用cmd命令调用pesq.exe测量噪声语音及增强语音MOS评分

1.第一步 下载windows下的pesq.exe这个文件在csdn已经被人上传了,请戳我,pesq.exe文件下载路径~~2.单个测量MOS评分命令cmd进入pesq.exe所在文件夹下,然后执行以下命令,当然文件路径需要更改为自己的文件路径。pesq +16000 1.wav ./data/factory1_15dB.wav# 此处+16000表示的是语音采样率,# 1.wav表示纯净的语音文件,# ./data/factory1_15dB.wav 表示噪声状态下或增强后的语音文件执行

2021-07-17 15:51:21 1759 4

原创 基于VQ矢量量化的说话人识别(应用于门禁识别)

1.功能演示1.添加说话人2.删除说话人3.识别说话人,如果是系统内人员,显示开锁,如果是系统外人员,则不予开锁算法准确率96%以上。录制不全,只能显示30s ~_~!matlab代码部分核心代码function varargout = User_Desktop(varargin)% USER_DESKTOP MATLAB code for User_Desktop.fig% USER_DESKTOP, by itself, creates a new USER_DESK

2021-07-12 10:30:49 2328 10

原创 从 语音合成 到 语音克隆,你不了解的还有多少?

从 语音合成 到 语音克隆,你不了解的还有多少?1.初识Real_Time_Voice_Cloning近日学习之余看到一篇语音合成的github开源项目 请戳这里,github原文地址 ,论文地址 论文地址请戳这里 ,该项目是2019年开源的,平台使用tensorflow,2021年2月又将环境移植到pytorch环境。但我研究了这么长的语音,直到现在我才了解到这个工具,也是比较惋惜。2. 基本思路在这里我也不介绍过多了,只大概讲一下其算法流程以及 克隆原理在开始介绍之前,我按照我的理解

2021-07-11 22:12:58 5470 3

原创 语种识别公开语料库(可用于学术科研和项目研究)(自用)

1. VoxforgeVoxforge数据集下载地址:http://www.voxforge.org/zh2.Common Voice:Common Voice公开语料集下载:3.LibriVoxLibriVox语料库下载地址4.中文thchs30数据中文thchs30语料库下载:http://www.openslr.org/18/5.Slavic language recordingsSlavic language recordings 语种下载地址:6.Kaggle公开数据

2021-07-11 10:59:26 4676

原创 matlab画图操作(修改坐标轴及字体,加粗,颜色修改,适合论文画图)

matlab常用画图操作1.设置坐标轴2.设置figure大小3.matlab线条设置4.子图设置5.颜色查询6.colorbar设置7.线条透明度设置8.设置坐标轴刻度形式9.图例设置1.设置坐标轴%设置坐标轴格式title('Title','fontsize',12,'fontname','Times');xlabel('Times(s)','fontsize',12,'fontname','Times')ylabel('Value','fontsize',12,'fontname','Tim

2021-07-11 10:57:31 81915 9

原创 plt绘图操作(坐标轴修改字体,加粗,适合论文绘图使用)

# 修改标题及x,y坐标轴字体及大小plt.title("$MFCC_0$参数中值滤波", fontsize=15,fontweight='bold')plt.xlabel("时间/s", fontsize=15,fontweight='bold')plt.ylabel("数值", fontsize=15,fontweight='bold')# 修改坐标轴字体及大小plt.yticks(fontproperties='Times New Roman', size=15)plt.xticks(f

2021-07-11 10:55:49 52232 2

原创 k-means对经纬度坐标进行聚类,并可视化显示(python)

1.Code#!/usr/bin/python# -*-coding:utf-8-*-from initial import *import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.io import loadmatrandom.seed(1)np.random.seed(1)#解决中文显示问题plt.rcParams['font

2021-05-16 21:29:04 9963 16

原创 使用系统聚类对数据点进行子群合并

说明:本代码应用于第14届认证杯网络大赛二阶段,用于对k-means聚类后的子群进行合并,以减少子群数量,减少企业的停车场个数。1.code#!/usr/bin/env python# -*- coding: utf-8 -*-''' @Time : 2021/5/16 0:16 @Author : kingback @Site : @File : 空间聚类.py @Software: PyCharm'''import numpy as npimport pa

2021-05-16 21:24:03 373

原创 python numpy数组转list,无法一一取出

1.问题描述在使用python 进行字符串处理时候,我们经常用到numpy包,因为其操作起来很方便,但是当我们再想要将numpy类型转为list时,就会出现一些问题:1.1 numpy数组含有省略号(解决方案)当我们想要查看详细的numpy数组内容的时候,我们使用print(filenames) #此处filenames为一个np数组命令查看的时候,输出结果则会自动省略一些数据,致使我们后续的操作很难进行:如下所示调整方案就是,在引入numpy后,需要设置numpy的行列显示限制,具体解决

2021-05-06 15:30:39 450

原创 python绘制语谱图(不掉包实现)

1.绘制语谱图为方便使用,现将同学唐维康的代码做出如下修正,封装成类,可以灵活调用@作者:kingback@文件名称:MySpec.py@IDE:PyCharm@文件创建时间:2021-04-24 22:00:08@月份:4月import librosaimport numpy as npimport matplotlib.pyplot as pltclass MySpec(object): def __init__(self,filename,wlen,inc):

2021-04-25 10:36:50 2420

原创 python 批量切割语音

python批量切割语音文件(可以灵活控制切割长度)话不多少,直接上代码:def file_name(file_dir): ''' 输入文件夹名称,并返回该文件夹下所有语音文件的完整路径(list类型) :param file_dir: :return: ''' L = [] for root, dirs, files in os.walk(file_dir): for file in files: if f

2021-04-24 18:21:47 9205 7

原创 python批量读取某文件夹下所有语音文件的总时长

1.需求在进行语音相关方面的研究的时候,我们就需要统计一下我们各个文件夹下所有语音文件的总长度,但是一个一个的进行计算难免有些麻烦,想着有没有可以使用python批量化计算每个文件夹下的所有语音时长,于是便有了下边的这个代码。2.Python批量获取指定文件夹下所有语音总时长此处将代码公式,希望可以帮助到其他人。import osimport wavedef file_name(file_dir): ''' 输入文件夹名称,并返回该文件夹下所有语音文件的完整路径(list类型)

2021-04-23 20:50:39 7302 1

原创 python批量解压zip压缩文件夹

1.python批量解压zip压缩文件夹import zipfiledef un_zip(zip_filename,des_dir): ''' 解压压缩包至des_dir指定文件夹 :param zip_filename:输入的压缩包名字,例如a.zip :param des_dir: 解压到的位置:例如为 ./文件存储/ :return: ''' with zipfile.ZipFile(zip_filename, 'r') as zzz:

2021-04-21 13:50:18 695

原创 python如何批量下载大文件(支持断点续传)

1.python下载大文件(支持断点续传)网上的很多爬取图片的程序,基本使用scrapy框架中的img管道进行加速下载,但是当要下载的文件太大的时候,scrapy框架中的文件下载管道也无能为力的时候,也确实听让人无奈,于是我写下了如下代码,其功能如下:1.读取本地 ./english.txt 文件中的下载链接2.for循环调用 download 函数分别下载各个下载链接3.保存到本地(支持断点续传)以下就是全部的代码,如果大家用得到就可以点赞支持一下。# -*- coding:utf-8 -

2021-04-21 13:40:33 8731

原创 语音质量指标Python(PESQ、STOI、SegSNR、LLR、WSS、CD、LSD、CSIG、CBAK、COVL)

Speech#!/usr/bin/env python# -*- coding: utf-8 -*-'''@Time : 2020/9/13 16:53@Author : kingback@Site :@File : SEPM.py@Software: PyCharm'''import pysepmimport osimport numpy as npimport soundfile as sffrom tqdm import tqdm'''the i

2021-04-21 13:20:09 15071 30

原创 python读取sphere语音文件

在进行语音处理的时候,有时候需要处理sphere的语音文件,如果直接读取wav问价是无法读取出的,可以使用以下代码进行转换:# coding = utf-8import numpy as npimport ctypesdef read_sphere_wav(file_name): wav_file = open(file_name, 'rb') raw_header = wav_file.read(1024).decode('utf-8') raw_data = wav

2021-04-20 20:25:22 361

原创 python地图坐标系转换(bd09,gcj02,wgs84三种投影坐标系相互转化)

1.介绍1.1 GIS之坐标系坐标系是GIS的重中之重,一般来说,工作底图平面坐标系应采用国家大地坐标系CGCS2000(或相当于精度WGS84坐标系),投影方式采用高斯-克吕格投影,高程基准采用1985国家高程基准。1.2 地理坐标系(GCS,Geographic Coordinate System)地理坐标系其实是用了一个规则的球面来代表地球表面。在球面上画一张经纬网,球面上的点就有了它的经纬度,这就是地球上每一点的坐标。因此,地球坐标系中的坐标是以经纬度来表示的。1.3 我国常见的GCS-地

2021-04-14 09:03:25 6585 2

原创 pandas操作excel表格(循环写入)

1.问题描述在数据提取的过程中需要将数据循环写入某个excel表格中,但是在循环写入过程中一直是覆盖掉上个循环的写入的数据,很是无语。2.解决措施#在循环外先定义一个空的DataFrameresult = pd.DataFrame() # 循环读取文件名称 for filename in tqdm(filenames): mfccs_1=mfcc_1(filename) #调用python_speech_features包生曾 mfccs参数 #

2021-04-07 21:28:09 6701

原创 numpy数组保存至txt时一系列问题及其解决方案

0.问题描述在做语音的特征提取的时候,需要将numpy数组内的数据写入到txt文件中,但是在写入后却是这个狗样子,自动给我缺省了一些数据,且还存在一些其他问题,写入txt的原始代码如下所示:'''...此处省略一些无用代码''' mfccs_labels=[] # 循环读取文件名称 for filename in filenames: mfccs_1=mfcc_1(filename) #调用python_speech_features包生曾 mfccs参数 #将mfcc

2021-04-07 16:44:11 1340 1

原创 python提取mfcc参数(python_speech_features和librosa两个包速度比较)

1.比较代码import librosaimport osimport timeimport numpy as npimport scipy.io.wavfile as wavimport python_speech_featuresfrom python_speech_features import mfcc#读取某文件夹下的所有.wav文件,并返回文件全称def file_name(file_dir): L = [] for root, dirs, files in

2021-04-07 13:28:09 9622 14

原创 matlab对语音进行基音检测(基于matlab voicebox 工具包)

0.背景研究基音频率, 简称基频, 它决定了语音的音高. 在语音信号处理中, 基频信息可应用于语音识别、语音压缩编码以及语音分离等领域。2014年Gonzalez 提出了非线性地基因检测语谱图特征PEFAC, 截至目前该特征已被证明具有较好的鲁棒性.且被广泛的应作基音检测和语音识别特征,近些年一些学者将PEFAC语谱图输入到CNN,DNN等深度神经网络中进行各项语音实验。短时语音信号可以表示为一系列谐波的加权和, 其中第1 个谐波即为基频, 记做F0, 其他谐波均为F0 的整数倍.在上边的语谱图中,

2021-04-01 20:01:03 2341

原创 python中math.log()函数和numpy.log()函数区别

python中 math.log 函数和numpy.log 函数区别1.调用math.log 函数进行对数运算2.调用numpy.log函数进行对数运算3.总结区别1.调用math.log 函数进行对数运算因为我需要对一个数组的每个元素都取对数,一开始,我使用的是math.log(),结果程序给我报错:#执行的python程序 L_p=math.log10(data/P_ref1) #程序返回的错误:TypeError: only size-1 arrays can be converted

2020-12-04 16:50:42 4025

原创 ffmpeg 去除音频文件中的静音部分

ffmpeg 去除音频文件中的静音部分0. 前提1. 使用ffmpeg去除音频静音1.1 python调用cmd命令1.2 直接使用cmd命令2.ffmpeg 官方使用手册0. 前提电脑已经安装ffmpeg且已将其配置为环境变量1. 使用ffmpeg去除音频静音1.1 python调用cmd命令import oscmd_commond="ffmpeg -i "+filename+" -af silenceremove=stop_periods=-1:stop_duration=0.2

2020-11-27 21:39:57 12134 2

基于适量量化(VQ)的说话人识别.zip

使用VQ适量量化对说话人进行识别,并成功应用到门禁识别领域,该程序使用matlab GUI界面开发,根据人声实现说话人的确认,然后对门禁系统进行开锁,目前可以实现添加说话人、删除说话人等一系列操作。与我的博客(基于VQ矢量量化的说话人识别(应用于门禁识别)是配套的)希望可以帮助到大家。

2021-12-02

第14届认证杯数学建模二阶段C题处理数据,主要用于K-means聚类

第14届认证杯数学建模二阶段C题处理数据,主要用于K-means聚类,大家可以结合博客内容,对经纬度坐标进行聚类。

2021-09-10

LibriVox语料库下载链接.zip

LibriVox语料库下载链接,可以用于语种识别,每个语种100+ hours的语料库,包含以下语种的(english、French、German、spanish、Italian、Dutch)六种语言,下载需要google

2021-04-25

GFCC和MFCC特征提取(python代码)

提取语音的GFCC特征,不需要搭建环境,可以直接运行,希望大家支持一下。如果下载后不可以使用,可以csdn联系我

2021-04-20

TIMIT转换格式后

在这里上传了TIMIT语音文件,原始的语音文件是sphfile编码的文件,虽然其后缀为.WAV文件,但是windows下是无法打开的,于是我在这里上传了将文件格式转换后的压缩包,希望可以帮助到大家。

2020-08-19

ibm-watson-4.2.1.tar.gz

python安装ibm运行环境的时候,需要安装ibm-waston安装包,如果正常下载的话,很难下载,于是我就将这个文件上传至此,希望可以帮助到大家。

2020-06-14

六级单词中文版----

此之谓六级单词中文版,有需要的可以下载,大家也可以不下载,因为我这只是测试,嘿嘿嘿,又开始凑字数了,啊啊啊还不够啊

2020-03-24

六级单词发音mp3文件

该资料是有道六级单词发音,正宗英国腔,需要工程开发的兄弟或许会用到,这资料自己存在电脑上也没啥用处,希望可以帮助到更多的人。

2020-03-24

六级单词英文只含英文单词

本资料是我用于获取有道api英语发音用到的材料,当然其它用途大家也可以用到,我就是单纯的凑字数。哈哈

2020-03-24

四六级词库sql文件版可以直接导入mysql数据库

这个sql文件是我之前自己将四六级单词导入mysql数据库后,又将其导出来的sql文件,希望可以帮助到到家,免得大家再去重新导入了~~~

2020-02-25

北邮通信考研2019年801真题及答案

文件为2019年北邮801通信原理真题及答案,希望可以帮助到学弟学妹~加油,加油啊,希望对大家有用!

2020-02-25

TIMIT语音资料库Part3--TRAIN第二部分.zip

进行语音识别的时候会用到timit语音资料库进行训练,但是该资料又很难寻找,于是我将其上传至csdn,希望可以帮助到更多的人。由于csdn上传文件大小限制,我将全部文件拆成三部分,这个是第3部分,其内包含TRAIN文件夹的后半部分,也就是后四个英语方言地区的语音数据。

2020-02-13

TIMIT语音资料库Part2--TRAIN第一部分.zip

进行语音识别的时候会用到timit语音资料库进行训练,但是该资料又很难寻找,于是我将其上传至csdn,希望可以帮助到更多的人。由于csdn上传文件大小限制,我将全部文件拆成三部分,这个是第2部分,其内包含TRAIN文件夹的前半部分,也就是前四个英语方言地区的语音数据。

2020-02-13

TIMIT语音资料库Part1.zip

进行语音识别的时候会用到timit语音资料库进行训练,但是该资料又很难寻找,于是我将其上传至csdn,希望可以帮助到更多的人。由于csdn上传文件大小限制,我将全部文件拆成三部分,这个是第一部分,其内包含DOC文件夹,TEST数据集和README.DOC文档

2020-02-13

昆明理工大学信息学院各研究生导师信息

昆明理工大学信息学院各研究生导师信息,希望对即将步入复试的学弟学妹们一些帮助。祝大家复试顺利~~~包括的信息很全哦不妨下载试试

2020-02-07

六级单词.txt可直接存入数据库

六级单词txt可以直接存入数据库,本人已jing测试过,因为之前做过一个四六级单词查询系统。希望可以帮助到大家

2020-02-07

四级.txt可以直接存入数据库

四级单词txt,可以直接存入数据库,本人已测试过,因为之前做过一个四六级单词查询系统会需要用到这个。哈哈

2020-02-07

SpeechRecognition-3.8.1-py2.py3-none-any.whl

这个文件是在python上进行语音识别的一个库,但是使用正常的pip下载的时候会很慢甚至会报错timeout443,于是就上传到csdn,希望可以帮助到大家。

2020-02-01

北京邮电大学信息与通信工程学院导师联系方式以及历年招收情况

北京邮电大学信息与通信工程学院导师联系方式以及历年招收情况

2019-09-14

北邮模拟.zip

此文件针对北邮考研得学弟学妹,希望可以帮助到大家。

2019-09-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除