自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 资源 (5)
  • 收藏
  • 关注

原创 python高频小工具(持续更新)

re.match尝试从字符串起始位置匹配一个模式,若是不是起始位置匹配成功的话,match()就返回none.字符串。flags      标志位,用于控制正则表达式匹配方式,例如:是否区分大小写,多行匹配等等。使用group(num)或groups()匹配对象函数来获取匹配表达式。自带函数,如果需要忽略大小写,需要增加lower或upper函数。匹配成功re.match方法返回一个匹配对象,不然返回None。无外乎处理各种文件和字符串,然后采用各种算法。采用递归方式读取指定目录下的文件列表。

2023-03-23 10:51:47 404

原创 语音增强学习路线图Roadmap

语音增强算是比较难的研究领域,从入门到精通有很多台阶,本文介绍一些有价值的书籍,值得反复阅读。主要分为基础类和进阶类书籍,大多都是理论和实践相结合的书籍,编程实践是抓手,让知识和基础理论变扎实。

2023-02-19 21:59:31 628

原创 基于python的音频信号处理

基于python的信号处理,列表和音频的处理,如stft、istft、vad、导向矢量等等

2023-02-15 23:26:11 1834

原创 Diffraction、Scatterring、Diffusion、Reflection 衍射、散射、干涉、折射 傻傻分不清

散射,蓝色的天空可以用散射理论解释。在构成冰的空气分子或水分子的尺度上,比光的波长(0.4到0.8 μm之间)小得多的物体(纳米级),散射主要是短波,因此选择了蓝色。由于瑞利散射,冰洞中的蓝色。,衍射,是指波遇到障碍物时偏离原来直线传播的物理现象。在经典物理学中,波在穿过狭缝、小孔或圆盘之类的障碍物后会发生不同程度的弯散传播。Absorption,声音被物体吸收。Interference,干涉。Reflection,反射。Refraction,折射。

2023-01-31 08:49:05 1549

原创 Matlab和Python异同点

matlab在信号处理领域有着不可撼动的地位,其工具链和配套文档牛逼。近些年,python发展迅速,配套工具链和文档也日益齐全,有必要两者兼顾。基本类型,即使是标量,也是多维数组。,默认双精度浮点double。python中的numpy。数组的第一个元素和表达方式。下表重点描述关键差异点。数组a第n维的元素个数。

2023-01-31 08:47:02 312

翻译 Deep Neural Networks for Multiple Speaker Detection and Localization

GCC-PHAT对频点进行累加,从而丢失了T-F稀疏特性。基于此,提出GCC-PHAT on mel-scale filter bank (GCCFB).制作较大数据库,包括回放和真人录制,用于开发和评估人机交互中的SSL问题。提出基于似然输出的编码,可以处理任意个数声源;麦克个数为M,则系数个数为M(M-1)/2。探索使用子带互相关信息作为输入特征;提出三种模型结构处理多声源定位;基于神经网络的声音定位方法汇总。网络输出编码为360维向量。

2023-01-28 21:13:43 114

翻译 Iterative sound source localization for unknown number of sources

声源定位的目的是通过观察的多通道音频进行声源的DOA估计。实际应用中存在声源个数未知的问题,当前的方法通过预测基于似然的编码(例如空间谱)以及采用预先确定的阈值来检测声源个数和DOA值。然而,该类基于阈值的方法不稳定,依赖阈值的选取。为了解决该问题,本文提出一种迭代声源定位方法ISSL,通过迭代的方法来确定声源个数,直至迭代条件终止。针对未知声源数量的迭代声源定位方法。

2023-01-28 11:28:38 235

原创 RTF、RIR、Steering Vector傻傻分不清

RTF: Relative transfer function,相对传递函数。RIR: Room impulse response,空间冲击响应。Steering vector: 导向矢量。

2023-01-27 19:02:04 934

翻译 Robust Phase Replication Method FOR SPATIAL ALIASING PROBLEM IN MULTIPLE SOUND SOURCES LOCALIZATION

相位解卷绕算法可以分为三类:Firstly, sequential unwrapping algorithms。大部分多通道声源DOA估计算法遭受空域混叠问题。当频率超过混叠频率,会产生IPD卷绕问题。本文提出一种实时的算法解决IPD卷绕问题。空间混叠在窄带声源定位领域是一大难题。空域混叠频率和麦克风间距和声源的入射角有关。避免 空域混叠的方法有两种,一是减小麦克风间距,一是相位解卷绕。传统的方法通过估计不同麦克风的Time Difference Of Arrival (TDOA, Δ。

2023-01-25 14:29:27 119

翻译 Multiple Sound Source Localization Based on IPD in All Frequencies with Spectral Masks

声源定位领域采用最重要的特征是频域相位差IPD。然而,由于空域混叠(特别是高频部分),对IPD的利用有限,特别是麦克风间距较大时。近期,提出了相位替代方法,声源定位任务采用最多的特征是IPD,然而,高频相位卷绕是个问题。一些算法尝试解决相位卷绕,从而解决空域混叠问题。1.2 空域卷积和相位替代法。观察到的相位差计算,

2023-01-24 22:10:12 140

原创 常用模型结构(FNN、CNN、RNN、TDNN、FSMN、Attention)

经典模型结构总结,大道至简,探寻最本质之处。可以归类为卷积,DNN、TDNN、FSMN等均可采用CNN实现。可以看作是卷积核比较大的卷积操作,第一层,卷积核16*3;第二层卷积核3*10。第一层权重数:16维特征输入*3帧视野*3个隐层节点=166。第二层权重数:3维隐层节点*10帧视野*4个输出节点=120。

2022-11-12 11:57:17 3410

原创 信号处理之回声消除

典型回声消除框架如图1。远端信号x从听筒或喇叭spk播出,并经过空间传播,被麦克风mic接收,近端说话信号也进入麦克风mic,这样麦克风接收到的就是两个信号的叠加,即d。自适应滤波器w对x进行处理获得y,d和y的差值作为误差,传递给自适应滤波器,进行迭代更新。图1:回声消除框架远端参考信号(上图far-end signal)经过自适应滤波器w远端参考信号经过空间传播(即经过Room Impulse Response)得到,目标误差。

2022-10-16 20:36:51 1429

原创 基于FFT的快速FIR

为了使快速卷积技术能得到有效的结果,前向和反向FFT的尺寸必须大于等于L ,采用N点FFT,N>L, 对h(n)和x(n)进行pad零,使其长度为N。y(n)为反向FFT前L个点的实数部分。如果x(n)的长度比较长,需要进行分段处理,导致时域混叠误差(time domain aiasing error),有如下两种方案避免时域混叠问题。下图展示了普通时域卷积和快速卷积乘加次数对比,显然,快速卷积具有相当优势。(1) 将h(n)和x(n)的长度扩充为N,不够部分补零。为Q-tap FIR,

2022-10-16 19:42:09 485

原创 Matlab使用若干问题记录

matlab中文显示乱码问题、混合编程和基础用法

2022-10-15 14:17:11 129

原创 信号处理之声源定位

由于噪声和混响的存在,导致互相关函数的峰值不明显,导致估计不准,考虑采用广义互相关方法。即先将时域转换为频域,在频域进行归一化操作,达到降噪的效果,再傅里叶逆变换至时域。本文讨论,通过麦克风阵列,判断声音的方位(距离、方位角azimuth和俯仰角elevation)。根据Wiener-Khichine定理,互功率谱(一般用大写字母。互相关函数取最大值时的p值,即对应的时延,此时。信号源s到观察信号y1和y2的时间差为。可以采用如下方法计算时间差。1. 什么是声源定位?附上Matlab代码。

2022-10-15 10:37:53 5541 2

原创 散射噪声仿真理论和实践(理论篇2)

本文提出一种算法,生成任意一维或三维阵列信号,该信号来自球形和圆柱形同性噪声场。更进一步,研究噪声源的个数对生成传感器信号准确性的影响。章节2指出,同性噪声场可以通过球体和圆柱体表面均匀分布的噪声源获得,分别生成3D和2D散射噪声场。在章节4,比较两种空间相干性。章节5,我们展示生成的传感器信号的使用,例如分析滤波求和波束形成器的方向索引。沿着z轴的所有圆环,对生成的传感器信号贡献相同。这就是著名的理论空间相干函数,针对球形同性噪声和全向传感器来。同性假设表面信号的功率谱密度是相等的,同位置无关,即。

2022-10-03 22:01:33 1078

原创 安装了多个anaconda导致的冲突问题

vim ~/.bashrc, 把最新安装的anaconda目录加入到环境变量中,即PATH中,“PATH=PATH:~/anaconda3/bin”,然后source ~/.bashrc。vim ~/anaconda3/bin/conda ,修改第一行的地址,采用最新安装的位置。vim ~/anaconda3/bin/pip ,修改第一行的地址,采用最新安装的位置。vim ~/anaconda3/bin/pip3 ,修改第一行的地址,采用最新安装的位置。

2022-10-03 14:52:13 2037 1

原创 散射噪声仿真理论和实践(理论篇1)

现实生活中的噪声场通常采用球形或圆柱形噪声场来逼近。噪声场的特性可以采用空间相干函数来描述。针对仿真的目的,信号处理领域的研究者通常要求传感器信号展现一种特别的空间相干特性。另外,他们通常要求一种特别的噪声,例如时间相关噪声、babble语音或者工厂噪声。已有算法不能生成此类传感器信号,列入随机噪声场中的babble语音和工厂噪声。本文提出一种高效算法,用于生成约定空间相干约束下的多传感器信号。该算法有两大优点,第一,对空间相干函数没有约束。第二,为了生成M个传感器信号,算法仅需要M个互相独立的噪声信号。

2022-10-03 14:47:51 712

原创 智能汽车的主流芯片对比

1、智能网联CPU算力(KDMIPS)GPU算力(GFLOPS)芯片制程(nm)2、智能驾驶AI算力(TOPS)芯片制程(nm)

2022-09-19 08:41:09 2077

原创 波束图(beam pattern)的python和matlab实现

【代码】波束图(beam pattern)的python和matlab实现。

2022-08-21 22:30:39 8856 4

原创 数字信号处理python代码(陈后金老师书籍第二章)

数字信号处理方面的python代码太少。鉴于python语言的流行,以及matlab对中国的不友好,准备将数字信号处理(陈后金老师版本)里的matlab代码全部python化。

2022-07-01 22:52:22 641

原创 数字信号处理python代码(陈后金老师书籍第一章)

数字信号处理方面的python代码太少。鉴于python语言的流行,以及matlab对中国的不友好,准备将数字信号处理(陈后金老师版本)里的matlab代码全部python化。

2022-07-01 22:11:17 1142

原创 模拟频率、数字频率、模拟角频率之间的关系

模拟角频率和数字角频率的关系_博客-CSDN博客_数字角频率和模拟角频率的关系概念: 模拟频率f:每秒经历多少个周期,单位Hz,即1/s;模拟角频率Ω:每秒经历多少弧度,单位rad/s;数字频率w:每个采样点间隔之间的弧度,单位rad。表达式: 模拟频率f: cos(2pi*f*t) 模拟角频率Ω: cos(Ω*t);数字频率w: cos(w*n)=cos(Ω*n*T) [T为采样间隔时间]。关系: Ω=2pi*f;w =Ω*T。

2022-01-08 22:24:36 4323

原创 ModuleNotFoundError: No module named ‘ruamel‘

c:\users\miniconda3\lib\site-packages\hyperpyyaml\core.py in <module> 15 import functools 16 import collections---> 17 import ruamel.yaml 18 import operator as op 19 from io import StringIOModuleNotFoundError: No module n...

2021-11-30 22:47:55 1156

原创 python学习记录

1、语法相关1.1 dict判断字典中的键是否存在,在python3之前是has_key()函数,在python3是__contains__()函数

2021-05-10 12:35:09 81

原创 笔记本玩深度学习!带GPU! Win10 + Anaconda + Cuda +  Pytorch + Pycharm

5000元笔记本也可以玩深度学习,而且重复利用独立显卡,感兴趣的话就一起来玩吧。笔记本 系统 CPU GPU CUDA cuDNN PyTorch 联想小新 win10 i5-1035G MX350显存2GB 10.2 v7.6.5 1.8 Anaconda是个神器,pytorch里面的各种库,都可以用此一一安装,多快好省。pycharm是个较好用的IDE。镜像是个好东西,一定要加到anaconda,软件下载加速。.

2021-05-03 21:57:03 2562

原创 pytorch和anaconda使用过程中的一些问题

pytorch 1.8.0 出现ModuleNotFoundError: No module named ‘tensorboard‘错误pip install tb-nightly

2021-05-02 16:05:29 188 1

原创 翻译Audio-Visual Deep Neural Network for Robust Person Verification

基于音视频深度神经网络的鲁棒性身份确认0 摘要对于说话人确认来说,声音和人脸是两个最普遍的生物特征,通常应用于说话人确认和人脸确认任务。已经有研究证明,将两种模态信息进行融合可以构建更加稳定鲁棒的身份确认系统。本文全面展示多模态学习策略,提出三种音视频深度神经网络,把控特征级AVN-F,embedding级AVN-E,以及embedding级融合联合学习AVN-J。为了进一步加强系统在真实噪声场景的鲁棒性,该场景下,并不是所有的模态信息都能高质量采集,我们提出了多种数据增广策略:特征级数据增广、em

2021-04-30 20:55:26 320 1

翻译 Deep Audio-Visual Speech Recognition翻译

原文链接:https://arxiv.org/pdf/1809.02108.pdf这是一批较为系统的介绍音视频融合的语音识别方案。

2021-04-18 20:36:46 1739

转载 常用正则表达

2021-04-04 17:42:53 71

转载 四大主流芯片架构(X86、ARM、RISC-V和MIPS)

随着CPU技术的不断发展,Intel陆续研制出更新型的i80386、i80486直到今天的 Pentium 4系列,但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源,所以Intel公司所生产的所有CPU仍然继续使用X86指令集。RISC-V 指令集完全开源,设计简单,易于移植Unix系统,模块化设计,完整工具链,同时有大量的开源实现和流片案例,得到很多芯片公司的认可。基于RISC-V 指令集架构可以设计服务器CPU,家用电器CPU,工控CPU和用在比指头小的传感器中的CPU。

2021-02-02 19:14:17 24318 2

转载 IP公司及其处理器IP系列(DSP, GPU, AI)

Synopsys来源:https://www.synopsys.com/zh-cn/designware-ip.htmlARC处理器 Embedded Vision Processors EV5x EV6x Cadence来源:https://ip.cadence.com/ipportfolio/tensilica-ipTensilica Customizable Processors - Xtensa LX7Tensilica HiFi DSPs for Audio, Vo

2021-02-02 19:11:50 802

原创 寒武纪和NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比

训练:寒武纪思元370、V100、P40、A100、A800、H100推理:T4、P4,NV为了规避实体清单。

2021-01-08 14:51:20 21617 1

原创 语音领域的自适应滤波

自适应滤波的基本原理比较直观,具体可以参考[1]主要说明下期望信号的理解,针对语音增强任务,期望信号就是当前时刻的信号;针对回声消除任务,期望信号就是参考信号。[1]https://zh.wikipedia.org/wiki/%E8%87%AA%E9%80%82%E5%BA%94%E6%BB%A4%E6%B3%A2%E5%99%A8......

2020-12-26 12:16:52 437

原创 语音领域的快速傅里叶变换FFT

语音领域,绕不开FFT,无论是语音增强还是语音识别。语音识别时,将时域信号转换为频域信号,起到了特征提取的作用。语音增强时,如去回声和去混响,FFT的算法理解和实现可以参照[1~3]FFT的窗长值得探究,语音识别,窗长是25ms,按照16K采样,也就是400个采样点,但是会扩充到512个采样点,而且是采用直接补112个零。语音增强领域,窗长一般是32ms或64ms,按照16K采用,对应512个或1024个采样点。[1]https://zhuanlan.zhihu.com/p/..

2020-12-26 10:56:48 4386 1

原创 语音领域的波束形成Beamforming小结

波束形成是个很有意思的方向,应用从雷达领域到5G领域,近几年在语音识别领域也大放光彩。本文主要聚焦于波束形成在语音领域的应用。对于单麦克风来说,没有波束的概率;波束形成主要针对多麦克风阵列,融合多个通道的数据,对噪声和干扰方向进行抑制,增强目标方向的信号。一种方式是找到目标信号的方向,一般用导向矢量(steering vector)进行表示,基于此增强目标信号;一种方式是找到干扰信号的方向,进行抑制,剩下的就是目标信号。本文介绍delay and sum波束形成、MVDR、GEV和GSC波束形成方法。

2020-12-20 21:39:22 8194 5

原创 研读何凯明大作Momentum contrast for unsupervised representation learning

Abstract本文提出Momentum Contrast(MoCo)用于无监督视觉表征学习。从contrastive learning的角度,通过一个队列和移动平均的encoder构建动态词典。在线构建一个大的且一致性词典,灵活适配于contrastive unsupervised learning。Introduction无监督表征在NLP领域获得极大成功,例如GPT和BERT。但...

2020-04-23 18:00:55 1587

原创 win10-虚拟机-Ubuntu-TensorFlow

1. 安装虚拟机可以直接下载安装,类似于安装普通软件2. 安装Ubuntu网上有很多课程,推荐一个,比较简单,只需要点点点https://blog.csdn.net/qq1326702940/article/details/823220793. 安装TensorFlow3.1 更新Ubuntu系统的软件下载源 为啥要更新,为了下载速度(1)备份软件源sud...

2020-04-07 08:56:05 231

转载 变量命名规范

1. 驼峰命名法1.1 小驼峰法除第一个单词之外,其他单词首字母大写(常用于变量)int myStudentNumber1.2 大驼峰法(帕斯卡命名法)每一个单词的首字母都采用大写字母(常用语类名,函数名,属性,命名空间)class StudentFamily2. 匈牙利命名法变量名=属性+类型+对象描述,这样做的好处是使程序员第一眼看到变量时就...

2020-03-26 09:57:37 380

原创 MHz, MIPS, DMIPS之间的区别

What Why&How MHz 时钟频率单位,时钟频率的高低在很大程度上反映了CPU速度的快慢,由硬件决定 MIPS MIPS(Million Instructions Per Second):每秒处理的百万级的机器指令数。...

2020-03-10 14:42:27 4696 2

Audio source separation and speech enhancement,语音分离和语音增强较新书籍

Audio source separation and speech enhancement,语音分离和语音增强较新书籍,2018年

2022-12-03

Attention-based model for speech recogntion

Attention-based model for speech recogntion Attention-based model for speech recogntion

2017-12-10

噪声数据集,各类噪声数据

noisex

2016-12-06

python-2.7.8.amd64.msi

python-2.7.8.amd64.msi windows server

2015-11-23

Automatic Speech and Speaker Recognition

Automatic Speech and Speaker Recognition: Large Margin and Kernel Methods pdf

2015-11-19

Teach Yourself Regular Expressions in 10 Minutes

Teach Yourself Regular Expressions in 10 Minutes 英文原版

2012-11-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除