SaoYear-CSDN博客

原创 Acoustics | 声音时间检测：日常声音理解

前言最近闲来无事，好不容易有个长假期，准备利用这个假期整合一下现在已知的声音信号处理及语音处理的一些知识。主要是个人巩固之用，内容中一定包含了很多不完整的内容和不够严谨细致的推导。希望系统性学习的读者还是去专注于比较严谨的学术专著。这一系列的专栏仅供参考，并分享自己在声音上的理解。如有错误请多多指正。声音信号的认识声音信号...

2021-12-27 23:04:59 1634 1

原创 Acoustics | 多尺度特征 - Hierarchical Discrete Correlation

Hierarchical Discrete CorrelationIntroductionCore ProblemMain Contribution合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Introduction本文是在阅读 Co

2021-12-01 15:33:17 2738

原创 Windows编写的bash文件在Linux系统中运行报错

Windows编写的bash文件在Linux系统中运行报错一个简单的记录，懒得每次都去查了。。这是因为Windows和Linux下字符编码差异带来的解码问题，在Windows下上传至Linux的文件需要通过：sed -i.bak 's/\r$//' run.sh即可在Linux下运行...

2021-10-01 17:27:42 279

原创 Python-Opencv安装:Pip指令

opencv在python上的库为 opencv-python在调用时，直接使用import cv2即可安装时，请安装两个库，pip指令为：pip install opencv-python和pip install opencv-contrib-python若只安装第一个库，在我的pycharm上会显示 ModuleNotFoundError，安装第二个库后即可消除。PS:每次装新环境都会遇到这个问题，记录一下。...

2020-07-13 18:43:59 2330 2

原创 NLP(自然语言处理) - Tricks & Dataset 集合

前言这是一篇NLP tricks的集合，在自然语言处理的模型中，有很多优化模型效果的技巧，其中很多技巧已经称为默认设置，不再文章中额外说明。这里持续更新一些方法作为记录。技巧列表前言Weight AverageAdaptive EmbeddingVariational DropoutWeight AverageWeight Average是一种自动集成方式，指的是在最终进行模型测试前，取前面每个checkpoint模型权重的平均值作为最终的测试模型。Adaptive EmbeddingAdapt

2020-07-01 16:10:38 902

原创 NLP（自然语言处理）：Improving Neural Language Modeling via Adversarial Training 通过对抗噪音提升神经语言模型

文章目录前言0. 摘要(Abstract)1. 引言(Introduction)2. 背景：神经语言模型(Neural Language Model)前言本篇文章来自Dilin Wang et al. 于2019年发表的文章：Improving Neural Language Modeling via Adversarial Training. 文章通过引入对抗模型的方式缓解了低频词的训练问题。0. 摘要(Abstract)近年来，深度学习的应用在语言模型的提升上带来了明显的提升。然而，在实现过程中

2020-05-11 22:56:09 578

原创 NLP（自然语言处理）：Representation Degeneration 表达退化

表达退化问题是由多伦多、微软、北大的Jun Gao et al. 共同在2019年的ICLR大会上提出的问题，其主旨在训练神经网络时出现的词向量表达退化的问题。本篇文章基于其发表的论文 [Representation Degeneration Problem in Training Natural Language Generation Models](https://arxiv.org/pdf/1907.12009.pdf). 本文旨在首先**翻译文章**，其次结合一些**实例**进行分析。

2020-05-06 17:02:24 1629

原创逻辑回归（Logistic Regression）：线性回归与逻辑回归的来龙去脉

逻辑回归是一种十分常见得一种分析模型，属于广义线性回归分析模型。分享两个讲的非常好的文章：详解逻辑回归逻辑回归与面试问题关于逻辑回归的总结与解释以上两个文章讲解都非常好，但是有些细节可能个人理解偏多，希望大家都能有自己的思考。通常，我们见到逻辑回归会想到它的函数图像，和softmax，以及线性回归。下面，我们将进行介绍与解释：Logistic Regression理解逻辑回归，首先...

2020-03-10 14:48:59 1186

原创 NLP（自然语言处理）：词的表示（Word representation）

Nature Language Processing：自然语言处理本文为斯坦福课程CS224N的课堂笔记。极力推荐入门NLP的朋友阅读此课，因为课件完整，b站有搬运，同时还有作业，可以一边实践一边做。b站自查：CS224N* 前两个lecture主要是一些基础的入门与介绍，我直接使用笔记，后面的内容将会更加详细。** 老师有时候会布置一些作业，这些作业有的没有答案，我也会分享在这里，如...

2020-03-08 15:20:03 3692

原创 KL散度：来源，详解与交叉熵关系

KL散度的概念来源于信息熵，有关信息熵的概念在这里进行了讲解。在NLP的优化中，因为语言模型的损失函数基础，是一个由分布构成的方程（Softmax），所以在相关的论文中，可能会遇到使用KL散度对损失函数进行优化的情况，我们经常看到的KL散度形式如下：这个方程是什么意思呢，下面我们开始介绍KL散度。...

2020-03-07 02:49:52 1376

原创信息熵：什么是信息熵？

KL散度是机器学习中经常会遇到的度量方法，它度量了两个分布之间的距离，它来源于信息熵，也是香农信息论的产物之一。在NLP的优化中，因为语言模型的损失函数基础，是一个由分布构成的方程（Softmax），所以在相关的论文中，可能会遇到使用KL散度对损失函数进行优化的情况，我们经常看到的KL散度形式如下：<center>这个方程是什么意思呢，下面我们开始介绍KL散度。信息熵...

2020-03-06 22:01:20 8853

原创 SVD 奇异值分解：SVD理解与word embedding

在研究NLP的过程中，遇到了word embedding，经过一系列学习，发现它最初的原理之一来自奇异值分解。于是对奇异值分解做一个简单的记录。资料中比较好的资料：https://www.cnblogs.com/endlesscoding/p/10033527.html 原理讲解简单，demo做的十分好！https://www.cnblogs.com/litaotao-doctor...

2020-02-29 18:14:36 1092

原创 Jupyter Notebook报错：module ‘dateutil.tz‘ has no attribute ‘UTC‘

这是一个由于版本引起的错误，具体哪里有问题，可以做以下尝试：pip uninstall python-dateutilpip install python-dateutil很奇怪，因为我用了 --upgrade 并没有用，但是卸载又安装就好了。这里附加一个将anaconda环境移植到jupyter的方法，很简单，在Anaconda prompt里输入：conda inst...

2020-02-28 01:27:51 8853 3

原创 Python-OpenCV解决报错：OpenCL error CL_MEM_OBJECT_ALLOCATION_FAILURE (-4)

cv2.error: OpenCV(4.0.0) C:\projects\opencv-python\opencv\modules\core\src\ocl.cpp:5407: error: (-220:Unknown error code -220) OpenCL error CL_MEM_OBJECT_ALLOCATION_FAILURE (-4) during call: clEnqueue...

2020-01-26 13:59:44 5442 4

原创 windows下使用pip：清华镜像更换

看了很多，试了很多都不行。有点郁闷，临时使用镜像就不说了，直接看永久使用：1. 在路径下添加文件：红色是你的用户名2. 修改pip.ini的文件内容为： [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple3. 在anaconda prompt下输入命令：conda config --add c...

2020-01-23 15:56:58 1092 1

原创 Stacking：集成学习策略图解

Stacking 是机器学习中，集成学习的一种方法。集成的好处是不同的模型可以学习到数据的不同特征，经过融合后的结果往往能有更好的表现，大有取长补短的意思。基本理解这种方法的思想比较简单，在不知道它之前，我们可能在设计算法的时候就会想到这种结构了，下面是我对这个算法的理解：这个结构我们都很熟悉，十分像神经网络中上层神经元到它的一个下层神经元的结构。如果按这种方法，x1-x...

2020-01-04 17:28:01 14890 14

原创 matplotlib使用：颜色对照表

每次百度太麻烦了，干脆直接偷一张图，作为参考。

2019-10-31 15:10:37 5631

原创 python报错：can't read /var/mail/xxx

这个错误的原因是在linux系统下，没有正确的使用bash执行python文件。在使用bash时，使用指令(conda) activate env-name激活自己的环境，再使用指令python xxx.py来运行文件。我一开始直接使用了chmod a+x 给py文件权限，再直接输入 xxx.py，这是屏幕并没有反应，手动cancel之后可以看到报错。...

2019-10-23 14:36:11 5051

原创 Jupyter kernel 报错： ModuleNotFoundError: No module named 'win32api'

开发环境: Anaconda + Jupyter notebook windows 下开发缺少依赖：pip install pypiwin32安装即可

2019-09-24 20:31:21 3403 2

原创图像取证：由色差发现数字篡改痕迹

——本文大多内容来自达特茅斯的 Micah K. Johnson 和 Hany Farid 两位老师在2006年所写的 Exposing digital forgeries through chromatic aberration 这篇文章。目录0. 摘要1. 序言2. 色差2.1.1-D色差2.2. 2-D色差2.3. 色差估计3. 结果3.3 图像取证...

2019-07-21 11:10:04 3214 2

原创图像取证：基于深度学习的剪贴/裁剪图像的防伪识别方法

——本文大部分内容来源于 A deep learning approach to detection of splicing and copy-move forgeries in images 这篇文章，作者是 Yuan Rao, Jiangqun Ni 两位老师；内容为缩减内容，只取了我需要了解的一部分intro和算法的详细内容。使用了CNN在图像取证方面，非常精巧值得学习！

2019-07-18 17:01:09 2427 3

原创数字图像取证：初学者手册

---本文为Redi 在2011年所发文章Digital image forensics: a booklet for beginners的学习笔记与翻译摘要数字视觉能体现出当今通信最核心的意义。但近些年来，由于对数字视觉信息来源和内容篡改太过轻易，导致其可靠性逐渐被公众质疑。数字图像取证是一个全新的研究领域，它的发展目标就是从通过复原图像历史信息的角度，证实图像的合理性。所以，...

2019-07-07 16:14:29 4488 3

原创 Python的爬虫学习笔记本（二）Urllib库使用

Urllib库详解Urllib：是请求库，提供了强大的处理函数；Python内置的HTTP请求库urllib.request # 请求模块urllib.error # 异常处理模块urllib.parse # url解析模块urllib.robotparser # robots.txt解析模块重点前三个模块，第四个用的少了urlopenurllib.req...

2019-01-24 13:26:00 208

原创 Python的爬虫学习笔记本（一）爬虫的基本原理

NLP的任务往往需要大量的语料库作为数据集，而尽管现有的许多任务上都有固定的数据集，但还是在很多方面存在着欠缺。为了弥补这个欠缺，网上的大量免费的文本信息就需要通过爬虫爬下来。由此开始了爬虫的学习。爬虫学习之：爬虫的基本原理爬虫：请求网站并提取数据的自动化程序。请求：鼠标点击网页资源；程序实现；提取：资源——HTML代码 - 资源包含在文本中 -> 从文本中提取想要的信息 ...

2019-01-24 10:52:50 548

原创基于深度学习的行人特征提取 - 以性别为例：（二）网络结构思路

对于这种课题来说，性别识别本来是一个很小众的课题，这就意味着它的数据集十分有限，因为是个人项目，所以精力有限。如果不能很好的，迅速的解决数据集的问题，任务是肯定完不成的。而手动标注也是不可能的。在上一篇中已经找到了30k+的照片，但是很显然数据集并不solid。捋一下思路，从输入开始：1. Input - 数据有限行人的数据集一般都不是又独立的identity构成的，一般一个行人都会有不同...

2019-01-21 20:55:50 1363

原创稀疏数据与优化器：简述

学习深度学习也有一段时间了，一直没有一个好的记笔记的习惯。这里记录一些经常见到的基础词汇。1. 稀疏数据：引用：https://blog.csdn.net/vucndnrzk8iwx/article/details/79185875 稀疏数据是指，数据框中绝大多数数值缺失或者为零的数据。在现代社会中，随着信息的爆炸式增长，数据量也呈现出爆炸式增长，数据形式也越来越多样化...

2019-01-21 20:32:38 1171

原创基于神经网络图像取证：资源汇总

最近在做深度学习的图像取证工作，做一下资源的汇总和科普、文献的总结工作1.对图像取证技术的总结“谁动了我的图片？” – 图像取证技术文中主要介绍了几种不同的图像取证方法，简述如下：I. copy-move 检测方法检测原理：同一幅图像中检测到大块相同的内容技术手段：稀疏特征点（SIFT）的判断；基于图像块的图像匹配算法II. 传感器噪声取证...

2019-01-16 13:18:40 3244

原创基于深度学习的行人特征提取 - 以性别为例：（一）数据集整理

毕业设计是神经网络的图像处理工作，这里Mark一些使用的资源我得题目和性别识别以及监控图像有关图像数据集汇总：https://blog.csdn.net/lansatiankongxxc/article/details/12978207行走的人的数据集http://groups.inf.ed.ac.uk/vision/CAVIAR/CAVIARDATA1/视频追踪检测分类、...

2018-12-18 22:12:01 1708

原创 MDS（multidimensional scaling）算法介绍

MDS（multidimensional scaling）算法介绍1. 理论介绍MDS与PCA一样，是一种有效的降维方式，其可获得样本间相似性的空间表达。MDS的原理可以简述为，利用样本的成对相似性，构建一个低维空间，使每对样本在高维空间的距离与在构建的低维空间中的样本相似性尽可能保持一致。2. 技术实现MDS算法，对于M类N个样本，首先产生一个距离集合：其中，xi-xj...

2018-08-23 16:04:00 16409

原创 PCA与Kernel PCA介绍与对比

PCA与Kernel PCA介绍与对比1. 理论介绍PCA是常用的提取数据的手段，其功能为提取主成分（主要信息），摒弃冗余信息（次要信息），从而得到压缩后的数据，实现维度的下降。其设想通过投影矩阵将高维信息转换到另一个坐标系下，并通过平移将数据均值变为零。PCA认为，在变换过后的数据中，在某一维度上，数据分布的更分散，则认为对数据点分布情况的解释力就更强。故在PCA中，通过方差来衡量数...

2018-08-23 13:57:44 14318

原创 Openwrt开发日志：iptables对报文处理

Mission6——iptables对目标的处理Tool：Xshell； WinSCP； Openwrt；NewifiReference:《智能路由器开发指南》Procedure：

2017-07-31 15:41:24 2634

原创 Openwrt开发日志：iptables的各个表

Mission5——iptable的控制Tool：Xshell； WinSCP； Openwrt；NewifiReference:《智能路由器开发指南》Procedure：学

2017-07-31 15:41:21 5018

原创 Openwrt开发日志——UCI API编…

Mission 4 ——UCI API编程接口学习Tool：Xshell； WinSCP； Openwrt；NewifiReference:《智能路由器开发指南》Procedure：UCI不仅

2017-07-31 15:41:18 1207

原创 Openwrt开发日志——完善一个界面

Mission 3 ——完善一个界面Tools： WinSCP Xshell OpenWRTReference： http://

2017-07-31 15:41:15 6397

原创 OpenWRT开发日志——UCI学习

Mission 2——UCI学习Tools： WinSCPReference：《智能路由器开发指南》Procedure：1. 学习书本第四章主要内容。4.1.1 文件语法 Openwrt的配置文件讲解配置文件有配置节组成，配置节由多个“name/values”选项对组成。每一个配置节都需要有一个类型标识，但不一定需

2017-07-31 15:41:13 3729

原创 Openwrt开发日志——建立一个界面

2017/6/29重新拾回Openwrt一下开始正确编辑教程，做相关记录，高效解决问题Mission:l 创建一个Luci界面l 使用iptable对包进行截取l 将两者结合 Mission 1

2017-07-31 15:41:10 622

speed_cal.m

输入为两路静电传感器的信号，需要自己设置采样频率和信号对应的数组，通过自相关、互相关计算出电机的转速。

2020-04-04

RACE英语阅读理解json格式

CMU 公开的RACE数据集，原来是txt文件，不方便读取。这个版本是json数据集，做了简单的格式调整，python使用起来更方便.

2019-03-18

RACE英语阅读理解数据集json格式

CMU 公开的RACE数据集，原来是txt文件，不方便读取。这个版本是json数据集，做了简单的格式调整，python使用起来更方便。

2019-03-18

Matlab降维工具箱

常用Matlab降维软件包包括真实有效的多种降维算法： - Principal Component Analysis ('PCA') - Linear Discriminant Analysis ('LDA') - Multidimensional scaling ('MDS') - Isomap ('Isomap') - Landmark Isomap ('LandmarkIsomap') - Locally Linear Embedding ('LLE') - Laplacian Eigenmaps ('Laplacian') - Hessian LLE ('HessianLLE') - Local Tangent Space Alignment ('LTSA') - Diffusion maps ('DiffusionMaps') - Kernel PCA ('KernelPCA') - Generalized Discriminant Analysis ('KernelLDA') - Stochastic Neighbor Embedding ('SNE') - Neighborhood Preserving Embedding ('NPE') - Linearity Preserving Projection ('LPP') - Stochastic Proximity Embedding ('SPE') - Linear Local Tangent Space Alignment ('LLTSA') - Simple PCA ('SimplePCA') - Probabilistic PCA ('ProbPCA') - Conformal Eigenmaps ('CCA', implemented as an extension of LLE) - Maximum Variance Unfolding ('MVU', implemented as an extension of LLE) - Fast Maximum Variance Unfolding ('FastMVU') - Locally Linear Coordination ('LLC') - Manifold charting ('ManifoldChart') - Coordinated Factor Analysis ('CFA') - Autoencoders using RBM pretraining ('AutoEncoderRBM') - Autoencoders using evolutionary optimization ('AutoEncoderEA')

2018-08-27

随机森林+鸢尾花+SMOTE+PCA+LDA

包括了一个随机森林算法，并使用两个数据集进行训练。里面包含一个脚本文件，并插入了SMOTE插值、PCA降维以及LDA降维。其他降维方式的工具包在我的其他文件中

2018-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人