_pinnacle_-CSDN博客

原创深度神经网络的数学原理：基于超平面、半空间与线性区域的表示

以前的文章主要描述了神经网络，即多层感知机、全连接模型的运行原理，还是以实验为主，数学描述为辅的方式，这篇文章以纯数学的视角来描述神经网络的运行原理，主要以前馈过程为主（反向传播的动力学过程还是比较复杂，正向过程还未完全研究清楚，暂时还未考虑）。通过本篇文章，希望大家能理解神经网络的数学原理，如有错误请不吝指出。

2023-10-29 17:13:47 618

原创详解Softmax、Maxout的性质与Self-Attention初步解析

最近研究超平面排列(Hyperplane Arrangement)问题的时候，发现ReLU有其缺陷，即举例来说，ReLU 无法使用单一的超平面将分离的所有数据，完整的输出，即只会输出半个空间映射的数据，而另一半空间的数据被置为0;ReLU 要完整的映射输入空间的所有数据需要至少3个节点才能办到，比如在2维的输入空间上，当只有2个节点时构成的超平面排列将输入空间划分4个区域，其中其中一定有一个区域全部输出为[0,0]即所谓的死区(Dead Region)，死区在ReLU的网络中是普遍问题。

2023-06-18 18:53:04 677

原创深度学习训练中为什么要将图片随机剪裁（Random Crop）

这篇文章是用Markdown重写了原来的文章。图像分类中，深度学习训练时将图片随机剪裁（random crop）已经成为很普遍的数据扩充（data augmentation）方法，随机剪裁不但提高了模型精度，也增强了模型稳定性，但是它如此有效的核心原因是什么呢？仅仅是因为数据扩充吗？这个是下面我们需要研究的问题。

2023-05-20 13:15:17 2321

原创多层感知机(MLP)与二叉空间分割树(BSP Tree)的关系

最近发现了一个传统算法，非常适合描述多层感知机（Multi-Layer Perceptron，MLP）的模型逻辑，其算法逻辑也非常清晰简单，所以在这里再对比一下，方便大家更容易理解多层感知机的内容，这篇文章不会写复杂的数学公式。想从数学方面去更多的理解多层感知机的内容可以查看往期的文章。点到为止，这篇文章不求复杂只简单概述模型逻辑，就是说明二叉空间分割树的算法逻辑和多层感知机是完全一致的。

2023-05-20 11:14:29 561

原创理解神经网络中激活函数的作用

理解激活函数的作用能更好的解释神经网络的运行逻辑，在以前的章节中只简单概述了激活函数的作用，但是其实结论是比较草率的，这篇文章希望能谨慎的证明这些结论。

2023-05-14 10:21:24 312

原创打开神经网络的黑箱（二）多层感知机（MLP）的空间划分与编码逻辑

上一篇文章解析了单层全连接分类模型的（输入）空间划分（Space Partitioning）与编码逻辑或数学原理，这篇文章将主要是解析多层感知机（Multi-Layer Perceptron，MLP）或多层全连接层构成的模型的空间划分与编码逻辑。多层感知机与单层全连接分类模型较大的区别在于，隐藏层的空间划分与编码并不遵循理想情况下使得每一个线性区域（Linear Regions）只包含单个类别的数据这样的逻辑，所以会复杂一些，基础的空间划分与编码逻辑可参考上一篇文章，本文将不再赘述。

2023-03-26 17:41:19 645

原创打开神经网络的黑箱（一）全连接模型的空间划分与编码逻辑

几年前就想写这篇文章，但是在解析神经网络的数学原理问题上断断续续，加上个人能力有限，很多问题并没有研究的很明白，以及神经网络本身高维问题的复杂性，导致这个问题的理解也是片面的。个人希望在这篇文章里抛砖引玉，让大家能更深入理解神经网络内部的基础数学原理与编码逻辑，启发大家后面的工作，如有错误请不吝啬指出。本文不会过多的介绍梯度下降或反向传播等参数更新的原理或动力学过程，而是以前向过程（Feed Forward）作为本文的重点。

2023-02-01 18:33:53 596

原创目标检测模型、卷积网络的感受野与分形特征

最近几年深度学习的快速发展对目标检测（Object Detection）领域也产生了巨大的影响，各种SOTA（State of Art）的模型也层出不穷，包括但不限于Faster-RCNN，YOLO，SSD，FCOS等等，很多时候我们看论文和模型容易陷入其复杂的细节之中，而得不到全局的视野，尤其是像Yolo系列各种堆版本也是看的眼花缭乱。事物的发展也许就是这样的吧，刚开始都是各种复杂，越到后面越能看到基本原理，也越能理解事物本身。

2022-11-13 10:00:22 1029

原创特斯拉自动驾驶中的 OccupancyNetworks & NeRFs

Occupancy Networks去寻找Occupancy Volumes或Occupancy Grid，即三维空间中被物体占据的格点或空间，这个算法其实能很好的规避Corner Case问题Neural Radiance Fields ，NeRFs 即神经辐射场，这个算法和Occupancy Grid一脉相承，都是在解决如何准确的建模我们所处的三维空间

2022-10-02 12:26:49 2477

原创无人机中的坐标系、旋转矩阵与相机姿态计算

球坐标系是三维坐标系中的一种，在无人机中一般使用球坐标系来表示相机姿态，相机姿态的坐标是相对于无人机的，而无人机的飞行姿态则是相对于大地坐标系的。在无人机飞行中，无人机平台由于飞行运动及气流运动等因素，会影响无人机的飞行姿态，这时搭载的相机姿态相对大地坐标系会发生变化，需要加入无人机姿态去计算修正，以便于更准确计算相机的观测位置。以上需要注意的是偏航角与其他角不同，偏航角的旋转是整个坐标系，即将无人机坐标系转换为大地坐标系，这里没有使用位移量，需要时加上经纬度的偏移。合并旋转后的三维度旋转矩阵。

2022-09-18 17:19:48 11964 5

原创海康云台摄像机 ISAPI 的签名机制与语音传输

由于海康HikVision (Hik)平台摄像机的SDK不支持Arm Linux平台，为了跨平台的兼容性，只能使用ISAPI作为控制或接收相机数据的方式，ISAPI是Hik的一套HTTP通信协议，这里不过多介绍

2022-04-24 08:59:13 3363 6

原创 Linux下通过daemon守护进程，实现服务进程crash自动重启

参考：Linux下实现通过一个进程控制另一个进程的启动、停止、崩溃重启有时候我们希望部署一些服务，而这些服务可能会在某种原因下崩溃，可能是bug或者其他原因，这个时候为了能继续维持服务，就将该服务进程挂在另一个进程下。这里的daemon守护进程并非后台程序，可以通过其他操作使其进入后台如nohup或者将代码改成真正的daemon后台守护进程。

2022-03-05 15:50:27 2951 3

原创 Kubernetes(K8S)各种错误及解决方法

重要操作1.设置内核内核必须支持 memory and swap accounting，即要求如下配置CONFIG_RESOURCE_COUNTERS=yCONFIG_MEMCG=yCONFIG_MEMCG_SWAP=yCONFIG_MEMCG_SWAP_ENABLED=yCONFIG_MEMCG_KMEM=y查看内核支持cat /boot/config-5.11.0-40-generic |grep MEMCGcat /boot/config-5.11.0-40-generic |g

2021-12-26 16:19:48 24929

原创 Tensorflow: Cannot dlopen some GPU libraries. Skipping registering GPU devices...

Cannot dlopen some GPU libraries. Skipping registering GPU devices…可能的问题为：1，cuda和安装的tensorflow版本不对应可参考：Tensorflow与cuda版本对应关系2，未成功加载cuda的动态库，可通过代码如下测试import tensorflow as tftf.test.gpu_device_name()如果出现如下错误：2020-05-26 13:41:11.299037: I tensorflow

2020-05-26 19:05:18 27087 5

转载漫话中文自动分词和语义识别：中文分词算法

记得第一次了解中文分词算法是在 Google 黑板报上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上...

2020-04-25 16:46:19 5022 2

原创从计算机视角看生命体 - 自动程序与生物芯片

在人工智能领域探索了很久之后，也受到最近的几篇论文的启发，决定写这篇文章，想了很久不知道从哪里开始，因为要阐述清楚生命科学的一些内容也是一件很难的事情，包含很多科目，如：细胞生物学，病毒学，基因工程，本人已经忘了太多，怕误人子弟。不管是生命科学还是人工智能，我想本质是一样的都是在研究生命与智能，也在研究我们自己，我们是谁，从何而来，去往哪里。

2020-04-05 18:29:34 744 1

原创自然语言理解，什么是“理解”？

以前看过一本讲西方哲学史的书，书上有一个笑话，就是一个哲学家提出了一个问题：什么是人？然后其他人回答说身上没毛且长两条腿的动物，第二天哲学家就抓了一只拔了毛的鸡，说：看这就是你说的 “人”当然这个是一个笑话了，其中也反映了一个问题，当问 “什么是人” 的问题，我们很难给出一个解释 “什么是人”，且该解释不会产生歧义，而且有些概念我们几乎无法接受，越基础的越难解释，如：什么是 1，什么是2，什么是...

2020-01-04 15:06:56 665

原创计算机视角下的大脑 - 图灵完备的算法程序

我们都知道CPU适合串行计算，GPU适合大规模并行计算，大脑的硬件就像是一个GPU，大脑的操作系统和所有算法都是运行在GPU上，在高层次的计算上则模拟CPU的串行计算模式，如算术计算，代数计算，自然语言操作等等。所以某种程度来说，这些高层次的计算是模拟计算，所以速度很慢; 而像图像识别，语音识别是非模拟计算其速度很快。这个和现代计算机刚好相反操作系统和大多数算法运行在CPU上，GPU目前还主要是辅助设备，主要做一些特定的并行加速，在CPU上串行计算是非模拟计算，并行计算相当于模拟计算。如果操作系统和算法都

2019-11-03 19:27:50 2565 1

转载深度学习的局限与未来（二）

转载于：The future of deep learning中文版：François Chollet 谈深度学习的局限性和未来Given what we know of how deep nets work, of their limitations, and of the current state of the research landscape, can we predict whe...

2019-09-28 22:54:13 1369

转载深度学习的局限与未来（一）

转载于：The limitations of deep learning中文版：François Chollet 谈深度学习的局限性和未来Deep learning: the geometric viewThe most surprising thing about deep learning is how simple it is. Ten years ago, no one expect...

2019-09-28 22:41:57 671

原创真实世界中的开集识别问题(Open-Set Recognition Problem)

开集分类问题(open-set problem)不仅仅包含0～9的字符类别，还包含其他如A～Z等等的未知类别，但是这些未知的类别并没有标签，分类器无法知道这些未知类别里面图像的具体类别，如：是否是A，这些许许多多的不同类别图像共同构成了一个类别：未知类别，在检测里面我们叫做背景类别(background)，而开集分类问题的目的即是：**正确划分这10个类别且正确拒绝非数字类别**

2019-07-27 21:47:05 19540 13

原创物体检测中的困难样本挖掘(Online Hard Sample Mining)

对于物体检测问题而言，检测器面对的是整个世界的物体，这些物体里面只有非常少的被标记了具体类别，大量的物体其实并没有类别信息，甚至根本不知道如何标记他的类别，所以面对开集问题，我们要求检测(分类)器要有非常好的排他能力或排除背景类别能力，那么训练数据将会非常重要，为了有这样的能力我们需要切割下大量的背景作为负样本(negative samples)来训练，但是这些背景样本是否足够了？**不管加了多少背景数据，目前都无法从理论上回答这个问题：背景是否足够。** 而事实上不管如果加背景数据训练，模型总能遇

2019-07-25 22:15:02 12875 5

原创 pytorch: grad can be implicitly created only for scalar outputs

这个错误很早就遇到过但是没看到网上叙述清楚的，这里顺便写一下。这里贴一下autograd.grad()的注释grad(outputs, inputs, grad_outputs=None, retain_graph=None, create_graph=False, only_inputs=True, allow_unused=False) Computes and returns t...

2018-11-29 12:10:38 34540 5

原创神经网络原理--简单总结

一些神经网络的论文的观点与数学解释的确引导了写这篇文章的想法。这篇文章主要是个人的浅见与论文阅读总结。...

2018-09-15 22:20:08 5973 4

原创大脑中的学习机制: 海马体与新皮层构成的互补学习系统

写这篇文章的原因是基本没有关于中文大脑互补学习系统（complementary learning systems）的文章。应该说有很多关于互补学习系统的英文论文，这里也是一个总结加一点自己的见解，具体见参考文献。海马体在学习和记忆中的角色海马体系统是一个广泛存在于哺乳动物的脑区，在学习和记忆中扮演重要的特殊角色。要确切的定义海马系统的边界是困难的，这里也不去...

2017-06-02 12:38:26 5569

原创使用pytorch预训练模型分类与特征提取

pytorch(pytorch v0.1 这个是早期版本了)应该是深度学习框架里面比较好使用的了，相比于tensorflow，mxnet。可能在用户上稍微少一点，有的时候出问题不好找文章。下面就使用pytorch预训练模型做分类和特征提取，pytorch文档可以参考：pytorch docs , 模型是imagenet2012训练的标签可参考：imagenet2012 labels ，...

2017-06-01 12:12:01 29397 6

原创如何快速搭建一个简单图像搜索引擎

这里只是图像搜索入门级的note，要更好的架设一个完整的图像搜索引擎，可以参考：图像处理，图像识别（计算机视觉），机器学习领域中的论文。图像特征图像常用的特征大概包括了：颜色特征、纹理特征、形状特征、空间关系特征。而如何合理的提取图像特征是制约图像搜索或者其他图像识别相关任务的关键问题。传统（或者非学习）的图像特征算法，比较常见的有:SIFT算法及其变种，指纹算法函数，bu...

2017-03-03 13:38:59 2486 2

原创神经网络如何学习到加法等算法 - 神经编码器-解释器（Neural Programmer-Interpreters）

算法的本质何为算法（algorithm）？从狭义来讲，算法是计算机科学里面的概念，简单来说，所谓算法就是定义良好的计算过程，它取一个或者一组值作为输入，并产生出一个或一组值作为输出。亦即，算法就是一系列的计算步骤，用来将输入数据转换成输出结果[1]。从广义来讲，算法是从初始态到可达目标态的序列过程。如：命令机器人拿起一个瓶子，那么算法就是从机器手中没...

2017-02-12 21:41:53 4402 2

原创什么是“理解”？如何在人工智能中定义“理解”？(what is understanding ?)

* 这篇文章主要不是解释哲学上的“理解”，而是在计算或者人工智能或是数学上定义“理解” 对于人而言，理解似乎是一件简单的事情。在我们上课的时候我们能确切的知道是否理解老师所讲的内容，在我们看书的时候我们能确切的知道书中的内容我们是否理解，在我们与人交谈的时候我们能确切的知道别人说了什么，我们也确切的知道别人所描述的我们是否理解。我们似乎天生就有这个能力所以有一个问题，...

2017-01-30 14:25:50 3210

原创分类器对未见过类别（unseen category）的识别问题

未见过类别未见过类别(unseen category)或者叫不知道类别(unknown category)。简单来说，如我们定义类别{苹果，香蕉} 且其数据集为D，那么定义一个二分类器C，将D分割为训练集和测试集，那么训练出的分类器只能区分两个类别。假设我们拥有数据Dx，其中拥有的分类为{小狗，小猫}，这个时候将Dx混入D的测试集，二分类器C如何分类Dx中的数据？这时我们将Dx包含的数...

2017-01-30 13:26:16 10878 22

原创 kernel version 367.48. does not match DSO version 367.57

因为更新了ubuntu 软件运行tensorflow产生了：TensorFlow Session Error: kernel version 367.48. does not match DSO version 367.57.的错误，昨天还好好的。原因是apt-get upgrade没有更新英伟达的驱动nvidia driver，导致驱动程序版本比DSO低（或者存在兼容性问题？未知）

2016-11-16 12:46:07 6012

转载人脸数据集

原文链接：人脸数据集人脸数据库汇总■Annotated Database (Hand, Meat, LV Cardiac, IMM face) (http://www2.imm.dtu.dk/~aam/)■AR Face Database (http://cobweb.ecn.purdue.edu/~aleix/aleix_face_DB.html)■BioID Fac

2016-11-08 17:39:53 3992

原创用SymPy简化神经网络的求导

神经网络模型这里不重点介绍神经网络模型，这里有神经网络比较简洁的介绍和推导。[机器学习] Coursera ML笔记SymPy的安装我的系统为Ubuntu 14 安装比较简单：sudo apt-get install python-sympy求导为了简化叙述这里不用求和符号，w，b，x均为矩阵形式。在python终端输入： w=Symbol('w') b=Symbol('b') x=Sym

2016-05-19 14:56:33 4218

转载强大的语言[从上下文无关语法到上下文有关语法]

转载于【强大的语言】www.cnblogs.com/buptzym/p/4828959.html 我越来越感慨语言之美，语言之强大。中文，英文这类自然语言，也可以是C，C#,Python,Lisp这类通用语言，也可能是自己定义的领域特定语言(DSL)。更广泛的可以是音乐和DNA序列。语言就是字符串，一组由不同字符串组成的顺序链条。然而，大巧不工，越

2016-03-31 12:14:40 4174

原创 AlphaGo围棋论文中文翻译

Mastering the game of Go with deep neural networks and tree search（使用深度神经网络与树搜索使计算机精通围棋）David Silver1*, Aja Huang1*, Chris J. Maddison1, Arthur Guez1, Laurent Sifre1, George van den Driessche1,J...

2016-03-17 17:00:24 14075

原创模拟人类大脑每秒计算数量级及参数容量的估计

根据维基百科List of animals by number of neurons人类神经元数量为860亿，突触数量为10^14–10^15，也就是人类每个神经元平均拥有1163~11628个神经突触，下面我们取最大值 11628 作为基准以方便论述。所以大脑每秒最高计算量为860亿乘以500为：43万亿（这里认为突触只参与数据传输...

2016-01-08 10:54:00 10031 2