pzb19841116-CSDN博客

原创《吴军数学通识50讲》学习笔记（完）

发刊词：数学到底怎么学？数学是一种抽象的知识体系，而我们人要靠经验感知才能认识世界，这中间需要一个桥梁。构建通往数学的桥梁，把熟悉的知识点各安其位，放进知识体系里。在介绍这些关键数学知识点的同时，会讲清楚它们在数学上的位置，以及和各种知识体系的相关性。通过学习数学，实现思维方式的跃进。一个学好数学最重要的方法是，不断训练自己的思维方式。 01.导论：数学通识课的体系和学习攻略数学的各个分支，从体系到研究方法，再...

2021-03-27 17:46:28 7461

原创 Facial Micro-Expression Recognition Based on DeepLocal-Holistic Network 阅读笔记

针对微表情短暂且强度低的特点，微表情数据在空间和时间域中都是稀疏的。因此，借鉴Wang等人的思想，将微表情中的细微动作信息视为所需的E，将噪声视为A，采用RPCA从微表情帧中提取稀疏信息，然后将提取的信息馈送到RPRNN，学习微表情的稀疏和整体特征。然而，微表情样本数量少且微表情的微妙短暂特性限制了深度学习与微表情识别方法的结合，因此，如何有效学习微表情特征对于进一步提高性能至关重要。深度本地-整体网络通过HCRNN和RPRNN的融合，捕获了局部-整体、稀疏-丰富的微表情信息，并提高了微表情识别的性能。

2024-04-10 11:40:01 889

原创 Transformers in Vision:A Survey 阅读笔记

Visual Grounding with Transformer[206]具有编码器-解码器架构，其中视觉标记(从预训练的CNN模型中提取的特征)和文本标记(通过RNN模块解析)在编码器的两个不同分支中并行处理，具有跨模态注意力，以生成文本引导的视觉特征。尽管有人可能认为像Transformer模型这样的架构应该是通用的，可以直接应用于各个领域，但我们注意到，预训练这些模型所需的高计算成本和时间成本需要新的设计策略，使它们在视觉问题上的训练更具成本效益。

2024-04-03 16:41:53 1020

原创 Integrating VideoMAE based model and Optical Flow for Micro- and Macro-expression Spotting 阅读笔记

VideoMAE 是基于视频掩模自编码器的自监督视频预训练方法，旨在利用视频的时间维度作为静止图像的时间演变，并解决视频中的语义冗余和时间相关性。如图1中的总体框架图所示，我们的方法分为3个部分：数据集预处理、基于VideoMAE的自监督训练、区间融合和后处理策略。该方法的目标是自动识别微表情和宏观表情。我们通过训练多个宏观和微观表情模型，采用不同的细粒度和生成不同长度的表情片段，探索最佳的组合方法。一般而言，与微表情相关的任务主要包括两个方面：长视频中的微表情识别和微表情片段中的情绪识别。

2024-03-26 09:57:05 645

原创 Three Stream Graph Attention Network using Dynamic Patch Selection for the classification ofME 阅读笔记

对于图网络的第一流，节点特征向量是面部地标点的 x 和 y 位置坐标，用于理解每个地标点相对于其先前位置的运动变化。在计算了每个关键点上的光流特征矩阵后，对特征矩阵进行了零填充，使其变成10×10的补丁大小，以便简化计算。光流幅度特征向量是图网络的第二个流的输入，而光流方向特征向量是图网络的第三个流的输入。然后，根据节点的注意力分数以及所选的池化比率 k，选择保留在图中的前 k 个节点。1.微表情具有微妙而短暂的行为特征。基于保留节点及其之间的连接，创建新的特征矩阵和新的邻接矩阵，形成新的图结构。

2024-03-13 13:48:00 658

原创 3D-CNN FOR FACIAL MICRO-AND MACRO-EXPRESSIONSPOTTING ON LONG VIDEO SEQUENCES USING TEMPORALORIEN阅读笔记

漂移误差是光流方法的一个挑战，尤其是在需要准确追踪物体长时间运动的应用场景中，如高帧率宏表情的分析。这有助于捕捉图像中的局部特征。它的主要作用是通过去除信号中的高频噪声，同时保留低频信号，来平滑或清除信号中的不需要的频率成分。我们提出了一个基于3D-CNN的两流网络（如图1所示），利用ME和MaE的持续时间差异，通过在每个流中使用不同数量的跳帧来使一个网络对ME更敏感，另一个对MaE更敏感。我们注意到先前的尝试缺乏基于持续时间的分析，因此提出了一个基于两者持续时间差异的两流网络，用于微表情和宏表情的识别。

2024-03-12 06:03:04 773

原创 Facial Micro-Expressions:An Overview 阅读笔记

ME生成是ME分析的新方向，尽管当前生成的ME质量尚不够逼真，但进一步的研究预计将在其他ME分析方面发挥作用，如MER、ME检测和ME AU检测，同时也可用于增强现实、人机交互等领域。早期的自发微表情（ME）数据集主要包含前方的2D视频，因为这相对容易收集和分析，导致大多数现有的ME方法只能分析前方面部，并无法处理现实世界应用中的挑战，如光照变化、遮挡和姿态变化。为了在长视频中区分MaEs和MEs，提出了基于频率的ME定位方法，通过利用频率域中的信息来定位ME序列中的顶点帧，这可以反映面部变化的速率。

2024-03-06 10:59:02 775

原创 MESNet:A Convolutional Neural Network forSpotting Multi-Scale Micro-ExpressionIntervals 阅读笔记

通过多尺度分析，如不同长度的归一化或多尺度视频采样，基于间隔的定位方法可以适应和检测不同长度的ME片段，并更好地区分ME和其他类型的面部运动。每个子网络相当于在视频上滑动的固定长度窗口，其输出是一组概率，表示与滑动窗口对应的视频片段属于ME的可能性。目前的研究仍然面临一个挑战，即如何从有限的数据中有效地提取或学习最具代表性的时空特征，从而准确地定位长视频中的ME时间位置。微表情研究初期，仅考虑在收集微表情样本时仅记录发生微表情时的视频片段，即所谓的短视频，包括微表情发生前几帧和发生后几帧。

2024-03-02 14:23:46 924

原创 Data Leakage and Evaluation Issues inMicro-Expression Analysis 阅读笔记

碎片化指的是评估协议或方法的分散、零散，导致评估过程不一致或无法比较不同模型的性能。为了解决这个问题，作者梳理了常见的陷阱，提出了一个新的标准化评估协议，使用了超过2000个微表情样本的面部动作单元，并提供了一个实现标准化评估协议的开源库。在训练过程中使用测试数据的信息可能导致较大的正向偏差，但这种正向偏差是误导性的，不代表可泛化的性能，特别是当一个折叠只是一个单独的主体时。然而，最近我们注意到了一个令人担忧的趋势，即出现了极高但不可靠的性能，接近完美表现，并在分析可用源代码时出现了潜在的评估问题。

2024-02-27 13:00:05 537

原创 Geometric Graph Representation with Learnable Graph Structure and Adaptive AU Constraint 阅读笔记

然而，一方面，现有的基于特征点的图聚合动态信息的工作，如光流和放大的形状特征，仍然需要花费大量的计算成本来提取这些特征。相反，人脸特征点是一种更紧凑的模态，可以为MER保留具有判别性的几何特征，并取得了良好的性能。总体而言，在较早的层中，AAU损失约束模型侧重于从人脸特征中学习高层的AU特征，而在较深的层中，则侧重于从高层的AU特征中学习高层的ME特征。我们提供了一种简单高效的方法，直接将基于特征点坐标的几何特征作为节点特征，而不是提供复杂且昂贵的外观特征或不易获取的AU特征。

2024-02-22 10:56:04 515

原创探索虚拟世界的程序员之路

通过编程，我感受到了黑客精神的力量，同时也深信编程不仅是技术的追求，更是一种思考和改变世界的方式。电影中，虚拟现实与现实生活交织在一起，主人公尼奥（Neo）通过编程技能的提升和对虚拟代码的理解，逐渐揭示了人类所处的“矩阵”世界的真相。《社交网络》揭示了互联网巨头的创业之路，《源代码》带你穿越时间解救世界，这些电影不仅带我们穿越到科技的前沿，还揭示了计算机科学背后的故事和挑战。随着时间的推移，我的编程技能逐渐提升，我开始参与更复杂的项目，涉足信息安全领域，深耕人工智能的研究。

2024-02-20 11:07:35 325

原创 CMNet:Contrastive Magnification Network for Micro-Expression Recognition 阅读笔记

随机灰度，这个方法是将图像转换为灰度图，并且这个转换的过程是随机的。在我们的方法中，我们采用了这个测试来校准提取的强度线索，以符合所建立的原型的变化。获取负样本的三种方法，第一种是全都取，第二种的相同的概率抽取，第三种先计算锚定帧与其他帧之间的差异，再将差异通过softmax转换成概率。作为强度的一种表示，特征向量被独立地提取出来，并受到一个损失的约束，在这个过程中，网络实现了强度增强。AAAI 2023的一篇文章，东南大学几位老师的工作，用于做微表情识别中的运动增强工作，以下是阅读时记录的笔记。

2024-02-19 22:49:41 1002

原创 Feature refinement 的阅读笔记

利用双流Inception网络作为骨架进行表情共享特征学习，利用带有注意力机制的表情提议模块进行表情特异性特征学习，利用融合的表情细化特征进行标签预测。在未来的研究中，我们将考虑一种端到端的MER方法，寻找更有效的方法来丰富微表情样本，并从大规模数据库中使用迁移学习来为MER带来好处。与MER中现有的深度学习方法侧重于学习表情共享特征不同，我们的方法旨在通过表情特征学习和融合来学习一组表情精化特征。本文的贡献是，提出了一个新颖的特征提纯方法，一个表达能力较强的特征学习与融合的方法，用于微表情识别。

2024-02-03 11:39:02 722

原创深度视觉目标跟踪进展综述-论文笔记

尽管以上的双路网络方法在视频目标跟踪中取得了很大的成功，但是仍然存在缺陷，缺少在线更新过程．MemTrack、Meta-Tracker、Ｒe2EMA、UpdateNet和GradNet等，提出了不同的模板更新算法。双路网络框架(SiamFC)，此方法利用卷积网络提取目标模板和搜索区域的特征，然后再进性相关操作生成响应图，其中响应图上的峰值点就是目标所在的位置。深度学习提取特征的特点是，高层的语义特征对于目标的抽象表达能力很强，而低层的模型特征擅长刻画目标的纹理、形状等底层信息．。

2024-01-25 11:31:35 659

原创 LaTex+VSCode开发中中文目录的解决方法

最近改用LaTex+VSCode完成书稿的写作，感觉比TexStudio好用一些。安装完LaTex Workshop后，发现如果书稿的目录包含中文，则无法直接识别，编译的时候都是乱码。3.找寻LaTex-workshop-LaTex：Tools，点击下面的Edit in settings.json。4.将里面所有参数的"%DOC%"都替换成，"%DOCFILE%"。在网上搜了一下，最后终于解决了，记录一下过程，希望能帮到大家。1.点开LaTex Workshop的设置界面。5.保存并重启软件，就能用了。

2024-01-22 15:31:44 576

原创以太网转RS485通讯类库封装

最近选用有人科技的以太网转RS485模块做项目，设备真漂亮，国货之光。调通了通讯的代码，发到网上供大家参考，多多交流。

2023-12-30 12:02:02 481

原创基于深度学习的视觉目标跟踪进展综述

尽管以上的双路网络方法在视频目标跟踪中取得了很大的成功，但是仍然存在缺陷，缺少在线更新过程．MemTrack、Meta-Tracker、Ｒe2EMA、UpdateNet和GradNet等，提出了不同的模板更新算法。双路网络框架(SiamFC)，此方法利用卷积网络提取目标模板和搜索区域的特征，然后再进性相关操作生成响应图，其中响应图上的峰值点就是目标所在的位置。深度学习提取特征的特点是，高层的语义特征对于目标的抽象表达能力很强，而低层的模型特征擅长刻画目标的纹理、形状等底层信息．。

2023-11-28 16:00:14 237

原创无人机自主飞行实战入门-第一课（简介）

传统飞控基于STM32架构设计，无法满足更智能功能所需的计算量，飞控是为了无人机位姿控制所设计，人类操控依然in the loop。旋翼与固定翼的结合体，通过旋翼部分完成起降，在实际工作阶段使用固定翼动力模型完成飞行任务。• 读取飞控输出的 PWM 脉宽调制信号 , 根据收到的PWM信号调整换相频率，从而驱动电机完成速度的转换。以螺旋桨旋转作为升力的主要提供办法，通过调整螺旋桨转速来维持无人机姿态的无人机。• Arduino 开源飞控，是由六位意大利交互设计学院的同学，于2005年开发创办开发。

2023-08-26 09:27:43 629

原创从零实战SLAM-第十课（回环检测与建图）（完）

验证两帧之间的相似度，有以下几种常用的策略，其中基于外观的方法是主流，核心在于衡量两帧图像之间的相似度。SLAM的前段和后端都存在误差，因为建图与定位是耦合的，所以整个误差会积累。➢ 对每一个样本，计算与每个中心点之间的距离，取最小的作为它的归类；➢ 思路：相邻关键帧是相似的，而回环的相似度应该约等于相邻关键帧。BoW的字典生成问题亦属于其中之一，N个特征点，归为k个单词。回环检测是通过检测出之前去过的地点，对预测的轨迹进行修正。➢ 只看 Word 的有无，无视 Word 的顺序。

2023-08-17 12:08:13 322

原创从零实战SLAM-第九课（后端优化）

渐进式的作用是根据观测的结果，修正自己对位姿的估计。没有观测，则随着机器人的移动，自身的位姿误差会越来越大。在七月算法报的班，老师讲的蛮好。后端的目标：从带噪声的数据估计内在状态——状态估计问题。在SLAM中使用Bundle Adjustment，用来做关键帧和地图的管理。➢ 保持当前状态的估计，在加入新信息时，更新已有的估计（滤波）➢ 给定一定规模的数据，计算该数据下的最优估计（优化）则k时刻的位姿，与原始位姿、运动序列和观测序列有关。其中，卡尔曼滤波用在线性模型、高斯噪声的情况之下。

2023-08-16 13:47:16 466

原创从零实战SLAM-第八课（非特征点的视觉里程计）

光流：追踪源图像某个点在其他图像中的运动。本质→估计像素在不同时刻图像中的运动。➢ 每次使用了 Taylor 一阶近似，在离优化点较远时效果不佳，往往需要迭代多次。在七月算法报的班，老师讲的蛮好。❑ 稀疏光流：计算部分像素运动 ---- Lucas Kanade。❑ 稠密光流：计算全部像素运动 ---- Horn Schunck。➢ 要使优化成立，必须保证从初始估计到最优估计中间的梯度一直下降。➢ 可以用于跟踪图像中的稀疏关键点的运动轨迹。➢ 半稠密直接法：使用部分梯度明显的像素。

2023-08-15 17:47:23 949

原创从零实战SLAM-第七课（多视角几何）

其中，P为三维空间中的一个路标，P在图像𝐼1与𝐼2的投影： 𝑝1, 𝑝2；𝑂1𝑃，𝑂2𝑃在对方图像上的投影： 𝑒2𝑝2(𝑙2)，𝑒1𝑝1(𝑙1)；PnP的作用：已知3D点的空间位置和相机上的投影点，求相机的旋转和平移（外参）。❖ 如果匹配的是 RGB-D图，得到 3D-3D 间的关系 ----ICP。❖ 如果只有两个单目图像，得到 2D-2D 间的关系 ----对极几何。❖ 如果匹配的是帧和地图，得到 3D-2D 间的关系 ----PnP。Epipolar Plane: 𝑂1𝑂2𝑃 ----极平面。

2023-08-15 10:31:43 171

原创从零实战SLAM-第六课（特征点匹配）

4. 在选取的圆上，若有连续的𝑁个点的亮度大于𝐼𝑝 + 𝑇或小于𝐼𝑝 − 𝑇 ：像素𝑝：特征点(𝐹𝐴𝑆𝑇 − 9、𝐹𝐴𝑆𝑇 − 11、𝐹𝐴𝑆𝑇 − 12)其中SLAM用的最多的是ORB，其他几个的速度都太慢，无法满足实时性。计算了特征点的主方向，为后续的BRIEF 描述子增加了旋转不变特性；特征点：能够在其他含有相同场景或目标的相似图像中以一种相同的或至少非常相似的不变形式表示图像或目标。Efficiency：同一图像中，特征点的数量应远小于像素的数量。本质是通过连续两帧的图像，估算相机位姿的变化。

2023-08-14 17:31:47 148

原创从零实战SLAM-第五课（最小二乘法）

在七月算法报的班，老师讲的蛮好。所谓的图优化，就是把一个常规的优化问题，以图（Graph）的形式来表述。比如机器人在空间中移动，并观察几个路标的，可以简化出一个图。图优化的作用就是将其抽象成一个图结构，用图的形式描述这个问题。首先是用平方和来衡量设计的模型与实际数据之间的差异。批量法：一次性给定所有的数据，以此估计所有的变量。SLAM中的两个关键模型，运动模型与观测模型。牛顿法与高斯牛顿法的区别在增量方程。优化的目的就是拟合出最理想的轨迹。，感兴趣的同学可以学习一下。L-M法与高斯牛顿法的区别。

2023-08-14 12:00:54 65

原创从零实战SLAM-第四课（相机成像及常用视觉传感器）

是指成像过程中所产生的图像像元的几何位置相对于参照系统(地面实际位置或地形图)发生的挤压、伸展、偏移和扭曲等变形,使图像的几何位置、尺寸、形状、方位等发生改变。内参矩阵通过相机标定即可获取，或出厂时厂家提供，SLAM需要解决的是几个外参矩阵的计算。图像中的一个点，世界坐标系上一条射线上的点均匹配，所以说丢失了距离信息。相机的内参矩阵，用于计算世界坐标系与像素坐标系之间的转换。世界坐标系、相机坐标系与像素坐标系之间的关系。双目相机的原理及计算距离的方法。图像变形与畸变的分类。

2023-08-14 09:57:05 809

原创从零实战SLAM-第三课（李群与李代数）

SO(3) 和 SE(3) 只有定义良好的乘法，没有加法，所以难以进行取极限、求导等操作。问题出现在这里，当做优化时，对矩阵进行求导，但是变换矩阵和旋转矩阵加个deltaR，结果不是变换矩阵（因为对加法不封闭）其中Xk-1为上一个时刻的位置，Uk为当前时刻的操作，Xk为当前的位置，Wk为噪声。回到之前的问题，矩阵R无法求导，因为加上deltaR，就不是旋转矩阵和平移矩阵了。群的定义：群(G)是一种代数结构，集合(A)+运算(·): 𝐺 = (𝐴,·);反对称矩阵是指，对角线两侧元素的绝对值相同，符号相反。

2023-08-12 10:43:22 116

原创从零实战SLAM-第二课（SLAM中的基础数学）

向量的内积，也叫做点乘，是逐点相乘后累加，最终结果是一个标量，物理意义是一个向量在另一个向量上的投影。当某一个轴旋转90°，有两个轴的对应平面重合，则此情况下两个旋转的效果是一样的，这种情况叫做万向锁。为了避免万向锁对旋转计算的影响，SLAM中一般使用四元数来提起欧拉角描述旋转，当然本质是一样的。坐标系的变换包括平移和旋转，平移是对原点的平移，旋转是绕着三个轴旋转。外积，也叫做叉乘，两个向量拼起来成，结果是一个矩阵，物理意义是旋转。假设有一个旋转轴为n，角度为θ的旋转，显然，它对应的旋转向量为θn。

2023-08-11 22:20:26 191

原创从零实战SLAM-第一课（SLAM概览）

SLAM的目的是同步估算出机器人的位姿信息并对环境建图。回路检测的作用时通过检测出之前出现过的场景，判断出走过的路径是一个环路，这样可以消除之前轨迹产生的误差。问题的特点是机器人的位姿和路标的位置都是世界坐标系下的绝对值，但是所有的测量值都是相对值。视觉里程计的作用就是通过连续两帧之间的时差，反向计算出相机位姿变化的情况。1.机器人的轨迹和地图都是未知的，对姿态和地图的估计误差会累积；2.多帧检测的路标之间的映射关系未知，映射错误会导致后续的错误。如果要实现机器人的全自动化，SLAM是一个基础的问题。

2023-08-11 12:53:47 103

原创无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）

模仿学习：从专家提供的范例中学习，一般提供人类专家的决策数据，每个决策包含状态和动作序列，把状态作为特征，动作作为标记进行分类或回归的学习从而得到最优策略模型。Q-Table为每一个 state 上进行的每一个 action 计算出最大的未来 reward 的期望，每个状态允许四种可能的操作：左移、右移、上移、下移， Table 里的参数式给定最佳策略的状态下采取相应动作获得的最大未来奖励期望。Reward：激励、奖励，对行为好坏的一个评价，Value Function，不同环境可以有不同的奖励，

2023-08-09 15:34:27 1082

原创无人驾驶实战-第十一课（控制理论）

考虑过去误差，将误差值过去一段时间和（误差和）乘以一个正值的常数，积分控制会加速系統趋近设定值的过程，并且消除纯比例控制器会出现的稳态误差。注意在误差是0的时候，控制器的输出也是0。考虑将来误差，计算误差的一阶导，并和一个正值的常数相乘，微分控制可以提升整定时间及系統稳定性。Optimal Control：给定一个系统和环境扰动，根据需求条件（Objective），实现最优的控制量决策。控制是对车辆油门、刹车、方向盘的精细控制，是安全行驶的最后关卡，克服外界各种不确定性环境因素（风速、湿滑）

2023-08-09 09:17:21 265

原创无人驾驶实战-第十课（决策规划）

什么样的路径是最好的，这个是需要用数字进行量化。机器人学常用的方法为A* search，是基于Dijkstra方法的改进，前提是大概知道了终点位置，有个启发式的函数。非常常用的一个方法，先将连续空间离散化（随机撒点，Obstacle上的点删除），连接可行点，形成可行空间。Fn表示道路的Routing的总cost，Gn表示起始点到候选点的Cost，Hn表示候选点通过启发式函数得到的目标点Cost。改进了RRT的折线问题，给出了Path的平滑曲线，方法是网格化，每个采样格中都是用曲线连接。

2023-08-09 06:36:01 303

原创无人驾驶实战-第九课（预测系统）

预测的需求是准确率和实时性，难点是较为少见的情况预测（corner case）中级到中级的学习，多任务受限的学习，结合了预测与规划两部分工作。再对各种可能的行驶线路进行分类，计算每种的概率。车道特征：与起点的距离、与中心线的偏离值，参考线，转弯曲率，交通法；引入了GAN模型，设计出了人-人之间的交互。车辆状态：车速，加速度，朝向角度，朝向角速度，车辆类型，尺寸；基于模型的方法：结合人类的先验知识，可以解决较为少见的情况；车道模型的输入数据为序列，则使用的网络为RNN。环境：自然环境，车道周围的环境。

2023-08-08 00:37:54 246

原创无人驾驶实战-第八课（定位算法）

outside-in：接收的外界信号包含位置相关信息 / GNSS UWB WIFI Lidar-Hdmap Camera-marker(室外街景门牌室内maker) 磁条加marker(规划都做了) 扫地机本身贴marker加顶部相机 / (适合测量方程)缺点：巨大的数据量和人工标注，摄像机采图问题：强光/弱光/逆光都会影响检查效果，基于图像计算深度图存在误差（越远视察越小误差越大 z=fb/d），开放场景下(如高速公路) maker少甚至没有marker。

2023-08-06 23:25:04 773

原创无人驾驶实战-第七课（高精地图和V2X ）

与导航地图相比，高精地图提供精准的车道中心线与边界，路网信息中也包含了车道合并与路网节点的位置，同时还标记出了停车位与限速牌等信息。高精地图记录的是道路的静态特征，而V2X是用于获取动态特征的方法。s为与参考点相比的距离，t为与车道线中心相比偏移的距离，h为车辆的高度（因为路面不一定是水平的）相机与激光雷达采集到的数据，通过预处理、坐标变换与融合，形成的结果可以在高精地图中定位。S为与原点相比的距离信息，t为与车道线中心线对比的偏差距离。道路的交汇处是另一个重要的信息，包含车道的虚拟连接等。

2023-08-05 10:21:44 207

原创无人驾驶实战-第六课（动态环境感知与Tracking）

外观模型：利用多个正样本间的重叠关系同时提升跟踪的速度和精度：新位置极其周围产生的正样本可以通过循环矩阵来快速生成，循环矩阵傅利叶对角化性质大大简化计算加速分类器的学习过程，基于 HOG 特征的分类器，(DeepSRDCF:深度学习提取的特征+KCF 的方法)特点：适用于尺度变化大的物体，运动物体，多帧被挡住，遮挡较多（例如被另外一个物体完全挡住）过多错误的正样本导致它几乎不可用（容易跟踪非目标物体）特点：可靠的反馈跟踪丢失，可靠的轨迹，适用于小幅运动无遮挡场景，大幅运动容易跟踪失败。

2023-08-04 14:24:44 161

原创无人驾驶实战-第五课（动态环境感知与3D检测算法）

无序性：点云本质上是一堆点（nx3矩阵，其中n是点数）点的顺序不影响它在空间中对整体形状的表示(相同的点云可以由两个完全不同的矩阵表示)。X-Conv算子主要思想就是针对输入来说，以核K，中心p，领域点P，领域的特征F为输入，得到一个K×K的矩阵，这个矩阵就是X变换，它可以保证点云的无序性，然后再通过卷积核K对其进行卷积。球面坐标系下的每一个点都可以使用一个直角坐标系中点表示的点表示，提取点云中每一个点的5个特征:(x, y,z, intensity, range)放入对应的二维坐标 (i,j)。

2023-08-03 16:13:28 1953

原创无人驾驶实战-第四课（动态环境感知与2D检测算法）

从左到右，从上到下，用不同的尺寸和横款比的窗口滑动。这种方法的效率较低，大量窗口是无效的，仅限于固定尺寸与长宽比的目标，如人脸和行人的检测；1.提取特征：Haar、LBP、SIFT、SURF、HOG、DPM等，及深度学习CNN中的conv；k是网格的个数，2k的得分是每个网格二分类，有物体和没有物体，4k是候选框的坐标。从输出结果可以看出，V2对每个类都进行了分类的评估和边框的拟合。可以看出先提取候选框，每个候选框过一遍卷积，效率太低。3.CNN的方法：用锚框，RPN等方法实现。无人驾驶中的检测框架。

2023-08-02 11:16:56 135

原创无人驾驶实战-第三课（静态环境感知与分割算法）

所以Deeplab提出了一种新的带孔的卷积（Dilated/Atrous Convolution）能够保证这样的池化后的感受野不变，从而可以fine tune，同时也能保证输出的结果更加精细。聚类出具体是那条车道线：利用分割分支的二值分割图做掩码在Pixel embedding图像上得到所有车道像素的n维度嵌入，将车道像素的嵌入(蓝点)聚类得到所属车道类别。感知外界：用于感知外在环境，包括静态目标（车道线/路面/交通标识）和动态目标（运动物体(车/人/...)的运动状态(位置/朝向/速度/...)）。

2023-08-01 13:32:07 162

原创无人驾驶实战-第二课（ROS编程）

ROS不是真正的操作系统，而是一种系统软件框架，该框架使用了流行的面向服务（SOA）的软件技术，通过网络协议将节点间数据通信解耦。一个节点是ROS程序包中的一个可执行文件，ROS节点可以使用ROS客户库与其他节点通信。ROS程序的最小组织是Package，Package是ROS系统中最底层最基本的组织，里面存放各种文件:库、工具、可执行文件等.

2023-07-31 20:44:32 224

原创无人驾驶实战-第一课（自动驾驶概述）

这一部分相当于人的手和脚传统汽车的这些控制由液压系统和真空助力泵协助完成，自动驾驶汽车的线控需要用电控化的零部件来完成，如电子液压制动系统林肯MKZ拥有完善的电气化设备和接口。为自动驾驶汽车与人类的责任概念提供具体可衡量的参数，并通过对所有记录在案的交通事故所涉及的行为和环境进行分析统计，为自动驾驶汽车界定了一个可计量的“安全状态”输出：方向盘、油门实现对无人车的控制，我们需要知道踩刹车和减速的关系、踩油门和加速的关系等，当无人车拿到一些控制学参数后，通过电脑对无人车的控制。

2023-07-30 22:00:36 859

机器视觉表面缺陷检测综述_汤勃.pdf

PaddleOCR-v3-onnxrun-cpp-py项目部署