yang_daxia-CSDN博客

原创论文阅读DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

DriveVLM是一种结合了自动驾驶技术和大型视觉语言模型（VLMs）的系统，旨在提高自动驾驶车辆在复杂和长尾场景下的理解能力和规划能力。该系统通过引入一种特殊的思维链（Chain-of-Thought，CoT）推理过程，将场景描述、场景分析和层级规划三个关键模块结合起来，以对应传统的感知、预测和规划流程。此外，DriveVLM-Dual作为一种混合系统，结合了DriveVLM和传统自动驾驶流程的优势，以弥补VLM在空间推理和计算需求方面的局限性。

2024-04-11 17:02:08 420

原创大模型prompt技巧——思维链（Chain-of-Thought）

将问题分解为多个子问题，然后将子问题的答案加入到提示中，继续prompt,可以理解为更细化的多步step-by-step。1、Zero-shot、One-shot、Few-shot 与fintune。3、多数投票提高CoT性能——自洽性（Self-consistency）其次，思维链的应用领域是有限的。prompt的时候给出例子答案，然后再让模型回答。6、用大模型的CoT指导小模型，提升小模型的能力。多个思维链，然后取结果最多的作为最终的。5、将CoT加入fintinue中。低成本的增强已有大模型的能力。

2024-04-02 15:17:09 715

原创自动驾驶与大模型

平均一个prompt对应5.3个轨迹，可以用于数据挖掘。另外构建了基于prompt的轨迹预测任务(实际预测3Dbbox)，提出了一个base方法prompTrack，将prompt与视觉query交互，在自己的数据集上取得了不错的效果。主要是基于nuscene生成了一个提示+实例的文本-实例对Nuprompt。

2024-04-02 14:39:59 122

原创 KeyError: ‘xxx is not in the models registry‘

2、使用sys和importlib，找到该类。1确认该模块是否实现。

2024-03-07 15:31:38 449

原创安装mmdet3d报错arch_list[-1]+=‘+PTX‘

需要使用cuda安装。

2024-01-12 14:18:46 414

原创 python深度学习搭环境技巧

如anaconda3/envs/fuzzy/lib/python3.6/site-packages/onnx打包后复制到自己的环境下。训练时通过export PYTHONPATH=/path/env1:$PYTHONPATH来调整。有时候不需要安装依赖，使用已经安装的即可，之后再针对性的补缺少的依赖。公共环境放一个路径，其他放单独路径，可以完美隔离。加上参数–no-deps, 不按照依赖。

2024-01-10 15:42:43 425

原创端到端自动驾驶

自动驾驶主要流程：感知->预测->规划预测是预测周围目标（车、行人、动物等）的轨迹，规划是规划自车的运动轨迹。

2024-01-10 11:00:51 1173

原创 2分图匹配算法

节点u直接无边，v之间无边，边只存在uv之间。判断方法：BFS染色法，全部染色后，相邻边不同色。

2023-11-30 09:23:22 145

原创自动驾驶中的坐标系变换

各种坐标系id=290582。

2023-11-20 10:34:53 98

原创激光雷达入门

禾赛Pandar64 360° 旋转式 64 线远距激光雷达（主雷达）一径科技 ML-30s短距激光雷达（补盲雷达）Livox Horizon激光雷达（主雷达）速腾M1固态激光雷达（主雷达）

2023-11-14 15:28:58 87

原创 docker/ nvidia-docker

参考资料：https://www.cnblogs.com/zzcit/p/5845717.html本文档说明下列系统下安装nvidia-dockerUbuntu Trusty 14.04 (LTS) Ubuntu Xenial 16.04 (LTS)安装docker更新apt源更新安装包信息sudo apt-get updatesudo apt-get install ...

2023-11-13 17:10:23 520 1

原创奇次坐标系

参考：为什么directX里表示三维坐标要建一个4*4的矩阵？- 云计算与数字孪生的回答 - 知乎。可以用一个4X4 的矩阵整合平移矩阵和旋转矩阵等，3X3 实现不了。3x3只能实现旋转变换。所以在自动驾驶中涉及多个坐标系的变化时都是用的奇次坐标。cv里面的透视变换也是用的奇次坐标，仿射变换则不需要。奇次坐标为[x, y, z, 1]三维坐标为[x, y, z]

2023-10-26 18:17:26 66

原创 gerrit代码review使用基本方法

git checkout branch-dev（切换到开发分支，如果和origin名称一样会自动关联远程分支，可以用git branch -vv或者git log确认）参考：https://www.ruanyifeng.com/blog/2020/04/git-cherry-pick.html。如果有冲突，则进行修改后，git cherry-pick continue。.匹配了所有的文件，相当于git checkout all-files。git pull可以拉取所有分支的代码。

2023-10-13 10:45:44 834

原创 DETR疑问与理解

视频解读：【DETR 论文精读【论文精读】】 https://www.bilibili.com/video/BV1GB4y1X72R/?因为实际gt有m个框，objects query为N个，实际上N>>m。作者增加一个no object类别，就是N对N的二分图匹配问题了，使用匈牙利匹配算法求解。用Transformer做object detection：DETR - 小小理工男的文章 - 知乎。因为detr使用的transformer天然适合处理序列到序列到模式，所以就算一种端到端的检测。

2023-08-16 09:38:59 107

原创 ROS入门核心教材重要节选

话题的通信是通过节点间发送ROS消息实现的。为了使节点A和节点B进行通信，两者必须发送和接收相同类型的消息。这意味着话题的类型是由发布在它上面消息的类型决定的。使用rostopic type命令可以查看发布在话题上的消息的类型。参考：http://wiki.ros.org/cn/ROS/Tutorials。节点可以理解为人工定义一个机器人模块，然后抽象成可执行文件。用来启动定义在launch（启动）文件中的节点。检查并回放bag数据。

2023-08-09 16:49:08 131

原创 transformer理解

transformer使用了自注意力机制，摒弃了RNN中的循环结构，所以加速了推理时间，但是也丢失了位置信息，所以需要位置编码记录位置信息。

2023-07-25 16:19:23 623

原创 BEV based depth方法总结

基于深度的BEV论文。

2023-07-24 17:24:02 180

原创 BEV入门

将相机视角转化为BEV视角下，解决相机视角缺失深度的问题。在于如何从相机为BEV视角。

2023-07-24 14:01:03 94

原创使用chatGPT做综述——以目标检测为例

尝试用chatGPT做综述。备注：chatGPT的知识只到2021年。所以2022年以后的论文无法包含。

2023-07-04 11:24:22 931

原创理解卡尔曼滤波算法

当前的测量值本身可能有误差，所以引入上一时刻的预测值，将两者加权平均的结果视为当前状态的最优估计。所以可以用于跟踪算法、平滑算法等。使用卡尔曼滤波平滑目标的位置变化。

2023-06-29 15:36:42 110

原创杭州社保解读截止2023

社保

2023-01-06 15:14:53 732 1

原创车机芯片算力汇总

高通8155，mtk8666

2022-12-12 15:06:37 6135

原创 python opencv把yuv格式转bgr

YUV ，指的是 YCbCr，其中Y是指亮度分量，Cb指蓝色色度分量，而Cr指红色色度分量。根据采样方式以及排列方式分了好多种细致的格式，常用的有yuyv422等。

2022-11-03 16:08:32 1635

原创 python 多进程 multiprocessing pool vs processpoolexecutor

其他：https://superfastpython.com/multiprocessing-pool-vs-processpoolexecutor/当数据量很大，建议用v2或者v3,v2和v1比多了进程调用的时间，好处是实时的写入了文件，而且用了tqdm记录时间。当数据很少时，用v1就可以了，因为调用进程只有一次，一次性写完。v3在数据量很大的时候是更快的方法，但是和v2比，v3写入的文件是乱序的。用了200000次用来测试，其实可以用2000个，这样可以更快。下面给出不同的写法，以及对比效果。

2022-10-12 15:46:35 1093

空空如也

空空如也