ryb4i-CSDN博客

原创【论文阅读】ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries

传统的感知和预测模块是分开的，两者通过bbox和轨迹等特征进行联系。然后用相机内参和外参矩阵把3D查询参考点映射到图像的2D坐标上，然后将上面得到的向量作为Q，图像特征L，经过W映射，得到三个QKV矩阵，然后计算跨注意力，最后经过一个带层归一化的两层感知机FFN，更新agent query。输入是多视角图像，通过检测和跟踪模块，得到跟踪agent query集合，这包含许多视觉信息，包括agent的运动特性和视觉特征，然后预测模块接收这个跟踪query和地图信息一起作为输入，输出agent的未来轨迹。

2023-06-27 21:23:04 224 1

原创【论文阅读】Planning-oriented Autonomous Driving

MotionFormer接收上面两个的输出，预测多模态的轨迹，它由N层组成，每层捕捉三类交互：agent-agent，agent-map，agent-egovehicle。后者又四部分组成，一是场景级别的anchor，二是agent级别的anchor，三是agent的当前位置，四是预测目标点。BEVFormer：输入是多个相机拍摄的图像序列，将其通过BEVFormer的离线BEV编码器，经过特征提取得到BEV特征，这里的BEV编码器并非唯一，也可以由其他BEV选项，比如长时间特征融合模型和多模态模型。

2023-06-25 21:11:15 400 1

原创【学习记录】LangChain-ChatGLM项目介绍

这里的本地知识库泛指本地文档，包括pdf、txt、docx和md等文件类型，具体来说，是读取本地文档，经过词语划分和嵌入模型，得到向量化的文档（向量知识库），然后接收用户的查询，将查询也经过与上文相同的嵌入模型，得到查询向量，将查询向量和向量知识库做相似度计算，得到top-k个匹配句子，将这top-k个匹配句子和用户提问，一起加入提示词模板中，得到prompt，发送给LLM得到回答。1、加载本地文档（目前支持pdf、txt、md、docx等文件类型，暂不支持表格类型）3、借助不同模型能力。

2023-06-19 16:51:38 563

原创多模态Transformer输入的Tokenization过程

个人觉得，这在一定程度上说明，自注意力机制是GNN消息传递机制的隐式表达，它不直接建模显式的graph，同时兼顾了输入的简洁高效和连接的必要。例如对于视频输入，一种方法是将非重叠窗口（下采样）视为token，然后可以通过各种3D CNN提取对应的embedding，VideoBERT、CBT和UniVL使用S3D，ActBERT使用ResNet-3D。例如，一种特定token嵌入⊕位置编码。在ImageBERT[115]中，融合了五种嵌入：“图像嵌入⊕位置嵌入⊕语言嵌入⊕片段嵌入⊕序列位置嵌入”。

2023-06-14 15:16:43 533

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【论文阅读】ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries

原创 【论文阅读】Planning-oriented Autonomous Driving

原创 【学习记录】LangChain-ChatGLM项目介绍

原创 多模态Transformer输入的Tokenization过程

空空如也

空空如也

原创【论文阅读】ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries

原创【论文阅读】Planning-oriented Autonomous Driving

原创【学习记录】LangChain-ChatGLM项目介绍

原创多模态Transformer输入的Tokenization过程