自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 【论文阅读】ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries

传统的感知和预测模块是分开的,两者通过bbox和轨迹等特征进行联系。然后用相机内参和外参矩阵把3D查询参考点映射到图像的2D坐标上,然后将上面得到的向量作为Q,图像特征L,经过W映射,得到三个QKV矩阵,然后计算跨注意力,最后经过一个带层归一化的两层感知机FFN,更新agent query。输入是多视角图像,通过检测和跟踪模块,得到跟踪agent query集合,这包含许多视觉信息,包括agent的运动特性和视觉特征,然后预测模块接收这个跟踪query和地图信息一起作为输入,输出agent的未来轨迹。

2023-06-27 21:23:04 224 1

原创 【论文阅读】Planning-oriented Autonomous Driving

MotionFormer接收上面两个的输出,预测多模态的轨迹,它由N层组成,每层捕捉三类交互:agent-agent,agent-map,agent-egovehicle。后者又四部分组成,一是场景级别的anchor,二是agent级别的anchor,三是agent的当前位置,四是预测目标点。BEVFormer:输入是多个相机拍摄的图像序列,将其通过BEVFormer的离线BEV编码器,经过特征提取得到BEV特征,这里的BEV编码器并非唯一,也可以由其他BEV选项,比如长时间特征融合模型和多模态模型。

2023-06-25 21:11:15 400 1

原创 【学习记录】LangChain-ChatGLM项目介绍

这里的本地知识库泛指本地文档,包括pdf、txt、docx和md等文件类型,具体来说,是读取本地文档,经过词语划分和嵌入模型,得到向量化的文档(向量知识库),然后接收用户的查询,将查询也经过与上文相同的嵌入模型,得到查询向量,将查询向量和向量知识库做相似度计算,得到top-k个匹配句子,将这top-k个匹配句子和用户提问,一起加入提示词模板中,得到prompt,发送给LLM得到回答。1、加载本地文档(目前支持pdf、txt、md、docx等文件类型,暂不支持表格类型)3、借助不同模型能力。

2023-06-19 16:51:38 563

原创 多模态Transformer输入的Tokenization过程

个人觉得,这在一定程度上说明,自注意力机制是GNN消息传递机制的隐式表达,它不直接建模显式的graph,同时兼顾了输入的简洁高效和连接的必要。例如对于视频输入,一种方法是将非重叠窗口(下采样)视为token,然后可以通过各种3D CNN提取对应的embedding,VideoBERT、CBT和UniVL使用S3D,ActBERT使用ResNet-3D。例如,一种特定token嵌入⊕位置编码。在ImageBERT[115]中,融合了五种嵌入:“图像嵌入⊕位置嵌入⊕语言嵌入⊕片段嵌入⊕序列位置嵌入”。

2023-06-14 15:16:43 533

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除