AI菜鸟-CSDN博客

原创大模型理解与生成三维点云：CVPR《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》介绍

本文是关于CVPR2024最新论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》的简要介绍。GPT4Point是让大模型理解与生成三维模型点云的经典作品，作者提出了 Pyramid-XL点云-语言标注引擎，以及数据规模超过1M的物体文本数据集，并且使用多种评价指标评测GPT4Point的点云理解和生成性能。

2024-04-16 18:10:30 418

原创让大模型理解三维世界，NIPS论文《3D-LLM: Injecting the 3D World into Large Language Models》简要解读

本文是关于NIPS最新论文《3D-LLM: Injecting the 3D World into Large Language Models》的简要技术介绍。大模型已经在多个领域斩头露角，但是在三维领域，目前的工作并不算多。本文将三维与大语言，提出了新颖的数据集和方法。

2024-04-15 15:31:40 378

原创让GPT使用工具：NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》解读

本文是关于NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》的技术介绍。ChatGPT或者GPT4已经展现出巨大的潜力，但是存在高昂的计算成本以及无法处理的数据类型。GPT4Tools通过自我提示（self-instruction）实现大语言模型与现有工具（例如人脸检测、文字识别）的结合。此外，这篇文章还提出一套评价大语言模型使用工具的能力的基准。

2024-04-11 18:47:34 968

原创多模态大语言基座模型KOSMOS-1《Language Is Not All You Need: Aligning Perception with Language Models》论文简要介绍

本文是关于NIPS2024论文《Language Is Not All You Need: Aligning Perception with Language Models》的简要介绍。这项工作提出了一个多模态大语言模型框架：KOSMOS-1，在语言理解、生成、无OCR的自然语言处理、感知-语言任务和视觉任务等方面的出色表现。

2024-04-09 17:31:38 927

原创用大模型解决视觉任务：《VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks》

本文是关于NIPS2024论文VisionLLM的简要介绍。VisionLLM是一个多模态的大语言模型框架，可以借助大语言模型的力量，实现自定义的传统视觉任务，例如检测、分割、图像标题等。框架最大的特点就是灵活性和适应性，通过语言指令让模型做不限定的视觉任务。本文按照论文顺序和主要内容做介绍。

2024-04-09 11:17:34 631

原创 OpenDrive的路网文件xodr解析原理并使用matplotlib进行二维可视化

本文是关于opendrive道路格式文件xodr文件的解析和可视化的详细解析，以供有关研究者使用。xodr文件包含了车道的仿真地图，有时候我们需要针对性的进行开发，例如明确的知道每个车道的路沿绝对坐标等等。为了简化表示，本文采用二维可视化的任务将xodr文件进行解析和绘制。

2024-04-07 15:46:14 733

原创多模态大模型MiniGPT4论文《Minigpt-4: Enhancing vision-language understanding with advanced large languag》简要介绍

最近发布的GPT-4表现出非凡的多模态能力，比如直接从手写文本生成网站和识别图像中的幽默元素，这些能力在先前的工作中很少见，但是GPT-4背后的技术细节仍未公开。作者认为GPT-4增强的多模态生成能力源于利用复杂的大型语言模型（LLM）。为了研究这一现象，我们提出了MiniGPT-4，通过一个映射层（Projection ）将一个冻结的视觉编码器与一个冻结的先进LLM Vicuna进行对齐。

2024-04-03 18:50:59 999

原创大语言模型文献调研专栏目录

本专栏收录有关大语言模型相关的最新论文简介，以帮助相关领域的研究者快速了解行业动向和技术原理的简要介绍。为了便于读者查阅，这里整理了本专栏的文献目录，并随时更新。多模态大模型文献综述系列（更新中）多模态大模型方法系列（更新中）大模型思维链系列（更新中）

2024-04-03 15:39:00 286

原创 NIPS2024论文《Visual instruction tuning》LLaVA视觉大模型技术介绍

现在的大型语言模型（LLM）在语言对话与问答等任务中表现出优秀的性能。但是，对于多模态的输入（例如一张图片以及一个关于这张图片的问题），大型语言模型就难以应对，尤其是考察其推理能力时。

2024-04-03 15:09:21 740

原创多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

题目：MM-LLMs: Recent Advances in MultiModal Large Language Models论文：https://arxiv.org/pdf/2401.13601.pdf?项目主页：https://mm-llms.github.io/GPT诞生以来，一向以强大的自然语言处理能力而著称，人们试着将大型语言模型（Large Language Models，LLM）的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。

2024-04-03 15:07:09 872

原创视频理解大模型调研论文《Video Understanding with Large Language Models: A Survey》简要介绍

Vid-LLMs在生成视频内容简洁摘要方面起着至关重要的作用，分析视觉和听觉元素以提取上下文感知摘要的关键特征。这种应用在新闻聚合和内容策展中至关重要。它们还对视频编辑领域作出贡献，如现有文献所述。此外，在特定领域，如广告编辑，也存在应用场景。

2024-04-03 15:05:00 1241 1

原创大模型思维链论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》简要介绍

本文是关于2022年NIPS论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的简要技术介绍。论文提出使用思维链提示（Chain-of-thought Prompting）可以有效促进大语言模型的逐步推理能力，进而获得更加准确的效果，尤其对于需要逐步推理的任务。

2024-04-03 14:59:48 585

原创视频大语言模型调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》解读

大型语言模型(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达，但是，在许多应用场景下，仅限于文本的人机交互并不足够，真实世界的信息通常是多模态的。现有工作的不足。为了进一步探索LLMs的潜力，许多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交织的图像-文本数据或语音-文本数据对多模态LLMs进行大规模预训练，以适应多模态输入。或者采用更高效的参数方式，通过补充LLMs与现成的视觉或语音基础模型来实现多模态理解。

2024-04-03 11:13:48 722 1

原创使用Typora+PicGo+Gitee打造全新Markdown博客创作环境

本文主要解决markdown图片自动上传个人托管平台，并以链接形式记录在markdown中，提高markdown复用性的问题。

2022-11-15 22:02:43 303

qq_37261357的博客