自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 大模型理解与生成三维点云:CVPR《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》介绍

本文是关于CVPR2024最新论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》的简要介绍。GPT4Point是让大模型理解与生成三维模型点云的经典作品,作者提出了 Pyramid-XL点云-语言标注引擎,以及数据规模超过1M的物体文本数据集,并且使用多种评价指标评测GPT4Point的点云理解和生成性能。

2024-04-16 18:10:30 418

原创 让大模型理解三维世界,NIPS论文《3D-LLM: Injecting the 3D World into Large Language Models》简要解读

本文是关于NIPS最新论文《3D-LLM: Injecting the 3D World into Large Language Models》的简要技术介绍。大模型已经在多个领域斩头露角,但是在三维领域,目前的工作并不算多。本文将三维与大语言,提出了新颖的数据集和方法。

2024-04-15 15:31:40 378

原创 让GPT使用工具:NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》解读

本文是关于NIPS最新论文《GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction》的技术介绍。ChatGPT或者GPT4已经展现出巨大的潜力,但是存在高昂的计算成本以及无法处理的数据类型。GPT4Tools通过自我提示(self-instruction)实现大语言模型与现有工具(例如人脸检测、文字识别)的结合。此外,这篇文章还提出一套评价大语言模型使用工具的能力的基准。

2024-04-11 18:47:34 968

原创 多模态大语言基座模型KOSMOS-1《Language Is Not All You Need: Aligning Perception with Language Models》论文简要介绍

本文是关于NIPS2024论文《Language Is Not All You Need: Aligning Perception with Language Models》的简要介绍。这项工作提出了一个多模态大语言模型框架:KOSMOS-1,在语言理解、生成、无OCR的自然语言处理、感知-语言任务和视觉任务等方面的出色表现。

2024-04-09 17:31:38 927

原创 用大模型解决视觉任务:《VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks》

本文是关于NIPS2024论文VisionLLM的简要介绍。VisionLLM是一个多模态的大语言模型框架,可以借助大语言模型的力量,实现自定义的传统视觉任务,例如检测、分割、图像标题等。框架最大的特点就是灵活性和适应性,通过语言指令让模型做不限定的视觉任务。本文按照论文顺序和主要内容做介绍。

2024-04-09 11:17:34 631

原创 OpenDrive的路网文件xodr解析原理并使用matplotlib进行二维可视化

本文是关于opendrive道路格式文件xodr文件的解析和可视化的详细解析,以供有关研究者使用。xodr文件包含了车道的仿真地图,有时候我们需要针对性的进行开发,例如明确的知道每个车道的路沿绝对坐标等等。为了简化表示,本文采用二维可视化的任务将xodr文件进行解析和绘制。

2024-04-07 15:46:14 733

原创 多模态大模型MiniGPT4论文《Minigpt-4: Enhancing vision-language understanding with advanced large languag》简要介绍

最近发布的GPT-4表现出非凡的多模态能力,比如直接从手写文本生成网站和识别图像中的幽默元素,这些能力在先前的工作中很少见,但是GPT-4背后的技术细节仍未公开。作者认为GPT-4增强的多模态生成能力源于利用复杂的大型语言模型(LLM)。为了研究这一现象,我们提出了MiniGPT-4,通过一个映射层(Projection )将一个冻结的视觉编码器与一个冻结的先进LLM Vicuna进行对齐。

2024-04-03 18:50:59 999

原创 大语言模型文献调研专栏目录

本专栏收录有关大语言模型相关的最新论文简介,以帮助相关领域的研究者快速了解行业动向和技术原理的简要介绍。为了便于读者查阅,这里整理了本专栏的文献目录,并随时更新。多模态大模型文献综述系列(更新中)多模态大模型方法系列(更新中)大模型思维链系列(更新中)

2024-04-03 15:39:00 286

原创 NIPS2024论文《Visual instruction tuning》LLaVA视觉大模型技术介绍

现在的大型语言模型(LLM)在语言对话与问答等任务中表现出优秀的性能。但是,对于多模态的输入(例如一张图片以及一个关于这张图片的问题),大型语言模型就难以应对,尤其是考察其推理能力时。

2024-04-03 15:09:21 740

原创 多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

题目:MM-LLMs: Recent Advances in MultiModal Large Language Models论文:https://arxiv.org/pdf/2401.13601.pdf?项目主页:https://mm-llms.github.io/GPT诞生以来,一向以强大的自然语言处理能力而著称,人们试着将大型语言模型(Large Language Models,LLM)的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。

2024-04-03 15:07:09 872

原创 视频理解大模型调研论文《Video Understanding with Large Language Models: A Survey》简要介绍

Vid-LLMs在生成视频内容简洁摘要方面起着至关重要的作用,分析视觉和听觉元素以提取上下文感知摘要的关键特征。这种应用在新闻聚合和内容策展中至关重要。它们还对视频编辑领域作出贡献,如现有文献所述。此外,在特定领域,如广告编辑,也存在应用场景。

2024-04-03 15:05:00 1241 1

原创 大模型思维链论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》简要介绍

本文是关于2022年NIPS论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的简要技术介绍。论文提出使用思维链提示(Chain-of-thought Prompting)可以有效促进大语言模型的逐步推理能力,进而获得更加准确的效果,尤其对于需要逐步推理的任务。

2024-04-03 14:59:48 585

原创 视频大语言模型调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》解读

大型语言模型(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达,但是,在许多应用场景下,仅限于文本的人机交互并不足够,真实世界的信息通常是多模态的。现有工作的不足。为了进一步探索LLMs的潜力,许多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交织的图像-文本数据或语音-文本数据对多模态LLMs进行大规模预训练,以适应多模态输入。或者采用更高效的参数方式,通过补充LLMs与现成的视觉或语音基础模型来实现多模态理解。

2024-04-03 11:13:48 722 1

原创 使用Typora+PicGo+Gitee打造全新Markdown博客创作环境

本文主要解决markdown图片自动上传个人托管平台,并以链接形式记录在markdown中,提高markdown复用性的问题。

2022-11-15 22:02:43 303

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除