datamonday-CSDN博客

本项目使用Python3.8编写，Qt Designer（QT5）设计主界面，PyQt5库编写控件的功能，使用开源FaceNet人脸识别算法进行人脸识别，使用眨眼检测来实现活体识别，使用OpenCV3实现实时人脸识别。同时，将班级学生信息，各班级学生人数、考勤信息录入到MySQL数据库中，方便集中统一化管理。因为本项目仅由我一个人开发，能力精力有限，实现了预期的绝大多数功能，但是活体检测功能还存在bug，如果小伙伴对本项目中有不懂的地方或者发现问题，欢迎提出。...

2019-04-14 01:16:27 44586 183

原创【EAI 029】Genie: Generative Interactive Environments

Genie 是第一个以无监督方式从无标签的互联网视频中训练出来的生成式交互环境。该模型可以通过文本，合成图像，照片甚至草图来生成无穷无尽的可动作控制的虚拟世界。在参数为 11B 时，Genie 可被视为一个基础世界模型。

2024-03-05 02:24:38 849

原创【EAI 028】Video as the New Language for Real-World Decision Making

视频数据捕捉到了难以用语言表达的物理世界的重要信息。本文研究了扩展视频生成功能以解决现实世界中的任务。视频可以作为一个统一的接口，吸收互联网知识并表现不同的任务。此外，视频生成如何像语言模型一样，通过上下文学习、规划和强化学习等技术充当规划器、Agent、计算引擎和环境模拟器。

2024-03-04 01:50:36 1033

原创【EAI 027】Learning Interactive Real-World Simulators

我们探讨了通过生成建模学习现实世界交互通用模拟器的可能性。我们首先提出了一个重要的观点：可用于学习现实世界模拟器的自然数据集通常在不同维度上都很丰富（例如，图像数据中的丰富物体，机器人数据中的密集采样动作以及导航数据中的各种运动）。

2024-03-03 22:03:08 1193

原创【EAI 026】RoboGen: 通过自动数据生成管线实现机器人技能学习

为机器人Agent提供了一个自我引导的建议-生成-学习循环：Agent 首先提出要开发的有趣任务和技能，然后通过用适当的空间配置填充相关物体和资产来生成相应的仿真环境。然后，agent将所提出的高级任务分解为子任务，选择最优学习方法（强化学习、运动规划或轨迹优化），生成所需的训练监督，然后学习策略以获得所提出的技能。

2024-02-26 06:00:00 1137 1

原创【EAI 025】Ego4D: Around the World in 3,000 Hours of Egocentric Video

数据集 Ego4D：在规模（时长，相机佩戴者，标注数量，地理位置等），多样性（室内和室外，任务数量等）和真实感（真人佩戴相机）方面更上一层楼的第一视角的日常活动数据集，大多数是无脚本化（不指定相机佩戴者要执行什么活动）和in the wild的。“4D” 的含义是第一视角获取的 3D 空间信息 + 时间信息。5 个基准任务阐明研究课题：涵盖了第一视角感知的基本组成部分——索引过去的经验，分析当前的互动，预测未来的活动。

2024-02-25 18:41:16 1408

原创【EAI 024】RoboVQA: Multimodal Long-Horizon Reasoning for Robotics

提出了一个包含多种任务，多种具身环境收集的机器人问答数据集，并探讨了在现有多模态数据集上训练出来的最先进的视觉语言模型能否在现实世界中高精度地执行落地任务。

2024-02-25 11:36:26 1284

原创【EAI 023】Self-Instruct: Aligning Language Models with Self-Generated Instructions

人类编写的指令数据，而这些指令数据在数量、多样性和创造性方面往往是有限的，因此阻碍了微调后模型的通用性。我们引入了 SELF-INSTRUCT，这是一个通过自引导来提高预训练语言模型的指令遵循能力的框架。

2024-02-24 11:45:14 958

原创【EAI 022】AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents

我们提出了 AutoRT 系统，该系统利用现有的基础模型，在完全看不见的场景中，以最少的人工监督，扩大可操作机器人的部署规模。AutoRT 利用 VLMs 进行场景理解和执行，并进一步利用 LLM 提出多样化的新指令，供机器人机群执行。

2024-02-14 20:43:38 1476

原创【EAI 021】RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches

我们提出了一种使用这种粗略轨迹草图的策略调节方法，我们称之为 RT-Trajectory，这是实用的，易于指定的，并且可以让策略有效地执行原本难以执行的新任务。

2024-02-14 20:38:20 1283

原创【EAI 020】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

本文介绍了扩散策略（Diffusion Policy），这是一种生成机器人行为的新方法，它将机器人的视觉运动策略表示为条件去噪扩散过程。Diffusion Policy 可以学习动作分布得分函数的梯度，并在推理过程中通过一系列随机 Langevin 动力学步骤对该梯度场进行迭代优化。

2024-02-12 10:55:23 1403

原创【EAI 019】Eureka: Human-Level Reward Design via Coding LLM

EUREKA 利用最先进的 LLM 对奖励代码进行进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。在没有任何特定任务提示或预定义奖励模板的情况下，EUREKA 生成的奖励函数优于人类设计的专家奖励。

2024-02-12 08:50:24 1997

原创【EAI 018】VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

大多数模型仍然依赖于预定义的运动基元来实现与环境的物理交互，这仍然是一个主要瓶颈。这项工作的目标是在给定开放指令集和开放物体集的情况下，为各种操作任务合成机器人轨迹，即 6-DoF 末端执行器导航点的密集序列。

2024-02-11 23:45:42 1000 1

原创【EAI 017】Interactive Language: Talking to Robots in Real Time

我们提出了一个在现实世界中构建交互式，实时，自然语言可指令机器人的框架，并开放了相关资产（数据集，环境，基准和策略）。在一个包含数十万条语言标注轨迹的数据集上进行行为克隆训练后，所生成的策略能熟练执行的指令数量比以前的工作多出一个数量级。

2024-02-11 13:50:25 1151

原创【EAI 016】VIMA: General Robot Manipulation with Multimodal Prompts

我们开发了一个新的模拟基准，其中包括数千个程序化生成的带有多模态提示的桌面任务，用于模仿学习的 600K+ 专家轨迹，以及用于系统泛化的四级评估协议。我们设计了一个基于Transformer的机器人智能体 VIMA，它能处理这些提示并自动输出运动动作。

2024-02-11 11:41:02 2085

原创【EAI 015】CLIPort: What and Where Pathways for Robotic Manipulation

我们提出了一个结合了两方面优点的框架：一个具有语义和空间路径的双流架构，用于基于视觉的操作。具体来说，我们提出的 CLIPORT 是一种语言条件模仿学习 agent，它结合了 CLIP 的广泛语义理解（what）和 Transporter [2] 的空间精度（where）。

2024-02-11 09:35:06 1106

原创【EAI 014】Gato: A Generalist Agent

受大规模语言建模进展的启发，我们采用类似的方法来构建一个超越文本输出领域的通用智能体（Agent）。我们将这种 Agent 称为 Gato，它是一种多模态，多任务，多具身的通用策略。

2024-02-10 23:00:09 1038

原创【EAI 013】BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning

从模仿学习的角度切入使基于视觉的机器人操作系统能够泛化到新任务的问题，旨在研究如何扩展和拓宽所收集的数据来促进这种泛化。为此，开发了一个交互式的灵活模仿学习系统，该系统既能从演示中学习，也能从干预中学习，并能以传达任务的不同形式的信息为条件，包括经过预训练的自然语言嵌入或人类执行任务的视频。

2024-02-10 19:30:32 1495

原创【EAI 012】Inner Monologue: Embodied Reasoning through Planning with Language Models

在具身环境中使用的 LLM 在多大程度上可以在没有任何额外训练的情况下，对通过自然语言提供的反馈源进行推理。我们认为，通过利用环境反馈，LLMs 能够形成内心独白，从而在机器人控制场景中进行更丰富的处理和规划。

2024-02-09 17:00:12 978

原创【EAI 011】SayCan: Grounding Language in Robotic Affordances

通过预先训练的技能（skills）来提供真实世界的基础，这些技能用于约束模型，以提出既可行又符合上下文的自然语言行动。机器人可以充当语言模型的 "手和眼睛"，而语言模型则提供有关任务的高层次语义知识。

2024-02-09 11:57:43 1181

原创【EAI 010】MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

为了实现具身Agent主动与3D环境中的物体交互并动态收集其多感官信息的能力，提出了名为 MultiPLY 的多感官具身LLM，它可以将包括视觉，听觉，触觉和热力信息在内的多感官交互数据纳入LLM，从而建立词语，动作和感知之间的关联。

2024-02-04 08:15:00 1807

原创【EAI 009】Octopus: Embodied Vision-Language Programmer from Environmental Feedback

本文提出了名为 Octopus 的 VLM，旨在熟练解译Agent的视觉和文本任务目标，制定复杂的行动序列并生成可执行代码

2024-02-04 08:00:00 998

原创【EAI 008】RT-2：Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

研究如何将在互联网规模数据上训练的视觉语言模型直接纳入端到端机器人控制，以提高泛化能力并实现新兴语义推理能力。

2024-01-13 11:00:11 1142

原创【EAI 007】Mobile ALOHA：一个低成本的收集人类示教数据的双臂移动操作硬件系统

利用 Mobile ALOHA 收集的数据，进行了有监督的行为克隆，并发现与现有静态 ALOHA 数据集进行联合训练可提高移动操作任务的性能。

2024-01-09 03:30:29 2126

原创【EAI 006】ChatGPT for Robotics：将 ChatGPT 应用于机器人任务的提示词工程研究

重点评估了不同提示工程技术和对话策略在执行各类机器人任务时的有效性。研究涵盖了机器人领域的一系列任务，从基本的逻辑，几何和数学推理一直到复杂的领域，如空中导航，操纵和具身智能体。

2024-01-08 00:25:32 1549

原创【EAI 005】EmbodiedGPT：通过具身思维链进行视觉语言预训练的具身智能大模型

本文提出了 EmbodiedGPT，它是一种端到端多模态具身人工智能基础模型，赋予具身智能体多模态理解和执行能力。

2024-01-08 00:20:11 1578

原创【EAI 004】LLM+P：借助LLM和PDDL赋予机器人最优规划能力

第一个将经典规划器的优势融入 LLM 的框架。LLM+P 接收规划问题的自然语言描述，然后用自然语言返回解决该问题的正确计划。LLM+P 首先将语言描述转换成用 PDDL 编写的文件，然后利用经典规划器快速找到解决方案，再将找到的解决方案翻译回自然语言。

2024-01-07 21:35:44 1727

原创【LMM 016】3D-LLM：将 3D 点云特征注入 LLM

3D-LLMs 可以将3D点云及其特征作为输入，并执行各种与3D相关的任务，包括图像描述，密集图像描述，3D问题解答，任务分解，3D grounding，3D辅助对话，导航等。

2024-01-07 03:20:43 1475

原创【LMM 015】LAMM：多模态指令微调数据集，框架和基准

LAMM 包括语言辅助多模态指令微调数据集，框架和基准。用于训练和评估 MLLM，促进AI智能体能够弥合想法与执行之间的差距，从而实现无缝的人机交互。

2024-01-07 02:40:10 1096

原创【LMM 014】NExT-GPT：能够输入和生成任意模态的多模态大模型

将 LLM 与多模态适配器和不同的扩散解码器连接起来，使 NExT-GPT 能够感知输入，并以文本，图像，视频和音频的任意组合生成输出。NExT-GPT 只需对某些投影层进行少量参数（1%）的微调。

2024-01-07 02:35:28 1355

原创【LMM 013】ImageBind: One Embedding Space To Bind Them All

IMAGEBIND 可以利用最新的大规模视觉语言模型，将其零样本能力扩展到新的模态。它能实现开箱即用的新兴应用，包括跨模态检索，用算术合成模态，跨模态检测和生成.

2024-01-07 02:29:17 964

原创【LMM 012】TinyGPT-V：24G显存训练，8G显存推理的高效多模态大模型

TinyGPT-V 以 Phi-2 为基础，将有效的语言骨干与 BLIP-2 或 CLIP 的预训练视觉模块相结合。TinyGPT-V 的 2.8B 参数可以经过独特的量化处理，适合在 8G 各种设备上进行本地部署和推理任务。

2024-01-06 20:18:46 1768

空空如也

空空如也