夕小瑶-CSDN博客

原创 GPT、Claude、Gemini全系列模型免费白嫖方法

以前的对话模型，输出往往不超过20个字，字数稍微一多就开始结巴，或者输出没有营养的内容。注意，推理能力不等同于数学运算。你非要拿一堆加减乘除去考它，它肯定完蛋，因为现阶段的AI本质上还是基于统计学的，没有严格的数学定理的概念。这个模型是在整个互联网上训练的，可以说天文地理无所不知，甚至你问他一个特别学术的前沿算法，它往往都能跟你侃侃而谈。甚至有人不停的问他是男的女的，多大岁数，叫啥名字，然后问了几个无聊的闲聊问题后，觉得这个AI好像也没什么厉害的。总之，这个AI的特性就在于，使用者多强，它就会有多强。

2022-12-21 18:07:38 311615 5

原创微软来大招：手机部署堪比GPT3.5高性能大模型！

上周 LLaMa3 算是把关注度拉爆了，这才过了几天，微软已经宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-3.5 的性能了。▲图1. Twitter:@haouarin在token 上进行训练，整体性能与和相当，超越，而在token上训练，这意味着 Phi-3 数据利用率提高了约倍；将 Phi-3-mini 模型拓展到和大小，在。

2024-04-24 18:52:13 405

原创 2024 IEEE荣誉奖章揭晓！互联网之父，TCP/IP协议发明者Robert E. Kahn获奖

众望所归！Robert E. Kahn（罗伯特·E·卡恩）获得了2024年IEEE荣誉勋章，以表彰他“在分组通信技术和互联网基础方面的开创性技术和领导贡献”。

2024-04-24 18:48:06 456

原创比阿里EMO抢先开源！蔡徐坤“复出”唱RAP，腾讯AniPortrait让照片变视频，鬼畜区UP狂喜！看看哪家效果好

腾讯放了个大招，开源了Audio2Video大模型AniPortrait，话不多说，先看效果！1不得不说，从肌肉运动到连贯程度，效果都是相当惊艳的。可以预见，以后的视频网站的鬼畜区又有新工具了下面我们先来看看，这个模型究竟是个啥东西？

2024-04-24 17:27:45 158

原创超越OpenAI，谷歌重磅发布从大模型蒸馏的编码器Gecko

文本嵌入模型在自然语言处理（NLP）领域扮演着至关重要的角色。它们将文本转换为密集的向量表示，使得语义相似的文本在嵌入空间中彼此靠近。这些嵌入被广泛应用于各种下游任务，包括文档检索、句子相似度、分类和聚类。然而，创建一个既通用又高效的文本嵌入模型面临着巨大挑战。这些模型需要大量的训练数据来全面覆盖所需的领域和技能，而且，手动标注数据的过程既耗时又昂贵，通常还会带来不希望的偏见和缺乏多样性。近年来，大语言模型（LLMs）因其在各种领域的广泛知识和卓越的少样本学习能力而成为了一种强大的替代方案。

2024-04-22 21:51:46 753

原创今日arXiv最热NLP大模型论文：浙江大学：蒸一蒸，多Agent变成单一模型，效果更好

团结就是力量”，面对复杂多变的现实环境，multi-agent应运而生。相较于单打独斗的single-agent，multi-agent集结了多个功能各异的LLM，共同攻克难关。然而，这种协同作战的方式也带来了沉重的推理负担，限制了multi-agent在开放世界中的发展潜力。特别是在多模态环境下，视觉、音频、文本交织在一起，如何动态调整多模态语言模型（MLMs），以适应视觉世界的纷繁复杂，成为摆在我们面前的一大挑战。GPT-3.5研究测试： https://hujiaoai.cn。

2024-04-22 21:47:41 502

原创今日arXiv最热NLP大模型论文：微软发布可视思维链VoT，提高大模型空间想象力

此项研究提出了一种名为思维可视化(VoT)的技术，旨在通过可视化大型语言模型(LLMs)的推理过程来增强其空间推理能力。实验结果显示，VoT在多跳空间推理任务（如自然语言导航、视觉导航和二维网格世界的视觉切分）中显著提高了LLMs的表现，并超越了现有的多模型大型语言模型。其生成“心理影像”以利于空间推理的能力类似于人类的“心眼”过程，表明VoT在多模大型语言模型中具有潜在可行性。

2024-04-21 22:35:31 583

原创今日arXiv最热NLP大模型论文：面向不确定性感知的Language Agent

此外，为了匹配FireAct设置的训练数据量，我们还运行了额外的1000个示例，将成功训练轨迹的数量增加到HotpotQA的512个和StrategyQA的567个。有趣的是，在使用162个训练示例的HotpotQA上，FireAct的表现不如few-shot（6-shot）ReAct Agent，而在使用283个训练示例的StrategyQA上，则超过了ReAct。我们的实验验证了UALA在提高任务解决能力的同时，能有效减少对外部资源的依赖，展示了在智能Agent设计中考虑不确定性的重要性和价值。

2024-04-20 22:04:24 632

原创英伟达大跳水！一夜暴跌10%，市值蒸发2000亿

英伟达的暴跌被猜测有很多种原因！有人猜测是合作伙伴超微电脑（SMCI）在周五的一份新闻稿中宣布，将在4月30日公布第三季度的财务业绩，但未能如之前的惯例提供初步业绩。这种突然的变化在市场上引起了极大的不安，被市场解读为一种负面信号，导致投资者纷纷抛售其股票。因此，当超微股价大跌时，其影响迅速波及到整个行业，尤其是其主要合作伙伴英伟达。还有人猜测是美联署利息、有可能爆发战争等原因。虽然没办法定位到具体原因，但是奶茶决定问一下ChatGPT老师：那大家觉得背后的原因是什么呢？欢迎评论区一起讨论～

2024-04-20 22:01:55 546

原创微软刚刚发布了VASA-1：单张照片生成超现实真人视频，还没开源但是性能SOTA

区别于以往的方法，VASA-1不直接生成视频帧，而是根据声音和其他信号在潜在空间中生成整体面部动态和头部运动。VASA-1 的面部解码器将这些动作潜在编码生成视频帧，同时也将从输入图像中提取的外观和身份特征作为输入。在论文中，作者还研究了音频和头部姿态之间的同步性测量问题，并提出了一种新的度量方法，称为“Contrastive Audio and Pose Pretraining”（CAPP）分数。

2024-04-19 15:22:36 388

原创最强开源大模型 Llama 3震撼发布！开源模型将追上GPT-4，4000亿参数模型也在路上

就在昨晚，Meta官宣了开源的Llama 3 8B和70B版本。8B模型在多项指标中超越了Gemma 7B和Mistral 7B Instruct，而70B模型则超越了闭源的Claude 3 Sonnet，和Gemini Pro 1.5。此外Meta还有一个still training的400B+参数版本，它和GPT-4以及Claude 3的超大杯版本Opus性能差不多，最重要的是，它即将开源！

2024-04-19 15:20:03 693

原创 Stable Diffusion 3 API 发布！超越Midjourney v6和DALL-E 3

Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天，StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo API 的API接口服务。Stability AI 称仍在持续改进该模型，并没有说明发布日期。模型还没发布，但API先来了！官方宣传称SD3模型在文字到图像生成领域的表现达到或，尤其是在字体和提示遵循方面。GPT-3.5研究测试： https://hujiaoai.cn。

2024-04-18 21:54:48 848

原创波士顿动力抛弃液压机器人Atlas，推出全新电动化机器人，动作超灵活

本周，机器人科技巨头波士顿动力宣布液压Atlas退役，并推出了下一代产品——专为实际应用而设计的全电动Atlas机器人，这也意味着人形机器人迈出了商业化的第一步。

2024-04-18 21:51:21 775 1

原创离世界模型更近一步！Meta开源OpenEQA，评估AI Agent情景理解能力

Meta 刚刚推出的 OpenEQA，是第一个支持情景记忆和主动探索用例的开放词汇基准数据集，用来衡量 AI 代理对其环境的理解。▲图1. Meta 开源的 OpenEQA 基准，其中包含1600多个非模板问题，测试属性识别、空间理解、功能推理和世界知识等方面。OpenEQA 包含两个任务，一个是情景记忆 EQA，其中具身 AI 代理根据其对过去经验的回忆回答问题（就像刚才帮你回忆工牌位置的眼镜）。

2024-04-17 22:43:46 805

原创斯坦福发布法律指令数据集LawInstruct，统一17个辖区24种语言

在法律领域，语言模型（Language Models, LLMs）的发展一直面临着独特的挑战。法律文本的复杂性、专业术语的广泛使用以及对精确性和可靠性的极高要求，使得法律领域的自然语言处理（Natural Language Processing, NLP）任务变得尤为困难。近年来，随着大语言模型（Large Language Models，LLMs）的快速发展，我们见证了在多个基准测试中性能的显著提升，例如SuperGLUE、MMLU，以及各种人类考试，包括美国律师资格考试。

2024-04-17 22:40:27 622

原创今日arXiv最热NLP大模型论文：一文读懂大模型的prompt技术

在本文中，我们回顾了针对LLMs的高效提示方法，旨在提升LLMs的效率和性能。我们概述了当前领域内的相关工作，并深入探讨了这些方法的内在联系。从理论角度出发，我们对这些方法进行了深层次的抽象，并为LLMs的实践者们提供了一份开源项目清单，以便于在科研和商业部署中快速参考。高效提示方法的发展经历了从手动设计提示到自动优化提示的转变。在早期，研究者们通过手动设计提示来适应不同的任务，这一过程耗时且费力。随着时间的推移，人们开始探索基于梯度下降的提示调整方法，但这些方法并不适用于闭源的LLMs。

2024-04-16 21:33:04 637

原创李飞飞团队发布《2024年人工智能指数报告》，预测人工智能未来发展趋势

昨天，斯坦福大学 Human-Center Artificial Intelligence (HAI)研究中心发布了《2024年人工智能指数报告》。由斯坦福大学发起的人工智能指数（AI Index）是一个追踪 AI 动态和进展的非营利性项目，旨在全面研究 AI 行业状况，旨在促进基于数据的 AI 广泛交流和有效对话。HAI是斯坦福大学成立的由李飞飞教授与哲学家John Etchemend等领导的新部门。

2024-04-16 21:30:14 1165

原创北京大学&快手发布统一的图文视频生成大模型Video-LaVIT

1. 视频分解：关键帧与运动向量的提取Video-LaVIT模型的核心在于将视频分解为关键帧和时间运动。视频通常被分为多个镜头，每个镜头内的视频帧往往存在大量的信息冗余。因此，将视频分解为交替的关键帧和运动向量，关键帧捕捉主要的视觉语义，而运动向量描述其对应关键帧随时间的动态演变。这种分解表示的好处在于，与使用3D编码器处理连续视频帧相比，单个关键帧和运动向量的组合需要更少的标记来表示视频的时空动态，这对于大规模预训练更为高效。2. 视频标记化：高效的视频内容表示。

2024-04-15 16:28:46 1262

原创斯坦福发文：AI写论文比例激增，CS专业是重灾区，现状堪忧！

通过分析数百万篇论文，本文发现在ChatGPT发布后的短短五个月里，LLM迅速成为了许多学者修改论文的得力助手，特别是在计算机科学领域。大约17%的摘要，15.3%的引言使用大模型参与写作。计算机科学领域的技术更新节奏飞快，论文发表压力也如影随形。面对这样的挑战，研究人员可能更倾向于借助LLM这样的写作辅助工具。毕竟，谁不想在有限的时间里产出更多高质量的论文呢？除此之外，还可能因为计算机科学家们对LLM更为熟悉，更愿意尝试这种前卫的“写作神器”，以提升写作效率和品质。

2024-04-15 16:22:09 1251

原创 AskManyAI：一个GPT、Claude、Gemini、Kimi等顶级AI的决斗场

不仅内置了GPT、Claude、Gemini、Kimi等国内外的最强AI大模型，而且这些大模型都是最新版，比如前几天GPT-4刚出了2023-04-09的版本，这个网站第二天就更新上了。总之，如果你不想折腾，还想白嫖，那就可以直接走上面的传送门吧。一直以来很多人问我能不能有个稳定，不折腾的全球AI大模型测试网站，既能够保证真实靠谱，又能够保证稳定、快速，不要老动不动就挂了、出错或者漫长的响应。甚至，图片对话、文档上传、图生文、文生图、图文生图等，全都支持，甚至这么复杂的功能，也支持多AI一起回答。

2024-04-14 16:26:48 517

原创 GPT、Claude、Gemini全系列模型能免费白嫖了

不仅内置了GPT、Claude、Gemini、Kimi等国内外的最强AI大模型，而且这些大模型都是最新版，比如前几天GPT-4刚出了2023-04-09的版本，这个网站第二天就更新上了。总之，如果你不想折腾，还想白嫖，那就可以直接走上面的传送门吧。一直以来很多人问我能不能有个稳定，不折腾的全球AI大模型测试网站，既能够保证真实靠谱，又能够保证稳定、快速，不要老动不动就挂了、出错或者漫长的响应。甚至，图片对话、文档上传、图生文、文生图、图文生图等，全都支持，甚至这么复杂的功能，也支持多AI一起回答。

2024-04-13 23:23:45 270

原创 OpenAI反超Claude3，GPT4.5-Turbo正式版发布，AI王座再次易主

没想到，仅仅过了两个月，全球最强AI的宝座又易主了！没想到，仅仅过了两个月，全球最强AI的宝座又易主了！几个月前，Claude3 Opus全面超越GPT-4，全球的网友纷纷抛弃GPT，投向Claude3的怀抱，并纷纷分享Claude3带来的惊艳体验。如今，OpenAI再次用实力证明了，GPT依然是AI世界最强的玩家！

2024-04-13 20:07:02 972

原创 Sam Altman新动向！被曝公开撬金主微软的客户！

Sam Altman向大公司们推销ChatGPT企业版，这其中包括一些微软的客户！好好好！你小子怎么回事！金主的客户也不放过了是吧！根据路透社4月12日的报道，OpenAI首席执行官Sam Altman本月在旧金山、纽约和伦敦举办了数场活动，邀请了一百家以上的财富500强公司的高管参加。在这些活动中，他和其他OpenAI高管向与会的公司高层推介了面向企业的人工智能服务。GPT-3.5研究测试： https://hujiaoai.cnGPT-4研究测试： https://higpt4.cn。

2024-04-13 18:02:55 480

原创今日arXiv最热大模型论文：清华大学发布，ChatGML又添新功能，集成“自我批评”，提升数学能力

在优化大语言模型（LLMs）的过程中，研究者们面临着一个显著的挑战：如何在不牺牲语言理解能力的前提下，提升模型在数学问题解决方面的性能。传统的强化学习方法虽然能够提高文本生成的质量，但往往忽视了解决数学问题所需的准确性和逻辑一致性。为了解决这一问题，本文介绍了一种新颖的自我批判管道（Self-Critique Pipeline），旨在同时提升LLMs的数学和语言能力。自我批判管道包括两个主要阶段1. 拒绝性微调（Rejective Fine-tuning, RFT）

2024-04-13 18:00:49 524

原创今日arXiv最热大模型论文：清华大学发布，结合稳定扩散模型与ControlNet的AI辅助建筑设计方法

此外，文本到图像生成技术的应用，使得设计师能够通过文本提示控制和编辑建筑渲染图像，从而大大缩短了建筑设计初期阶段所需的时间，为设计师的创造力提供了无限可能性。这种技术的应用，通过遮罩，特定区域的生成建筑被修改，包括材料编辑、元素修改，实现了在保留整体建筑设计不变的同时，对特定元素进行实时的目标编辑。然而，这一过程的控制性仍然存在挑战，设计师需要使用特定的关键词来引导带有所需风格的图像的生成，并在控制建筑生成的几何细节方面面临挑战。然后，利用这些生成的质量模型，实现了从头到尾的建筑渲染生成。

2024-04-12 15:25:22 867

原创 AI芯片竞争白热化！Meta官宣最新AI推理芯片！性能提升300%，支撑Llama高负载计算

在算力为王的大模型时代，AI技术“三巨头”：微软，谷歌，Meta，在自研芯片领域卷的是热火朝天。最早是微软，在去年宣布基于台积电5nm技术制造了Azure Maia 100及Azure Cobalt 100芯片。前几天，谷歌也发布了自研数据中心芯片Axion，以应对高昂的AI竞赛成本。这次Meta又有了大动作，发布第二代芯片Meta Training and Inference Accelerator v2(MTIAv2)。GPT-3.5研究测试： https://hujiaoai.cn。

2024-04-12 15:23:01 853

原创音乐界Sora隆重发布！效果炸裂，超越Suno！根据指令生成定制音乐，原创续歌样样行！前谷歌Deepmind人员创建

火爆！预热了一周的 Udio 终于发布了，可谓是吊足了网友们的胃口，从展示的效果来看，确实没让网友们白等！

2024-04-11 12:53:37 322

原创 2023图灵奖得主揭晓！史上首位计算机和数学最高奖“双料王”诞生

计算理论涉及计算机科学的数学基础。它提出的问题包括“这个问题是否可以通过计算解决”和“如果这个问题可以通过计算解决，需要多少时间和其他资源？计算理论还探索高效算法的设计，虽然并不直接涉及改进计算的实际应用，但其研究成果是计算机科学各领域的基础，比如密码学、计算生物学、网络设计、机器学习和量子计算等。计算的随机性研究是计算理论的一个子集，从根本上来说，计算机是确定性系统，意味着给定特定的输入，算法的指令集将准确预测计算的输出。然而，现实世界充斥着难以预测的随机事件，如天气变化和量子现象。

2024-04-11 12:50:45 604

原创今日arXiv最热大模型论文：Dataverse，针对大模型的开源ETL工具，数据清洗不再难！

Dataverse作为一个开源的ETL管道库，旨在应对因LLMs的流行而激增的大规模数据处理需求。它以用户友好的区块化界面设计，使用户能够轻松添加自定义数据处理功能，同时也原生支持广泛使用的数据操作。此外，Dataverse通过与Spark和AWS EMR的无缝集成，提供了可扩展的解决方案，使用户能够处理不同规模的数据工作负载。我们设想Dataverse将成为LLM数据处理的中心枢纽，促进合作、知识交流，并最终加速该领域的进步。1. 优化和性能调整。

2024-04-10 18:43:40 1033

原创 Google 发布 CodeGemma：7B 力压 CodeLLaMa-13B

借网友的话一用：“开源模型的发布和改进真的太快了！！即便是 Google 这样的团队，我们也能看到它在大模型的浪潮下有点手忙脚乱，本来以为是碾压局的 CodeGemma，没想到还是感觉发布得略显匆忙。以 Google 的手笔，能在 500 B 的数据量下将 7B模型提高到 CodeLLaMa-13B（2500 B tokens）的水平，居然还是没有超过 DeepSeekCoder-7B。

2024-04-10 18:41:18 1143

原创黑科技！AI届的“指环王”，已接入ChatGPT和Gemini！一个戒指可操控手机和智能家居，韩国公司研发

你是否曾经畅想过，有朝一日，可穿戴设备作为智能助手，成为我们生活中不可或缺的一部分，甚至影响我们的决策和生活方式？近日，韩国科技公司VTouch推出了智能戒指“WIZPR Ring”，名字呼应了托尔金中土世界的传奇“One Ring”。随时随地，只要低声耳语就能方便地和AI交谈。GPT-3.5研究测试： https://hujiaoai.cnGPT-4研究测试： https://higpt4.cnClaude-3研究测试（全面吊打GPT-4）： https://hiclaude3.com。

2024-04-10 18:38:27 347 1

原创中科院发布大模型想象增强法IAG，无需外部资源，想想就能变强

IAG与IMcQA方法的贡献本研究提出了一种新颖的知识增强框架——想象增强生成（IAG），以及一个基于此框架的问题回答方法——IMcQA。IAG框架模拟人类在回答问题时补偿知识缺陷的能力，仅通过想象而不依赖外部资源。IMcQA方法通过显式想象和隐式想象两个主要模块，有效激活并利用LLMs内在的知识，获得更丰富的上下文。实验结果表明，IMcQA在开放域和闭卷设置中都显示出显著优势，无论是在分布内性能还是在分布外泛化方面。面临的挑战与未来研究方向。

2024-04-09 14:48:07 967

原创 iPhone上最强模型出现！性能超越GPT-4，Siri有救啦？

你有多久没用你的Siri了呢？对于一个曾市值超过三万亿美元的科技巨头，苹果在人工智能方向上的实力还值得大家期待吗？最近的一项论文里，苹果的研究团队提出了一种 ReALM 模型，参数量分别为 80M、250M、1B 和 3B，适合在手机、平板电脑等设备端运行。ReALM 通过将引用解析问题转化为语言建模问题，在解决各种类型引用解析问题上取得了显著的进展，它的能力还要超过GPT-4！

2024-04-09 14:45:39 967

原创 Scaling Laws 又失灵了？谷歌新研究：扩散模型不是越大越好

近年来，模型规模呈现出愈来愈大的趋势，越来越多的人相信“力大砖飞”。

2024-04-08 21:13:04 1051

原创今日arXiv最热大模型论文：人民大学发布，拯救打工人！Office真实场景下的大模型表格处理

本研究深入探讨了Transformer基础的语言模型在事实回忆任务中所采用的机制。在零样本场景中，发现特定的注意力头部能够识别出与任务相关的实体，例如国家名称，并将其传递给后续的多层感知器（MLP），以回忆出所需的答案，如首都名称。研究者引入了一种新的分析方法，旨在将MLP的输出分解为人类可理解的组成部分。通过这种方法，量化了跟随这些任务特定头部的MLP层的功能，发现在残差流中要么抹除要么放大来自个别头部的信息，并生成一个将残差流引向预期答案方向的组件。

2024-04-08 21:10:57 755

原创人民大学：揭示大语言模型事实召回的关键机制

本研究深入探讨了Transformer基础的语言模型在事实回忆任务中所采用的机制。在零样本场景中，发现特定的注意力头部能够识别出与任务相关的实体，例如国家名称，并将其传递给后续的多层感知器（MLP），以回忆出所需的答案，如首都名称。研究者引入了一种新的分析方法，旨在将MLP的输出分解为人类可理解的组成部分。通过这种方法，量化了跟随这些任务特定头部的MLP层的功能，发现在残差流中要么抹除要么放大来自个别头部的信息，并生成一个将残差流引向预期答案方向的组件。

2024-04-08 21:08:26 575

原创中科大发布Agent-FLAN，微调提升Agent能力

是一种新的大语言模型（LLM）代理能力微调方法，它通过对训练语料的精心分解和重新设计，使得语言模型在代理任务中的性能得到显著提升。Agent-FLAN的核心思想是将代理训练数据中的格式遵循和通用推理分离，使得微调过程更贴近模型原始的预训练领域——自然对话。这样做可以在不过度拟合特定格式协议的情况下，提取出LLM的纯粹代理能力。Agent-FLAN通过将代理任务进一步分解为LLM的基本能力的不同方面，如指令遵循、推理、检索和理解，提供了根据各能力不同学习速率的训练灵活性。

2024-04-07 15:46:58 613

原创量子计算获重大突破！微软和Quantinuum将量子计算错误率降低800倍，网友：AI算力的希望

量子计算的基本单元是量子比特（qubits），不同于传统计算机非0即1的比特（bits）。量子位可以通过量子叠加，同时处于0和1的状态，使得量子计算机拥有强大的并行处理能力。量子门（Quantum Gates）用于对量子比特进行操作，类似于传统计算机的逻辑门，它们能够改变量子位的状态，执行各种计算。

2024-04-07 15:42:15 894

原创今日arXiv最热大模型论文：从Twitter动态预测论文学术不端，人大发布

通过手动标记，本研究发现，那些含有指示文章问题的关键Twitter提及，在预测未来文章撤稿方面显示出相当高的精确度（约93%），尽管这类Twitter提及在所有提及撤稿文章的提及中所占比例相对较小。总体而言，Twitter提及在加强对问题文章的早期预警系统方面显示出了潜在的能力，从而减轻了错误信息的传播。以人类预测结果为基准，研究者发现表明，ChatGPT，尤其是GPT-4，在与人类判断更一致的预测方面，胜过了其他预测方法，如关键词识别和机器学习模型。

2024-04-05 22:58:51 650

原创中文大模型隐私保护哪家强？InternLM 与 Baichuan2 胜出！

此外，随着大语言模型强大的对话能力，越来越多的服务提供商将这些模型集成到他们的软件应用中，为用户提供各种新颖的交互体验，包括对话式推荐和电子邮件辅助。评估将在三种不同的背景设置下进行，每种反映模型隐私保护能力的不同方面：一般隐私信息评估、情境隐私评估和攻击下的隐私评估。值得注意的是，InternLM-7B 和 Baichuan2-7B 在特定攻击类型下显示出一定的能力拒绝侵犯隐私的请求，但总体上，没有一个模型在全方位防御中表现出强大的防御能力。以及加强模型对攻击提示的防御能力，以确保在实际应用中的安全性。

2024-04-05 22:56:38 473

空空如也

空空如也