计算机视觉研究院-CSDN博客

转载保姆级！计算机视觉方向研究生留学申请攻略｜香港/澳门/新加坡/欧美/日韩等地区。...

港澳及国外地区研究生申请攻略学术背景要求：拥有你所申请专业的相关领域的认可学士学位跨专业很难被录取，除非非常优秀成绩优良GPA大学平均成绩——越好的大学对GPA的要求越高，一般TOP100为3.0+，TOP50为3.5+，GRE(Graduate Record Examination)——越好的大学对GRE要求越高，一般TOP100为315+，TOP50为320+。研究经验要求：学术型硕士，一般要...

2024-04-09 11:30:15 36

原创干货 | 利用手持摄像机图像通过卷积神经网络实时进行水稻检测

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式获取论文：关注并回复“水稻”计算机视觉研究院专栏Column of Computer Vision Institute小农户在全球粮食供应中发挥着重要作用。随着智能手机越来越普及，它们使小农能够以非常低的低成本收集图像。PART/1摘要在本研究中，研究者提出了一种有效的深度卷积神经...

2024-01-07 10:30:55 891

原创 YoloV8与ChatGPT互通，这功能是真的强大！

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式参考地址：https://github.com/ultralytics/ultralytics计算机视觉研究院专栏Column of Computer Vision Institute现在的ChatGPT都是输入文字、图片或者语音，那如果将检测网络或者更上层一点的东西，把视觉与ChatG...

2023-07-12 08:26:47 282

转载总结！大模型微调（Tuning）的常见方法

随着大模型的飞速发展，在短短一年间就有了大幅度的技术迭代更新，从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等，几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能，并制作了大模型微调技能图谱，希望可以帮助大家将知识体系梳理清楚，为未来在大模型的工作与科研道路上节省时...

2024-04-18 12:27:06 15

转载 5个步骤得到高质量顶会idea，牛！

一个高质量的创新点通常具备以下特点：原创性：好的创新点应该是新颖的，能够提供与众不同的视角或解决方案，而不是简单重复已有的研究。重要性：创新点应当针对领域内的重要问题或挑战，其研究成果能够对学术界或实际应用产生显著影响。可行性：一个实用的创新点应当是可实施的，能够在有限的时间和资源内得到验证和实现。清晰性：好的创新点应当表述清晰，易于理解和交流，能够让同行和读者快速把握其核心思想。扩展性：...

2024-04-17 17:00:58 14

转载 “大模型”根基—Transformer的360篇论文大盘点

2017年，来自谷歌的几个研究员写下《Attention is All you need》的题目，给世界带来了Transformer模型架构，它成为了今天“大模型”繁荣背后无可争议的根基。 OpenAI的GPT，Meta的Llama以及一众最主流大语言模型都是在Transformer的基础上生长起来,某种程度上，今天所有AI模型层面的研究都在围绕对Transformer的掌控与超越展开。如何快...

2024-04-16 11:00:44 43

转载 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2312.03502.pdf项目地址：https://github.com/Zhang-Haojie/WeSAM论文标题：Improving the Generalization of Segmentation Foundation M...

2024-04-16 11:00:44 25

转载马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。在 Grok-1 开源后不到一个月，xAI 的首个多模态模型就问...

2024-04-15 11:00:17 7

转载 Meta宣布全新训推一体加速器：完全集成PyTorch 2，性能3倍提升

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision InstituteMeta 疯狂砸入数十亿美元，一部分招揽人才，一部分造芯片。Meta 正在不遗余力地想要在生成式 AI 领域赶上竞争对手，目标是投入数十亿美元用于 AI 研究。这些巨资一部分用于招募 AI 研究员。但...

2024-04-15 11:00:17 6

转载自动驾驶毫米波雷达必知必学15个知识点

毫米波雷达技术起源于20世纪40年代，最初应用于船用导航等领域。因其独特的全天候工作能力、对恶劣天气的适应性以及较高测速精度能力，毫米波雷达成为了自动驾驶领域关键的传感器之一。在自动驾驶系统中，毫米波雷达主要用于实现自适应巡航控制（ACC）、前碰撞预警（FCW）、盲区检测（BSD）、变道辅助（LCA）等多种高级驾驶辅助系统（ADAS）功能。目前，毫米波雷达正朝着4D雷达的方向发展。4月16日来研梦...

2024-04-14 12:00:53 30

转载 7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式还可以处理高难度算法题，比如经典的分糖果问题，通过贪心的策略，以左右两次遍历的方式得到最少糖果数。再来看 aiXcoder 7B Base 版更得心应手的代码补全场景，比如长上下文补全。这里用多个工具函数拼成 1500 多行的代码，要求模型在文件末端进行注释补全，模型识别到了文件顶部的相关...

2024-04-12 11:00:29 33

转载 2024年，还能靠爆火的transformer发顶会吗？

Transformer模型，作为深度学习领域中的一次重大突破，为自然语言处理（NLP）领域的发展注入了新的活力。ChatGPT和Sora这两个应用便是Transformer强大能力的生动体现，它们分别将Transformer应用于对话生成和文本到视频的转换，展现了Transformer的广泛适用性和巨大潜力。我们邀请到英国某名校博士，top一区期刊最佳论文获奖者Henry老师为我们带来——引爆顶会...

2024-04-11 11:30:44 27

转载谷歌DeepMind发布Gecko：专攻检索，与大7倍模型相抗衡

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision InstituteGecko 是一种通用的文本嵌入模型，可用于训练包括文档检索、语义相似度和分类等各种任务。文本嵌入模型在自然语言处理中扮演着重要角色，为各种文本相关任务提供了强大的语义表示和计算能力。在语义表示上，文...

2024-04-08 11:31:13 22

转载马斯克造大模型，从特斯拉连挖高管

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute要不他们可能就跳槽到 OpenAI 了。当全球首富埃隆・马斯克（Elon Musk）建立 xAI，准备与 OpenAI、谷歌竞争大模型时，他必须与众多科技巨头、初创公司争夺人才。不过，他使用了一些取...

2024-04-07 11:30:26 22

转载王炸更新！YOLO v9颠覆实时目标检测领域（含yolo全系列）

YOLOv9的变化相对较小，它仍然基于YOLOv5的代码架构。这就意味着YOLOv5、YOLOv7和YOLOv9实际上是“同一个框架”。如果你已经熟悉其中一个，那么你将能够轻松掌握另外两个。研梦非凡请一线车企高级算法工程师Frank导师从yolo v9的两个创新点开始，到网络结构、实验、代码详细讲解，带你搞定yolo v9算法！扫码预约4月8号《前沿算法论文解读系列直播——YOLOV9算法详解...

2024-04-06 13:30:34 99

转载比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA...

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空消耗依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑战，原先在计算机视觉领域流行的 LoR...

2024-04-02 10:40:23 38

转载深度学习部署、大模型/多模态的全栈学习社区汇总！

今年来，各家自动驾驶与AI公司开始规模化量产，可落地的技术成为大家争先占领的重点，然而这个行业对从业者能力要求较高，内部非常卷，一个岗位难求。如何从内卷中脱颖而出，除了极强的自律外，系统的学习方法也很重要，这里给大家推荐了几个国内非常具有影响力的自动驾驶、计算机视觉和AI方面的优质社区，对入门学习以及后续进阶很有帮助！StrongerTang机器人、自动驾驶人才聚集地，感知融合、定位建图、规划控制...

2024-03-30 12:35:45 32

转载自动驾驶idea｜在线矢量化高清地图构建的结构化建模和学习

高清（HD）地图提供了丰富而精确的驾驶场景环境信息，是自动驾驶系统规划中不可或缺的基本组成部分。MapTR一种高效在线矢量化高清地图构建的端到端结构框架：它采用简单的编码器-解码器-转换器架构和分层二分匹配来执行基于所提出的置换等价建模的地图元素学习。研梦非凡邀请某知名研究所研究员周导师在3月29日晚19:20，带大家从MapTR的算法框架中地图元素建模方法到MapTR框架应用于自动驾驶领域的实现...

2024-03-29 11:31:20 29

转载三区的idea，最后发了顶会

如果你的导师属于课题让你自己找，没钱，没资源，也没法做指导，唯一会的技能就是问进度的话！那么，管他几区的ieda，动起来再说！很多同学可能不知道idea怎么找，不确定自己的idea能否实现，做科研的流程有什么步骤，没有科研经验，导师又有他自己的想法，写论文也没可以手把手指点的人。那就来找研梦非凡！研梦非凡《7节论文写作指导课》，带你从读论文⌈学会发现idea⌋开始到写论文⌈搞定Baselines，...

2024-03-26 10:01:21 31

转载裁员了，很严重，大家做好准备吧！

作为席卷全球的新概念ESG已成为当前各行业关注的最热风口“ESG岗位月薪炒到15万”的话题更是不绝于耳近期国内官方发布了一项ESG新证书含金量五颗星、完整ESG考试体系、名师主讲...甚至在各大行业圈内成为大佬们的热门话题...当前各大行业圈裁员又降薪下大家还是多留一手准备冲一冲这个新兴领域01 ESG为什么重要？在双碳的大背景下，ESG已然成为了各个行业关注的发展重点战略板块。无论是科技企业还是...

2024-03-26 10:01:21 36

转载离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文标题：GLEE: General Object Foundation Model for Images and Videos at Scale论文地址：https://arxiv.org/abs/2312.09158代码地址：https://github.com/FoundationV...

2024-03-26 10:01:21 35

转载审稿人：顶会文章评定标准

如果你的导师属于课题让你自己找，没钱，没资源，也没法做指导，唯一会的技能就是问进度的话！那么，管他几区的ieda，动起来再说！很多同学可能不知道idea怎么找，不确定自己的idea能否实现，做科研的流程有什么步骤，没有科研经验，导师又有他自己的想法，写论文也没可以手把手指点的人。那就来找研梦非凡！研梦非凡《7节论文写作指导课》，带你从读论文⌈学会发现idea⌋开始到写论文⌈搞定Baselines，...

2024-03-25 13:00:14 29

转载 CVPR 2024 | 一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文标题：GLEE: General Object Foundation Model for Images and Videos at Scale论文地址：https://arxiv.org/abs/2312.09158代码地址：https://github.com/FoundationV...

2024-03-24 18:30:54 47

原创 Github 4.8k Stars! | CodeFormer: 地表最强AI马赛克去除神器! (附实战教程)

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式项目地址：https://shangchenzhou.com/projects/CodeFormer/#method先来一组效果图：转换前：转换后：计算机视觉研究院专栏Column of Computer Vision Institute模糊的脸恢复是一个高度不适定的问题，通常需要辅助指导...

2024-03-22 13:30:28 829

转载如何从头开始编写LoRA代码，这有一份教程

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式项目地址 https://github.com/xai-org/grok-1计算机视觉研究院专栏Column of Computer Vision Institute作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为...

2024-03-21 11:31:08 39

转载 Transformer语义分割性能吊打一切卷积方法

掌握SETR、Segmenter、Segformer、MaskFormer和Mask2Former等基于Transformer的语义分割模型的结构和应用；深入了解基于Transformer的语义分割算法的发展历程和原理；理解Transformer在语义分割中的优势及其主要思路；分析基于Transformer的语义分割模型在各领域的应用前景。研梦非凡3月25日19:20邀请顶会顶刊审稿人985博士L...

2024-03-21 11:31:08 83

转载马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式项目地址 https://github.com/xai-org/grok-1计算机视觉研究院专栏Column of Computer Vision Institute开源社区有福了。项目地址 https://github.com/xai-org/grok-1pip install -r r...

2024-03-20 11:30:20 62

转载晚一步发论文，差距真的挺大的。。。

万物皆卷的时代，升学、就业的竞争越来越激烈，想要保研、申博、进大厂，没有高质量论文在手就相当于“裸奔”！尤其是这个人人惶恐又内卷的时代，想要抓住点什么来增强安全感。有一份拿得出手的成绩——发论文的数量和质量无疑是最好的背书。手握一篇甚至多篇高质量的论文，就是学术成果最好的展现，当然它也意味着未来更优质的工作和薪酬。但是论文很多人来说，是一种挑战。大部分同学的困难不是不想发，而是……1、不知该如何对...

2024-03-20 11:30:20 32

转载苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2403.09611.pdf计算机视觉研究院专栏Column of Computer Vision Institute苹果也在搞自己的大型多模态基础模型，未来会不会基于该模型推出相应的文生图产品呢？我们拭目以待。监督微调结果最后，研究者...

2024-03-16 17:30:39 112

原创太强了！斯坦福继Flash Attention V1和V2又推出Flash Decoding

背景知识Hardware角度GPU Software 编程角度Hardware和Software的联系研梦非凡的导师来自海外QStop80、国内华五、C9、985高校的教授/博士导师/博士后，世界500强公司算法工程师，国内外知名人工智能实验室研究员。（以下仅展示部分导师）导师均来自科研一线，购买联系助教后，可根据学员需求匹配导师库导师～～

2024-03-16 16:11:23 888

转载智能体的ChatGPT时刻！DeepMind通用AI向人类玩家进化，开始理解游戏

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文下载|回复“DSGN”获取源码论文：https://arxiv.org/pdf/2001.03398.pdf计算机视觉研究院专栏Column of Computer Vision Institute在 AI 智能体这个领域，谷歌 DeepMind 又有了一项里程碑式研究。视频游戏是...

2024-03-15 11:31:45 38

转载 350亿参数、开放权重，Transformer作者创业后推出新大模型

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute开源大语言模型宇宙又来了一个强劲对手。Transformer 作者参与创立的Cohere公司推出的大模型Command-R 在可扩展、RAG和工具使用三个方面具有显著的优势。今天，由 Trans...

2024-03-14 10:30:32 23

原创 YOLOv9

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute现在的深度学习方法侧重于如何设计最合适的目标函数，使模型的预测结果最接近实际情况。同时，必须设计一种适当的架构，该架构可以促进获取足够的信息用于预测。PART/1前言现有的方法忽略了一个事实，...

2024-03-13 11:30:51 781

转载 OpenAI开源了：Transformer自动debug工具上线GitHub

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute不用敲代码，就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI，突然开放了一次。今天一早，OpenAI 机器学习研究员 Jan Leike 宣布，OpenAI 开放了自己内部一直用于分析 ...

2024-03-13 11:30:51 67

转载招贤纳士，春季招聘来了！帮忙内推

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute招聘算法工程师、前后端工程师！开发工程师【职位描述】1，负责AI平台后台服务开发和维护；2，负责用户需求收集、整理，需求到软件需求的分解；3，能够持续研究Java后端服务前沿技术；4，有较强的...

2024-03-13 11:30:51 24

原创 SuperYOLO：多模态遥感图像中的超分辨率辅助目标检测（附源代码）

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式源码地址：https://github.com/icey-zhang/SuperYOLO计算机视觉研究院专栏Column of Computer Vision Institute准确及时地从遥感图像中检测包含数十个像素的多尺度小物体仍然具有挑战性。大多数现有的解决方案主要设计复杂的深度神经...

2024-03-13 11:30:51 1020

转载比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式项目地址：https://github.com/Dao-AILab/flash-attention技术报告：https://tridao.me/publications/flash2/flash2.pdf计算机视觉研究院专栏Column of Computer Vision Institu...

2024-03-12 11:30:32 36

转载把大模型压缩到了1bit，放到手机里跑的愿望快要实现了！

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文标题：OneBit: Towards Extremely Low-bit Large Language Models论文地址：https://arxiv.org/pdf/2402.11295.pdf计算机视觉研究院专栏Column of Computer Vision Institut...

2024-03-12 11:30:32 28

转载突破内存瓶颈，让一块4090预训练7B大模型

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/abs/2403.03507论文标题：GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection计算机视觉研究院专栏Column of Computer Visio...

2024-03-12 11:30:32 170

转载超越Transformer，突破大模型注意力层瓶颈

斯坦福大学此前提出的FlashAttention算法，能够在BERT-large训练中节省15%，将GPT训练速度提高2/3。此后又提出FlashAttention V2，拥有了更好的并行性和工作分区，让计算提速200%，上下文长度扩展更任性！Flash-Decoding不仅借鉴了FlashAttention的优点，同时可以显著加快推理过程中的注意力，使非常长的序列的生成速度提高8倍。也可以极大提...

2024-03-12 11:30:32 39

中文语音识别模型数据集

简单明了的贝叶斯网络介绍

vatic安装文件

faster-rnn目标检测

Face++技术

深度学习合集

caffe学习资料

Caffe可视化

深度学习数据集标注

深度学习工具（Caffe）

深度学习代码

深度学习——keras

空空如也