自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(273)
  • 资源 (6)
  • 收藏
  • 关注

原创 信息网络协议基础_绪论

NDN的核心思想是以数据(或内容)本身而不是数据所在位置(即IP地址)为中心,这代表了一种从基于主机的网络模型(如当前的IP网络)向基于内容的网络模型的根本转变。特点: 支持高移动性:能够有效处理高速移动中的设备和用户,以及频繁的网络切换。更好地适应移动性和服务可靠性的需求。

2024-01-01 11:28:34 1069

原创 信息网络协议基础_IP网络服务质量

感觉流量调节的意思是, 如果低级别的流量僭越了, 那么给他调整一下, 避免潜在影响优先级高的流量.网络拥塞时会导致优先级高的流量的质量降低, 因此会把低优先级的流量丢弃. 延迟也是同理.

2023-12-30 17:21:27 685

原创 信息网络协议基础_IP移动网络管理

主机A已经跑到别的网络去了, 家乡代理把家乡网络中对A的邻居请求信息截获并把自己的MAC地址作为邻居公告返回.可以看到, 随着距离的增加, 路由公告, 绑定等流程占据了主要的时间, 因此, 代理移动IP让和一部分内容在网络层面上完成.

2023-12-30 15:26:31 441

原创 信息网络协议基础-IPv6协议

A,B,C,D类地址的开头都是固定的.MAC地址,全称为媒体访问控制地址,是网络设备用于通信的唯一标识符。一个标准的MAC地址由48位或64位组成,在48位MAC地址中,最初的24位通常是由IEEE指定的组织唯一标识符(OUI),用于标识设备制造商。后24位是由制造商分配的唯一值,确保每个设备的MAC地址是独一无二的。U/L位(Universal/Local):这是MAC地址的第七位(从左数第一个字节的第二个最低位)。U/L位用来指示该地址是全球唯一的(Universal)还是局部分配的(Local)

2023-12-27 16:15:58 1319

原创 信息网络协议基础-接入网技术

接入网: 把用户网络或者设备接入到Internet的网络.基于ATM架构: 传统电信网络(点对点), DSL(电话线);基于IEEE 802参考模型的局域网架构: 新兴IP网(共享), 以太网/无线局域网/无线城域网;光纤接入: 基于ATM(APON, GPON), 基于以太网(EPON).与DSL有所区别, 这里额外将信道的传输能力划分为了时隙, 并决定时隙的使用权.

2023-12-25 21:05:42 1352

原创 2-多媒体数据压缩国际标准-Part3

进一步去除视频/图像上的冗余.略。

2023-10-29 18:22:11 151

原创 2-多媒体数据压缩国际标准

在好的信道条件下,它可以使用更多的编码符号,减少每个符号的振幅(位数),从而实现高速传输,而在较差的条件下可以通过增加振幅来提高可靠性。Enhanced Full Rate (EFR) 编码:增强全速率编码是一种高质量的语音编码方法,采用更高的编码率(12.2 kbit/s)来提供更好的音质。总之,ACELP的思想是通过代数码激励、LPC分析和自适应性来高效地表示和编码语音信号,以实现高质量的语音传输和存储。编码器根据输入信号的特性来选择最佳的模型参数,以更好地匹配信号,从而提高编码效率和音频质量。

2023-10-28 22:04:11 415

原创 1-多媒体通信概述

3GPP: 第三代合作伙伴计划,是领先的3G技术规范机构,由欧洲的ETSI,日本的ARIB和TTC,韩国的TTA以及美国的T1在1998年底发起成立,其主要目标是实现由2G网络到3G网络的平滑过渡。AR:Augmented Reality,增强现实技术,运用多媒体、计算机视觉等技术,将计算机生成的问题、图像、3D模型、音乐等虚拟信息仿真后,应用到真实世界中,实现对真实世界的“增强”。感知媒体, 表示媒体, 显示媒体, 存储媒体, 传输媒体.处理对象的多样性: 视觉, 听觉, 触觉, 味觉, 嗅觉;

2023-10-27 22:00:55 484

原创 Prompt

添加文本的来源, 添加提取的要求.

2023-09-23 14:11:36 202

原创 LLaMa

LLAMA2 : 新的训练数据组织形式, 更大的预训练语料库, 更长的上下文, grouped-query attention.人类从模型的两个输出中选择喜欢的一个. 该反馈随后用于训练一个奖励模型. 该模型学习人类的偏好模式.提取高质量的部分数据, 模型的效果仍然得到提升. Quality is All You Need.通过在更多的token上训练, 使得在不同推理开销下, 达到最佳的性能.发现人类写的注释和模型生成+人工检查的注释效果差不多.对于示例一, prompt中提供了需要补全的文本.

2023-09-22 17:10:55 346

原创 多模态论文串讲(bryanyzhu老师)记录

第一个贡献为: Align before Fuse目标检测器得到的视觉特征和文本特征难以对齐(ViLT也抵制, 但是出发点是加快推理速度), 因为目标检测器提前训练好, 没有进行End2End的训练.那么如何在MultiModal之前, 让图文特征对齐?即提前用CLIPLoss对齐图文编码.第二个贡献为: Momentum Distillation.

2023-08-29 14:46:24 256

原创 CLIP改进工作串讲(bryanyzhu)内容记录

把图像和文本通过CLIP得到特征, 和原来的特征做拼接或点乘(L-Seg, ViLD);把CLIP作为Teacher来蒸馏预训练好的知识(CLIPasso);借鉴对比学习的思想, 定义自己的正负样本对并计算Loss(GroupViT).

2023-08-28 21:09:06 319

原创 Diffusion Model

原始分布通过生成模型得到目标分布, 目标分布应该与真实分布类似.目前的生成模型往往要求文字的影响:加上文字的condition本质上没有改变什么, 所以后续的推导不包括文本.

2023-08-27 11:41:08 179

原创 Training Technology Two : Torch.cuda.amp and Save

是PyTorch中的一种自动混合精度训练工具。它可以帮助开发者在保持模型训练精度的同时,提高训练速度和减少内存占用。在上述示例中,autocast()用于自动将前向传播、损失计算和反向传播的计算转换为半精度(FP16)运算。然后,GradScaler被用于缩放和反缩放梯度,以防止梯度下溢或溢出,并根据模型权重的尺度进行优化器步骤。本文根据, 节选部分知识.

2023-08-24 11:25:06 154

原创 Training Technology One : Distribution

本节内容以BLIP的分布式训练代码为蓝本介绍分布式训练的过程.本文采用DDP作为分布式框架, 库为torch.distributed.

2023-08-24 10:21:04 109

原创 在本地创建repository及上传至github

如果是仅针对某一repository的账户,那么可以删除。此时我们需要创建Pernal Access Token.添加当前文件夹下全部的修改内容, 此时, 我们需要在。目录,用于存储repository的所有信息.在github中创建repository.用户名为账号名称,密码为PAT的key.文件中将不需要关注的文件/文件夹写入.在repository文件夹下使用。将暂存区的内容提交至仓库.将修改内容添加至暂存区..也可参照官方文档.

2023-08-21 16:21:37 759

原创 视觉溯因推理

给定包含一系列事件的视频序列,对其中存在因果性的事件进行遮蔽操作,模型需要给出其余事件描述的同时,给出遮蔽事件的描述。对于视觉Token的编码器(Transformer结构),设计了上下文的、方向的位置编码策略;解码器(Transformer结构),设计了级联的策略,一阶段用于生成基本的语言Token,后续不断进行优化。关于优化,本文采用句子的置信度分数来引导句子之间的信息传递。

2023-07-19 14:42:57 320 1

原创 CLIP概述

目前的视觉模型通过一些预定义好的标签集合作为监督信号进行训练。这类做法局限于当前数据集,因此泛化性能差。出于这一理由,从文本当中获取监督信号,在四亿个图像文本对上进行无监督学习。零样本学习,在超过30个数据集上取得了不错的性能(迁移能力强)。CLIP的魅力在于不需要预定的标签,可以知道语句中是否存在图像内的物体。下游任务包含分类、检测、分割、风格迁移、视频检索…

2023-07-18 21:42:51 1405

原创 蒸馏_2022

在目标检测当中,老师的特征和学生的特征在不同的区域有很大的变化,尤其是在前景和背景中。因此,如果我们平等地蒸馏,特征图之间的差异会恶化结果。(PS:目标检测中的蒸馏会比对教师模型和原模型的特征图)翻译:前景不好学,背景很好学,如果这两部分内容进行一样地教授,效果不大好。因此,我们提出了聚焦且全局蒸馏。聚焦蒸馏分割前景和背景,强迫学生关注教师的关键像素及通道;全局蒸馏则重建不同像素之间的关系,并将这一知识传递给学生。

2023-04-04 22:43:35 570 1

原创 计算机组成原理题目汇总

MIP CPI Tc Fc相关的各种运算。计算机系统硬件组成有:运算器、控制器、存储器、输入设备、输出设备。包含…五个部分;以二进制代码表示程序和数据;采用存储程序的工作方式:程序和数据事先放在同一存储器中,由指令组成的程序可以修改;指令在存储器中按执行顺序存放,由指令计数器指明要执行的指令所在的单元地址,一般按顺序递增;机器以运算器为中心,数据传送都经过运算器。主频,即CPU内核工作的时钟频率,影响实际的运算速度,但并不起决定作用。CPU主频记为FcF_cFc​;

2023-01-04 19:15:06 467

原创 细粒度图像分类论文研读-2019

目前的工作以一种弱监督的方式解决细粒度图像分类问题:首先检测对象部分,然后提取相应的部分特定特征以进行细粒度分类。然而,这些方法通常孤立地处理每个图像的部分特定特征,而忽略他们之间的关系。本文提出了Cross-X学习,这是一种简单而有效,它利用不同图像之间的关系以及不同网络层之间的关系来实现鲁棒的多尺度特征学习。一个跨类别的跨语义正则化器,它引导提取的特征来表示语义部分;一个通过匹配多个层的预测分布来提高多尺度特征鲁棒性的跨层正则化器;本文的目的是将细粒度认知的问题空间划分为一些特定区域。

2022-12-15 23:24:55 1183

原创 细粒度图像分类论文研读-2018

依赖于对象或者局部注释,这需要很大的工作量;忽略对象与其各部分之间的相互关系以及各部分之间的相互关系。第二个问题是目前新出现的。Object-part attention model集成了两级注意:对象级注意定位图像中的对象,部分级注意选择对象的判别部分。两者共同用于学习多视图和多尺度特征,以增强他们的相互促进。Object-part spatial constraint model结合了两个空间约束:对象空间约束确保所选部分具有高度代表性,部分空间约束消除冗余并增强对所选部分的判别。

2022-12-15 21:38:10 966

原创 细粒度图像分类论文研读-2022

目前的工作主要通过关注如何定位最具识别度的区域并依靠它们来提高网络捕捉细微变化的能力来完成FGVC。这些工作中的大部分是通过RPN模块来提出绑定框并重新使用主干网络来提取所选框的特征。近年来,ViT在传统分类任务重大放异彩,其自我关注机制将每个patch的token连接到分类token。注意力连接的强度可以被直观地视为表征重要性的指标。本文中,提出了一个新的、基于transformer的结构TransFG。本文将所有原始注意力权重聚合为一个注意力图来指导网络有效且准确地选择有区分度的图像块并且计算他们之间的

2022-12-08 04:16:45 3376 2

原创 细粒度图像分类论文研读-2020

大部分现存的注意力模型在FGVC任务当中表现不佳,原因有以下几点:为了解决上述问题,本文提出了一种新的“过滤和蒸馏学习”(FDL)模型,以提高FGVC细分部分的区域关注度。首先,基于提议和预测之间的匹配性,本文针对有区分度的区域提议提出了一种过滤学习的方法。特别地,本文用了提议与预测的匹配性作为RPN的性能度量,从而实现了RPN的直接优化,以过滤得到最具有区分度的区域。具体来说,基于对象的特征学习和基于区域的特征学习被定义为“教师”和“学生”,这可以为基于区域的学习提供更好的监督。FDL可以有效地提升区域关

2022-12-07 19:30:45 1215

原创 细粒度图像分类论文研读-2017

细粒度视觉分类任务的成功依赖于各种语义部分的外观建模和相互联系。这一特性使得FGVC任务非常具有挑战性,原因有三点:为了解决上述问题,本文提出了一个基于分层卷积激活的高阶积分的端到端框架。通过将卷积激活作为局部描述,分层卷积激活能够作为来自不同尺度的局部表示。(卷积激活是什么?为什么可以作为局部描述?)本文提出了一个基于多项式核的预测器,目的是为了捕捉高阶统计量,用于建模零件之间的相互作用。为了模拟层间零件之间的相互作用,本文扩展了多项式预测器,通过核的融合来集成层次激活。全连接网络并不适合FGVC,而CN

2022-12-04 22:15:02 1012

原创 细粒度图像分类论文研读-2016

双线性模型很成功,但是双线性特征是高维的。因此,本文提出了两种紧双线性表示,具有与双线性表示相同的辨别能力,但只有几千维。本文提出的紧凑的表示允许分类错误的反向传播。

2022-11-28 18:02:13 896

原创 核函数简介

把数据送到另一个空间(通常具有高的维度);在新的空间找到一个线性关系(可以将数据分开)。如果映射选择合适,复杂的关系能够被简化。映射空间的几何性质可以通过内积来表示;内积的计算是简单的。k:X×X→Rk:X×X→R满足有限正半定当且仅当对于有限个样本xxx,它的内积矩阵是一个正半定矩阵。另外,思考4和5对应定理:Characterization of Kernels。

2022-11-27 16:52:02 2249

原创 细粒度图像分类论文研读-2015

本文提出了双线性模型,由两个特征提取器组成。其输出在图像的每个位置使用外积相乘并合并来获得图像的描述。这样一种结构可以建模局部的、成对的特征交互(以一种平移不变的方式),这对于细粒度分类尤其有用。这样一种结构还会产生各种无序纹理描述,比如Fisher向量、VLAD和O2P。双线性形式简化了梯度计算并允许仅使用图像标签对两个网络进行训练。

2022-11-24 23:10:59 701

原创 细粒度图像分类论文研读-2014

语义部件定位能够有助于细粒度分类。姿态归一化表征的方法已经提出,但是由于目标检测的困难性,在测试阶段需要假定一些目标框。本文通过利用自下而上的区域建议方法计算得到的深度卷积特征来克服这一限制(大概意思是解决对目标框的依赖)。本文提出的方法学习了对整体和局部的检测器,加强了他们之间的几何约束,并且从一个姿态归一化的表征中预测细粒度类别。(什么是姿态归一化表征?为什么要采用姿态归一化表征?)

2022-11-08 15:52:19 813 2

原创 细粒度图像分类论文研读-2013

将人类纳入循环,帮助计算机选择有区分的特征。本文介绍了一款名为“Bubbles”的游戏,揭示了人类使用的判别性特征。玩家的目标是识别严重模糊的图像类别。在游戏中,玩家可以选择暴露圆形区域的细节并受到一定的惩罚。在适当的设置下,游戏能够生成具有质量保证的、有区分度的气泡。之后,本文提出了”Bubble Bank“算法,利用人类选择的气泡来提高机器识别性能。提出了功能强大的流程图,称之为分层部件匹配模块来处理细粒度分类任务。

2022-11-08 13:25:05 1055

原创 细粒度图像分类论文研读-2012

目前大部分对一般目标的分类方法在细粒度图像分类上都不好使。这主要归咎于codebook-based image representation。这导致了对细粒度分类至关重要的细节图像信息丢失。解决这个问题的一个方法是引入人工标注的对象属性或者关键点。本文提出了一种无codebook以及无注释的细粒度图像分类方法。不使用失量化的codewords,而是通过一个高吞吐量的模板匹配过程来获得图像表示。相关属性是局部的,但如何选择这些局部属性的问题在很大程度上没有得到探索。

2022-11-07 18:25:37 1029

原创 细粒度图像分类论文研读-2011

是CUB-200的扩充版本(扩充了图片数量、增加了位置标注【bounding boxes、part locations、attribute labels】)。本文的方法的目的是为了探索细粒度图像的统计数据与检测有区分度的图像块来进行识别。为了达到这一目的,应用了区分度特征挖掘和随机化两种手段。区分度特征挖掘可以建模有区分度的细节信息,而随机化可以解决大的特征空间和阻止过拟合。本文提出了基于判别树算法的随机森林,其中每一节点是一个分类器。值得一提的是,这一分类器的训练是和上层的节点一起进行的。

2022-10-31 14:18:14 575

原创 Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration

介绍图像中实体之间的关系预测是SGG中的重要步骤,但是目前的方法无法建模没见过的三元组。本文认为这一问题的根源在于缺乏对常识的推理。因此,本文提出了集成常识的场景关系预测框架。

2022-10-26 17:43:52 459 1

原创 具身智能(Embodied AI)和食品计算

目前的AI都是旁观型的AI。以具体的物体“包”为例,人对于这一概念的理解往往能直击本质,而AI目前仅仅从外观上来判断。人之所以能举一反三,也正是因为理解了本质。在亲身交互中学习到现实世界的各种概念;在真实物理场景下正确执行任务。智能体能够与现实世界交互的过程中,完成学习和理解,这一能力称为具身智能。所需要涉及的任务不再是静态的。

2022-09-20 11:32:31 1157 2

原创 零样本学习&Domain-aware Visual Bias Eliminating for Generalized Zero-Shot Learning

传统的零次学习目的是从可见与不可见的domain中识别图像。最近的方法聚焦于学习一个联合的语义对齐视觉表征来在两个domain中迁移知识,然而这却忽视了semantic-freevisualrepresentation对于缓解偏差认知问题的影响。为了解决这个问题,提出了Domain-awareVisualBiasEliminatingnetwork。什么是semantic-alignedvisualrepresentation?......

2022-07-30 12:06:15 1097 2

原创 深度学习基础汇总

MP模型是最早的神经网络模型,描述的是一个神经元的工作机制。根据神经元的结构可知:神经元是一个多输入单输出的信息处理单元,并对信息的处理是非线性的。在这个基础上,MP模型应运而生:y=f(Σiwixi+b)y=f(\Sigma_{i}w_ix_i+b)y=f(Σi​wi​xi​+b)其中,fff是激活函数。感知机模型与MP模型十分类似,其fff采用了符号函数。多重感知机模型(MLP)则是神经元的组合与叠加。前馈神经网络是人工神经网络的一种形式,各神经元分层排列,每个神经元只与前一层神经元相连,接收前一层的

2022-06-27 23:53:38 930 1

原创 经典模型——Transformer

MLP、CNN、RNN后的第四大模型。序列转录模型主要是采用RNN或者CNN。里面常常包含一种编码器和解码器的结构。仅仅依赖于注意力机制。该篇文章主要是针对机器翻译做的。后来应用在了不同的领域。问题:注意力机制很早就和RNN有所结合,更好地实现了编解码器之间的数据交互。但是本文舍弃了RNN的结构,完全采用注意力机制来完成。用卷积神经网络对比较长的序列难以建模,需要用很多层卷积扩大感受野。卷积的优势在于有多个输出通道,每个通道可以学一个模式。因此,本文提出了多头的注意力模型。对于序列模型来说,编码器-解码器结

2022-06-27 20:47:55 2042

原创 经典模型——NiN&GoogLeNet

全连接层的问题:包含大量的参数。很容易过拟合。通常是输入通道数×图像尺寸×输出尺度输入通道数\times 图像尺寸\times 输出尺度输入通道数×图像尺寸×输出尺度NiN的思想是:完全不要全连接层;一个NiN块:卷积层之后跟两个1x1的卷积,步幅为1,无填充,输出形状和卷积层输出一样。起到了全连接层的作用(按照逐一像素)。NiN的架构:如果我们要得到1000类的话,最后就有1000个通道,每个做全局平均池化得到这一通道对应类的置信度。总结:参数用了Alex那一套,不过加了一些1x1的卷积。怎么选择最好

2022-06-25 16:27:27 813

原创 经典模型——ResNet

深度卷积神经网络的好处在于其层比较多,每一层都能捕捉不同的信息。从低级的视觉特征到高级的语义特征。但是层这么多是一件好事吗?显然不是,随着网络层次的加深,会出现梯度爆炸与梯度消失。常见的解决方案是好的初始化或者加入BN层。然而,虽然做了这些操作之后,模型收敛了,但是精度却下降了。这也不是过拟合造成的,因为训练误差和测试误差都上升了。如下图所示。进一步思考:按理来说,如果我浅层网络性能比较好的话,深层网络的性能不应该下降的。因为至少可以让新加的层成为一个identity mapping(恒等映射)。但是,简

2022-06-24 20:44:47 1646

原创 经典模型——AlexNet

为了识别更多的图像,我们需要一个有强大学习能力的模型。CNN是一个很好的选择。随着其深度和宽度的增加,其性能也有很大的提升。同时,相比于前馈神经网络,CNN有着更少的连接和参数。随着算力的提升,CNN有了用武之地,这也是为什么做CNN的原因。本文基于CNN设计了一个新的网络,包含5个卷积层和3个全连接层。同时,为了避免过拟合,用了一些特别的技术。直接裁剪256×256256\times 256256×256大小的图像,作为输入。里程碑:直接在raw image上进行训练。tanh和sigmoid存在梯度饱和

2022-06-23 17:17:41 831

C语言大作业-学生成绩管理系统

C语言大学课程作业 含课程报告 自我撰写 无抄袭无参考 满分 400行代码

2021-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除