- 博客(236)
- 收藏
- 关注
原创 jsonl文件介绍
要将数据保存为 .jsonl 格式的文件,你需要确保每条数据都是一个有效的 JSON 对象,并且将每个对象转换为 JSON 字符串后逐行写入文件。在 .jsonl 文件中,每一行包含一个完整的 JSON 对象,这些对象之间通过新行(换行符)分隔。.jsonl每一行都是一个独立的 JSON 对象,可以单独解析。这种格式特别适合日志数据、大型数据集、流数据处理以及需要增量加载或存储的场景。jsonl 文件格式是 JSON Lines 的缩写,它是一种文本格式,用于存储结构化数据,类似于 JSON。
2024-03-11 11:31:28 629
原创 转yolov5模型时,不转后处理部分
由于部署在硬件上的时候,后处理部分硬件处理不支持,需要挪到cpu上处理。320的,检测头删掉了40。将坐标变换部分跳过,不执行。
2024-01-26 11:19:33 376
原创 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
论文中指出,上面这些VQA问题,人类可以瞬间给出正确的答案,但是多模态给出的结果却是错误的。是哪个环节出了问题呢?还是视觉特征与语言模型间的特征没有对齐?作者将上述问题分成了9个类别(通过将涉及的问题和选项提供chatgpt,让chatgpt将这些问题归类)上图种左边是目前的多模态结构,中间部分是两部分特征线性相加,右边是交错混合的方式。为了评价多模态模型在这些任务上的表现,建立了MMVP-VLM的测试集。探索多模态模型种视觉编码器的缺陷。通过增加自监督特征,多模态模型的能力有了提升。
2024-01-20 16:32:52 684
原创 shell中的sort和uniq命令
的文本,当重复的行并不相邻时,uniq 命令是不起作用的。先对文本进行排序,然后执行。统计每行文本出现的次数。uniq的操作对象是。
2023-12-18 15:45:33 346
原创 多模态模型的语言幻觉和视觉幻觉
语言幻觉”是一种不基于感官输入的感知,而“视觉幻觉”是对正确感官输入的误解文章中设计了一系列的能表现语言幻觉和视觉幻觉的实验,共200对图像-问题-答案对。包括表格、地图、海报、视频帧等,以及修改后的图片,这些修改的图片只有小幅的修改,但是对于同一问题的答案是完全不同的。这些实验分为两大类视觉依赖型和视觉辅助型。视觉依赖型的问题的答案与图片的内容强相关(比如:图片的左上角是什么?)视觉补充型是一些常识型的问题(比如:提供一张中国地图,问上海和北京两个城市的面积,哪个更大 )
2023-11-02 17:02:36 245
原创 torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: -7)
在docker中运行时,由于配置的共享内存不足导致。新建docker时,
2023-10-31 14:39:49 1457
原创 新建包含cuda和cudnn的docker
背景:服务器的cudnn版本太低了,没有权限去修改。故新建包含cuda和cudnn的docker步骤。
2023-10-31 11:17:23 607 4
原创 BLIP2模型加载在不同设备上
现在大语言模型越来越大,占用的内存越来越多,这导致内存较小的设备无法体验大模型的效果。放在0号显卡上,其余模型放在cpu上。模型的名称在模型的index文件中。提供了将一个大模型分别加载在gpu和cpu上的方法。
2023-10-08 17:35:10 427
原创 关于睡眠的知识
白天活跃的突触比较多,晚上的少一些。晚上相当于是在“洗脑”。白天一直活跃的突触好比一直在运行的电脑,如果一直不睡觉,内存会满溢,晚上休息相当于是清理内存。
2023-09-19 09:24:38 125
原创 numpy.array形式的字典数据转成python类型的字典数据
你可以使用 ast.literal_eval() 函数将字符串转换为 Python 字典。首先,将 numpy.ndarray 对象转换为字符串,然后使用 ast.literal_eval() 函数将其转换为字典。
2023-08-17 16:12:02 535
原创 多模态模型评价
在选择图片中不存在的物品时,有3种方式“Random Sampling”、“Popular Sampling”和“Adversarial Sampling”。即,LVLM(Large Vision-Language Models)倾向于生成与描述中的目标图像不一致的对象。这篇文章主要是评价视觉-语言模型中出现“幻觉”的评价。(POPE,基于轮询的对象探测评估)。
2023-08-10 10:51:05 217
原创 windows下的txt文档,传到ubuntu后,每行后面出现^M,怎么处理?
注意:^M的输入方式是 Ctrl + v ,然后Ctrl + M。
2023-08-01 17:45:16 1207
原创 pytorch 中的 @ 和 * 运算符
做Hadamarda积是,要求两个矩阵是同型矩阵,a和b都是2*3的。相同位置元素进行相乘。做矩阵乘法时,要求两个矩阵的形状为[m,n]和[n,k],得到的是一个[m,k]的矩阵。是数学中的Hadamard积(哈达玛积)表示的是数学中的矩阵乘法,
2023-06-17 16:51:51 2469
原创 python图像模糊检测
通过对原始图像进行灰度变化,然后做拉式变换,求取拉式变换后的方差。相当于使用了拉普拉斯算子对原始图像做了一次滤波处理,然后取方差。
2023-06-13 19:31:59 817
原创 使用gradio搭建服务(一)
图片左边3个框是输入部分,显示的名字为传入参数的名字。右边的三个框是输出部分,名字是output中定义的label。
2023-06-07 15:17:30 1638
原创 图像处理中的仿射变换
图像的几何变换主要包括:平移、缩放、旋转、仿射、透视等等。图像变换是建立在矩阵运算基础上的,通过矩阵运算可以很快的找到不同图像的对应关系。理解变换的原理需要理解变换的构造方法以及矩阵的运算方法。图像的几何变换主要分为三类:刚性变换、仿射变换和透视变换,如下图:仿射变换是从一个二维坐标系变换到另一个二维坐标系,属于线性变换。通过已知3对坐标点可以求得变换矩阵。透视变换是从一个二维坐标系变换到一个三维坐标系,属于非线性变换。通过已知4对坐标点可以求得变换矩阵。二、图像基本变换。
2023-03-28 17:11:30 481
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人