Liekkas Kono-CSDN博客

原创 Knowledge-QA-LLM: 基于本地知识库+LLM的开源问答系统

Knowledge-QA-LLM: 基于本地知识库+LLM的问答系统。

2023-07-29 20:27:31 1366

原创 labelImg1.8.6在python3.10下使用

Label Studio是一个可以标注多种类型的标注工具，可以标注文本、图像和语音。但是有些情况下，我只想简单标注图像使用，还是比较倾向于使用labelImg。经过测试发现，现有labelImg仓库代码已经修复了类型错误，只是没有发布到pypi包中。如果直接使用pip安装的labelImg，会报float类型错误。labelImg 1.8.6 在python 3.7.2 下使用没有问题，但是现有Anaconda不再支持python3.7环境安装。

2024-04-22 09:20:33 207

原创 selenium 下载文件取消安全下载的方法

我要从一个网站上下载文件，谷歌浏览器总是自动阻止下载，并询问我是否保留。⚠️注意：必须设置selenium打开的浏览器哈！按照如上配置，无效，浏览器仍然有阻止行为。可是，我想要的是不要询问，默认下载即可。将自己要打开的网站地址添加到这里即可。

2024-04-18 22:12:49 353

原创开源OCR模型对比

面对这么多的模型，让我们有些不知所措。为此，最近一段时间以来，我一直想要构建这样一个基准，现在来看，已经初步具有雏形。以下结果均是基于以上 4 个库来的，其指标结果仅仅代表在指定评测集上效果，不代表在其他测试集上结果也是如此，仅供参考。以下表格中推理时间是基于 MacBook Pro M2 运行所得，不同机器会有差别，请侧重查看彼此之间的比较。目前，开源的项目中有很多 OCR 模型，但是没有一个统一的基准来衡量哪个是更好一些的。指标计算都是在相同参数下计算得来，差别仅在于模型文件不同。

2024-04-16 22:39:37 725

原创 filetype: python中判断图像格式库imghdr替代库

imghdr库是python中的一个内置库，用来判断图像原本格式的。自己一直有在用，不过近来看到这个库在python 3.13中会被移除。自己感觉一直被python版本赶着走。这不找了好久，才找到一个替代库–filetype。

2024-04-02 21:47:08 340

原创 LabelConvert: 目标检测和图像分割数据集格式转换工具

LabelConvert是一个目标检测和图像分割的数据集格式转换工具，支持labelme、labelImg与YOLO、VOC和COCO 数据集格式之间的相互转换。

2024-03-30 17:20:30 459

原创国内丐丐版overleaf--Write Papers Easy beta版来了

而国内高校毕业论文的LaTeX模板正处于野蛮生长阶段，学校认可的LaTeX毕业论文模板较少，大部分学生或者校友在自发维护。（关注本公众号，后台回复赞助，即可看到，注意添加备注。现在的终于可以平稳运行了。针对第二个痛点，结合znsoft大佬的实际需求出发，我们尝试在服务器上搭建了社区版的overleaf，znsoft大佬起名为。作为目前平台搭建和运营者，我是没有兴趣和想法去窥探他人隐私的，你可以放心使用。此刻，今年将要毕业的无数莘莘学子正在奋笔疾书写着自己的毕业论文，淹没于繁琐的论文排版格式中。

2024-03-26 20:08:06 464

原创 OCR-free相关论文梳理

Donut的结构有些像Text Spotting任务（检测和识别都在一个模型中完成），但是Donut做的要比Text Spotting任务更进一步。该工作将OCR中多个子任务都集成到了一个End-to-End的网络中，网络是基于transformer的编解码结构。这应该是第一篇将Transformer 编解码结构应用到整个OCR任务中的工作，包括文档分类、文档信息提取和文档问答三个任务。现阶段，Transformer技术的发展，让通用文档理解任务变得不再是那么遥不可及，出现了很多OCR-free的工作。

2024-03-13 08:28:31 870

原创无线表格识别模型LORE转换库：ConvertLOREToONNX

这次吸取教训，环境文件采用Anaconda导出的，更加详细记录当前转换环境。以下是转换仓库的README，感兴趣小伙伴可以点击文末的“阅读原文”跳转到转换仓库尝试。总有小伙伴问到阿里的无线表格识别模型是如何转换为ONNX格式的。这个说来有些惭愧，现有的ONNX模型是很久之前转换的了，转换环境已经丢失，且没有做任何笔记。今天下定决心再次尝试转换，庆幸的是转换成功了。

2024-03-10 15:08:50 248

原创近年来文本检测相关工作梳理

STKM工作是直接从image representations中decoding文本信息，本篇工作则通过仔细设计的pre-training任务（image-text contrasitive learning, masked language modeling, word-in-image predictioin）中，增加文本信息和图像信息的mutual alignment和cross-modal interaction，从而进一步增强backbone的能力。因此，两阶段的OCR方案一直是优先考虑的。

2024-03-09 20:42:43 1029

原创论文阅读：Vary-toy论文阅读笔记

如何基于Vary-tiny + pipeline产生一个更加practical vision vocabulary？如何在不损坏Qwen-1.8B模型特征前提下，利用new vision vocabulary来使Vary-toy-1.8B产生新的特征？

2024-01-24 21:46:53 1190

原创论文阅读：Vary论文阅读笔记

Figure 1：主要想说明Vary在产生vocabulary时，采用两阶段策略：在第一阶段，通过自回归方法，先产生一个新的vocabulary，在第二阶段，将新的vocabulary与原始的融合，作为一个新的vocabulary。该部分主要聚焦于fine-grained perception，例如文档智能和图表理解，说是为了弥补CLIP的不足，因此这部分网络输入都是图像，没有文本输入的分支。因此，就以旷视出的这篇工作Vary作为切入点，借此来学习LLM在文档智能领域的相关工作。

2024-01-18 22:12:34 1379

原创解决! LaTeX Error: File ‘xxxx.sty‘ not found.问题

命令安装，二是手动搜索对应包，放到对应LaTeX安装目录下。在本地编译tex文件时，总会遇到。一般解决方案有两种：一是直接通过。经过网上查找得知，可以通过安装。和其对应的包名不对应，直接用。安装，会存在找不到的情况。这里存在一个问题：缺少的。从以上错误来看，缺少。

2024-01-12 15:36:00 2569 1

原创论文阅读：TinyGPT-V 论文阅读及源码梳理对应

QFormer来自论文BCLI2工作中，用来弥补Frozen Image encoder和Frozen LLM之间的gap。将prompt除Image部分其他部分依次转为向量。再将两者mix，得到最终向量。基于Bert作为初始化的。

2024-01-11 21:52:22 1305 3

原创公式识别任务各个链条全部打通

本篇文章只是简单介绍，具体请移步文中各个部分的仓库下查看。如有具体微调，部署等需求，欢迎后台详细咨询。

2023-12-09 21:42:42 472

原创 TableStructureRec: 表格结构识别推理库来了

目前 PaddleOCR 中表格识别暂未整理到这个仓库中，后续会整理进来。欢迎持续关注。

2023-11-23 22:38:09 1064

原创 Python环境下LaTeX数学公式转图像方案调研与探讨

目前，公开的公式识别数据集，已经有很多了，包括一些公式识别的比赛以及开源项目中都有涉及，我这里就不在一一列举了，大家可自行寻找。

2023-10-28 22:02:20 707

原创 rapidocr_paddle[gpu]：GPU端推理库来了

系列包是基于PaddlePaddle框架作为推理引擎的，支持CPU和GPU上推理。值得说明的是，这个包和PaddleOCR相比，代码基本都是一样的，只不过这个库将里面核心推理代码抽了出来，更加精简而已。推荐GPU上用这个，CPU端还是以和为主。毕竟PaddlePaddle的CPU端还是比较重的。封装这个包的原因是为了弥补GPU端推理的空缺。因为面对成千上万的图像需要提取文字时，CPU端上推理速度还是较慢，不能满足需求。

2023-10-22 22:49:20 1038