肥宅程序员aka不会游泳的鱼-CSDN博客

原创关闭onnxruntime推理过程中的warnings

ONNX Runtime是一个高性能推理引擎，用于在多个平台上运行深度学习模型。ONNX（Open Neural Network Exchange）是一个开放的深度学习模型表示和转换工具，ONNX Runtime则是用来加载、优化和运行ONNX模型的库。ONNX Runtime提供了许多优势。首先，它支持多个硬件平台，包括CPU、GPU和边缘设备，这使得它可以在不同的硬件上进行高效的推理。其次，ONNX Runtime还采用了一些优化技术，例如图优化、内核融合和静态量化等，以提高推理性能并降低内存占用。

2023-06-30 09:53:53 857

原创 SAM(Segment Anything)家族最新作品——FastSAM

从去年年底，nlp领域出现了大模型一统天下的局面，而在cv领域，美国社交媒体扛把子公司meta也推出了在图像分割领域的大模型——segment-anything，简称。看名字就知道了，这个模型就是啥都可以分割，具体可以看看人官网推出的，效果那是相当惊艳。其实SAM的提出还是想解决零样本学习的问题，就和nlp领域一样，构建chatGPT这种基座大模型，使其在绝大部分场景下分割效果足够惊艳，在其他没有学习过的场景下也能够达到一定的效果。

2023-06-28 10:59:38 2389

原创使用传统图像处理算法+机器学习进行shadow detection

本博客介绍了一种结合传统算法和机器学习算法的阴影检测的技术方案，包括传统的加权中值滤波和Mean Shift算法，以及基于机器学习的图像特征提取和SVM分类器方法。通过最终的效果来看，可以看出这些技术方案都具有一定的优势和适用性，可以根据不同的场景和任务要求来选择使用，但是可能因为标注数据量不够，同时svm这类分类器效果也不够好（其实可以尝试xgb等其他更好的分类器）。然而，阴影检测仍然是一个具有挑战性的课题，当前存在许多问题有待进一步解决。

2023-06-26 16:46:50 1128 1

原创使用transformers框架导入t5-small模型做文本翻译

在上一篇的博客讲述了怎么训练一个翻译的Seq2Seq模型，这篇博客则来说说怎么使用huggingface中训练好的模型来完成翻译的任务。

2023-05-16 17:07:09 2234

原创 win10系统ssh连接阿里云linux服务器并传输文件教程

因为业务需要，最近搞了一台linux的阿里云服务器，现在要连接阿里云服务器。之前没有玩过这种云服务器，两眼一抹黑，在网上搜索资料也比较少，所以写篇博客记录一下连接的步骤，以防止忘记。

2023-05-12 15:37:46 1637

原创基于transformer的Seq2Seq机器翻译模型训练、预测教程

机器翻译（Machine Translation, MT）是一类将某种语言（源语言，source language）的句子xxx翻译成另一种语言（目标语言，target language）的句子 yyy 的任务。机器翻译的相关研究早在上世纪50年代美苏冷战时期就开始了，当时的机器翻译系统是基于规则的，利用两种语言的单词、短语对应关系将俄语翻译成英语。在早期的机器翻译主要是依靠统计学模型，使用一种叫统计机器翻译（Statistical Machine Translation, SMT）的方法，在1990年至2

2023-05-09 11:43:28 746

原创 onnxruntime 运行过程报错“onnxruntime::Model::Model Unknown model file format version“

这几天在玩一下yolov6，使用的是paddle框架训练的yolov6，然后使用paddl转成onnx，再用onnxruntime来去预测模型。由于是在linux服务器上转出来的onnx模型，并在本地的windows电脑上去使用，大概就是这样的一个情况，最后模型导入的时候，就报错了。

2023-04-14 10:24:10 2101

原创手把手教学在windows系统上将pytorch模型转为onnx，再转为ncnn的全过程

最近呢，在忙一个项目，需要将pytorch训练的模型部署在移动端。然后遇到也遇到了一些坑，简单的记录一下整个过程，转换的模型就使用经典的分类网络模型mobilenet_v2。

2023-04-10 14:52:52 1095

原创 Ubuntu环境下安装neo4j，配置远程连接、python创建节点demo

neo4j是较为知名的图数据库，也常常用在知识图谱领域，用来存储实体和实体属性，实体关系等，可以说是构建知识图谱非常有用的工具。就是因为有以上这些优点，neo4j具有最具规模和最活跃的社区：社区版累计下载次数超过1千3百万，社区活跃技术人员超过5万，每年线上线下技术交流聚会超过400场。github上与Neo4j相关项目超过1万个。笔者最近在研究有关知识图谱的任务，选择用图数据库neo4j。但是只通过neo4j中直接创建节点和关系，显得效率过于低下，于是想通过python直接对neo4j进行操作。

2023-03-29 18:01:39 1947 1

原创使用bert的预训练模型做命名实体识别NER

在上一篇提到了如何使用blstm-crf模型来训练本地数据集，完成命名实体提取的任务，还详细解析了代码和对应的原理。针对特定的任务，垂直的领域，可能需要使用特定数据集去训练，从而使得模型有一个很好的效果，但是在一些非特定（垂直）领域，是完全可以使用预训练好的模型来做命名实体识别任务的。下面，介绍一下如何使用开源框架，导入预训练好的bert模型来做命名实体识别。

2023-03-23 17:13:46 1161

原创命名实体识别BiLSTM-CRF模型的Pytorch_Tutorial代码解析和训练自己的中文数据集

命名实体识别（NER）属于自然语言处理中的最常见的也是最基础的任务，是指从文本中识别出特定命名指向的词，比如人名、地名和组织机构名等。命名实体识别任务做标签方法有很多，包括BIO、BIOSE、IOB、BILOU、BMEWO、BMEWO+等，最常见的是 BIO 与 BIOES 这两种。不同做标签的方法会对模型效果有些许影响，例如有些时候用BIOES会比BIO有些许优势。在BIO和BIOSE中，Beginning 表示某个实体词的开始，Inside表示某个实体词的中间，Outside表示非实体词，End表示某个

2023-03-20 18:08:27 1594

原创 yolov5 onnxruntime c++在linux平台上GPU推理环境搭建整体流程

最近在学习yolov5模型，然后用onnxruntime在linux平台上搭建一个GPU推理环境，运行一下，顺带记录一下环境搭建的整体过程，记录一下踩坑经历，造福后来人，也避免自己忘记了，可以回来再看看。其实onnxruntime + OCR的三个模型在linux + GPU环境的部署，去年玩过一次，没想到这次搭建yolov5，居然花费了将近两天时间，就是因为没有写文章记录的原因，肯定是的。

2023-03-15 17:11:21 2151 3

原创 opencv-python numpy常见的api接口汇总（持续更新）

最近写代码总是提笔忘api，因为图像处理代码写的比较多，所以想着把一些常用的opencv的api，包括numpy的api做一个记录，后面再忘记的时候，就不用去google挨个搜索了，只需要在自己的博客中一查就全知道了。这个博客也会持续性一直更新，主要把漏掉的api挨个补齐。

2023-03-06 14:39:27 648

原创使用python脚本使文件根据文件名中数字排序

因为想要对图片做一个打标签操作，图片名字包含规律性的数字，windows系统下文件夹中图片都是按照文件名的数字进行呈现的，如下图：而直接用python脚本遍历得到的文件名list，打印出来和上图中文件呈现顺序不同。

2023-03-02 15:59:36 761

原创 Ubuntu编译安装opencv4.5.4 报错undefined reference to `TIFFReadRGBAStrip@LIBTIFF_4.0‘

解决opencv编译问题

2023-02-27 16:40:52 782

原创 python代码实现Amazon SES 发送邮件

遇到需求是使用python代码通过Amazon SES 发送邮件，在网上查询了半天，也解决了一些坑，现在把踩坑情况记录一下，方便后来人。使用python代码通过Amazon SES发邮件之前，需要开通AWS账户，这个具体过程可以参考网上教程，有很多很详细博主已经写了，这里就不重复了，重点讲一下发邮件的代码和其中遇到的坑。通过Amazon SES发邮件的方式也有两种，使用SMTP，使用SWS SDK，笔者这里用的是SWS SDK，因为这种方式比较简单，和国内腾讯云，阿里云使用的方式也比较相同。

2023-02-22 18:17:32 921

原创 NLP文本自动生成介绍及Char-RNN中文文本自动生成训练demo

模型使用了两个双向的LSTM，然后再接了一个全连接层，整体都比较简单，没有什么可以详细阐述的。

2023-02-20 16:58:08 2005

转载【转载】浅析ChatGPT：历史沿革、应用现状及前景展望(转载自CSIG文档图像分析与识别专委会)

ChatGPT是一种基于认知计算和人工智能的语言模型，它使用了 Transformer 架构和Generative Pre-Training（GPT）,即生成型预训练技术。GPT训练的模型是一种应用于自然语言处理（NLP）的模型，它通过使用多层Transformer来预测下一个单词的概率分布，以生成自然语言文本。这是通过在超大型文本语料库上训练学习到的语言模式来实现的。从2018年拥有1.17亿参数的GPT-1到2020年拥有1750亿参数的GPT-3，OpenAI的语言模型智能化程度明显提升。

2023-02-15 16:04:54 671

原创文本匹配SimCSE模型代码详解以及训练自己的中文数据集

这个模型的定义其实很简单，就是用bert作为特征提取的基础模型，然后再bert模型输出的基础上加上一个dropout操作，就是代码中的pooling层，核心代码就是下面几行outputs . append(output) count += 1 except : break output = bert . output # 最后的编码器 encoder = Model(bert . inputs , output)

2023-02-09 18:48:53 3027 23

原创 ReadTimeoutError: HTTPSConnectionPool(host=‘cdn-lfs.huggingface.co‘, port=443)

导入hugging face报错

2023-02-06 18:42:19 7665 6

原创 NLP 文本（语义）匹配算法和demo代码介绍

文本匹配一直是自然语言处理（NLP）领域一个基础且重要的方向，一般研究两段文本之间的关系。文本相似度计算、自然语言推理、问答系统、信息检索等，都可以看作针对不同数据和场景的文本匹配应用。比如信息检索可以归结为搜索词和文档资源的匹配，问答系统可以归结为问题和候选答案的匹配，复述问题可以归结为两个同义句的匹配，这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题。

2023-02-06 16:46:39 2023 3

原创在bert基础上finetune做中文文本分类

文本分类模型输入的是bert预训练模型和分类类别数量，模型定义非常简单清晰，没有什么太多可以讲述的。初始化模型则需要先导入bert的预训练模型和字符处理的AutoTokenizer类，这里需要说明一下，此次模型训练与博主上一篇博客使用transformers框架导入bert模型提取中文词向量都是在transformers和pytorch框架下开发的，那么预训练模型以及其导入方式也和上一篇博客一样。

2022-12-23 16:40:16 845

原创大白话式粗浅地聊聊NLP语言模型

在聊NLP领域的语言模型的时候，我们究竟在聊什么？这就涉及nlp语言模型的定义。语言模型发展至今，其实可以简单的分为传统意义上的语言模型和现代的语言模型，传统语言模型主要是指利用统计学计算语料序列的概率分布，对于一个给定长度为m的序列，它可以为整个序列产生一个概率 P(w_1,w_2,…,w_m)。其实就是想办法找到一个概率分布，它可以表示任意一个句子或序列出现的概率。

2022-12-22 15:35:10 620

原创使用transformers框架导入bert模型提取中文词向量

在笔者的上一篇文章中提到了如何将词语转变成计算机能够识别的语言，即将文本数据转换成计算机能够运算的数字或者向量这个概念，并详细阐述了word2vec这个模型的原理，如何在gensim框架下使用word2vec将单词转变成一个能够表达单词特征的向量。但是在gensim框架下使用word2vec模型提取特征向量之前，需要准备一些场景中的语料，同事也需要对语料进行分词操作，然后再输入到模型中进行训练，最后才可以用训练好的模型进行特征提取。

2022-12-16 13:44:17 1900

原创大白话讲懂word2vec原理和如何使用

做自然语言处理（Natural Language Processing，NLP）这个领域的小伙伴们肯定对word2vec这个模型很熟悉了，它就是一种最为常见的文本表示的算法，是将文本数据转换成计算机能够运算的数字或者向量。在自然语言处理领域，文本表示是处理流程的第一步，主要是将文本转换为计算机可以运算的数字。最传统的文本表示方法就是大名鼎鼎的One-Hot编码，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量中只有一个1，其他全为 0，1 的位置对应该词在词典中的位置。

2022-12-14 16:29:54 2406 2

转载 [IJCAI 2022] SVTR: 基于单个视觉模型的场景文字识别算法(转载自CSIG文档图像分析与识别专委会)

图2是这篇文章提出的SVTR的整体结构，采用类似于SwinTransformer[2]的视觉模型和一个全连接层以及CTC解码器进行文本序列预测。首先和ViT[3]类似，将输入尺寸为H * W * 3图片图像按照Patch进行划分, 得到图片\frac{H}{4} \times \frac{W}{4} \times D_{0} Embeddings。本文采用的Patch Embedding操作和ViT中的有些许差异，其由两层步距为2，卷积核大小为卷积层3X3，以及BN层构成。

2022-12-12 16:31:26 3132

原创最简单方便灵活的修改Jupyter Notebook默认工作路径

最近正想学习一下nlp的入门基础算法，在GitHub上下载了一些notebook，可以用jupyter打开来学习。总所周知，jupyter打开之后，默认工作路径一般都在C盘个人用户名文件夹下的，不是很方便。很多时候大家也不想把notebook文件全部放到jupyter的默认工作路径下，因为这样C盘的个人用户名文件夹就会越来越大，显得很臃肿。

2022-12-12 14:38:13 1959 2

原创 python 替换json中的某个字段内容

在炼丹过程中，难免会用json文件来保存一些目标检测或者语义分割任务的标签值，但是有时候某个标签的key值或者value批量都搞错了，那么就需要一个小的工具性脚本来对json值进行修改。比如像上述的json，我想要批量的将几千个json中的label的value值cross全部修改为keyboard，那么就可以将json读入进来，然后再转成str，然后用str的正则替换，最后再把str转换为json即可。代码如下：

2022-12-07 16:57:54 2911

转载 [ECCV 2022] OCR-free Document Understanding Transformer (转载自CSIG文档图像分析与识别专委会)

本文简要介绍ECCV 2022录用论文“OCR-free Document Understanding Transformer”。以往文档理解算法大多依赖于已有的OCR结果，而OCR引擎额外开销大、泛化性能不佳、错误累积等问题往往会对文档理解模块的性能造成影响。本文针对这些问题，提出了一个无需依赖OCR的大规模预训练文档理解模型Donut，该模型在常用数据集上有着不错的表现，且具有较快的推理速度。本文还提供了一种多语言、多版式的文档数据合成器，用于辅助模型的预训练过程。代码开源地址为https://gith

2022-12-07 09:18:46 1355

原创 dbnet++做电子显示屏上的文字定位

DBnet++ 是白翔老师团队最新的文字检测算法，是在DBnet的基础上做了一些优化而得到的效果更好的模型。DBNet++网络在DBNet的基础上对head部分做了改进，DBNet直接把几个头分支concat起来，DBNet++通过Adaptive Scale Fusion (ASF)模块来连接，而ASF模块本质上来说就是一个空间自注意力机制模块，对于存在多尺度的场景文字定位效果更好。同时，由于DBnet++比起DBnet多增加了一个模块，速度上也会相对来说慢一些，当然，比起其他带有复杂后处理的流程的文字定

2022-12-06 14:48:52 704

原创手写数学公式识别领域最新论文CAN代码梳理，以及用自己的数据集训练

这篇论文设计了一种新颖的多尺度计数模块，该计数模块能够在只使用公式识别原始标注（即LaTeX序列）而不使用符号位置标注的情况下进行多类别符号计数。通过将该符号计数模块插入到现有的基于注意力机制的编码器-解码器结构的公式识别网络中，能够提升现有模型的公式识别准确率。此外，文中还验证了公式识别任务也能通过联合优化来提升符号计数的准确率。另外，训练手写公式识别模型的数据，笔者使用的是自己制作的真实数据（大概有7w左右），如有需要的话，可以私信联系我。少量数据样式，可以在我的资源中下载查看。

2022-11-30 14:34:01 2168 13

原创在Linux服务器上用yolov7训练自己的数据集

yolov7在自己的数据集上训练指导说明

2022-11-08 16:40:27 2138

原创 linux c++ 使用opencv 中lsd函数测试代码

图像处理

2022-08-26 16:34:21 735

原创 xgboost c 模型推理

xgboost c 模型推理

2022-08-26 16:27:29 331

原创 OCR 跨平台工程化onnxruntime gpu c++代码

OCR 跨平台工程化onnxruntime gpu c++代码网上关于onnxruntime运行在gpu环境下运行OCR模型的代码较少，经过查阅，其实就是在初始化模型的时候这样写就可以了void DbNet::setNumThread(int numOfThread) { numThread = numOfThread; //===session options=== // Sets the number of threads used to parallelize the ex

2021-07-22 19:29:18 2519 14

原创 windows10 maven工具jni调用dll时候遇到 BUILD FAILURE

windows10 maven工具jni调用dll时候遇到 BUILD FAILURE错误信息如下所示：[ERROR] Plugin org.apache.maven.plugins:maven-resources-plugin:2.6 or one of its dependencies could not be resolved: Failed to read artifact descriptor for org.apache.maven.plugins:maven-resources-plug

2021-07-21 11:23:10 237

目标检测模型yolov5s小模型

手写数学公式数据样例（包含图片和标签）

onnxrutime OCR.zip

ZBarWinVS2010.zip

空空如也