lijiaqi0612-CSDN博客

原创使用ACL推理UIE模型的过程及代码

ATC（AscendTensorCompiler）是华为昇腾软件栈提供的一个编译工具，它的主要功能是将基于开源框架的网络模型（如Caffe、TensorFlow等）以及单算子Json文件，转换成昇腾AI处理器支持的离线模型Offline-Model文件（简称OM文件）。在编译过程中，可以实现算子调度的优化、权值数据重排、内存使用优化等，并且可以脱离设备完成模型的预处理。更详细的ATC介绍，可参看官方文档。ATC工具架构图。......

2022-07-29 20:25:44 1984 5

原创 Pytorch Dispatch 机制

背景基础环境Pytorch 1.9版本、CUDA 10.1、cuDNN 7.6 以下描述的Pytorch文件路径均为${PYTORCH_ROOT}(=GitHub - pytorch/pytorch: Tensors and Dynamic neural networks in Python with strong GPU acceleration) 的相对路径Pytorch Dispatch 机制是：输入1个ATen函数名(代表计算逻辑)，根据配置(native_function...

2022-01-24 17:33:22 2595

原创 Metric评价指标-Perplexity语言模型

欢迎关注知乎：世界是我改变的知乎上的原文链接一. 原理介绍在研究生实习时候就做过语言模型的任务，当时让求PPL值，当时只是调包，不求甚解，哈哈哈，当时也没想到现在会开发这个评价指标，那现在我来讲一下我对这个指标的了解，望各位大佬多多指教。1. 这个困惑度是如何发展来的呢？在得到不同的语言模型（一元语言模型、二元语言模型....）的时候，我们如何判断一个语言模型是否好还是坏，一般有两种方法：一种方法将其应用到具体的问题当中，比如机器翻译、speech recognitio..

2021-02-22 16:49:23 1191

原创 Metric评价指标-Embedding Similarity

今天要更新的是Embedding Similarity，这个评价指标呢，是通过嵌入向量来计算相似度的一种方式，我们一起来学习下。欢迎关注知乎：世界是我改变的知乎上的原文链接一. Embedding Similarity介绍1. 原理介绍及公式Embedding Similarity，顾名思义就是通过嵌入向量来计算相似度，这个评价指标在网上的资料比较少，我今天来总结一哈。采用Embedding的方式来进行相似性度量，并返回一个度量相似性的数字。请记住，Embedding只是数字的向

2021-02-22 16:03:42 1623 1

原创图像分割评估指标之Hausdorff distance 豪斯多夫距离

我又来更新啦，今天带来的内容是Hausdorff distance 豪斯多夫距离的原理介绍及MindSpore的实现代码。当我们评价图像分割的质量和模型表现时，经常会用到各类表面距离的计算。比如：Mean surface distance 平均表面距离Hausdorff distance 豪斯多夫距离Surface overlap 表面重叠度Surface dice 表面dice值Volumetric dice 三维dice值max_surface_distance 最大表面距离等等等等

2021-02-21 22:40:52 10133 5

原创机器翻译评价指标之BLEU原理介绍及代码实现

机器翻译评价指标之BLEU原理介绍及代码实现欢迎关注知乎：世界是我改变的知乎上的原文链接一. 原理介绍BLEU（Bilingual Evaluation Understudy），即双语评估替补。所谓替补就是代替人类来评估机器翻译的每一个输出结果。Bleu score 所做的，给定一个机器生成的翻译，自动计算一个分数，衡量机器翻译的好坏。取值范围是[0, 1],越接近1,表明翻译质量越好。机器翻译的一大难题是，一句法语句子，可以有多种英文翻译，这些翻译都是非常好的那怎么去评估一个机器翻译系统的质量

2021-02-14 22:46:20 2963 4

原创 linux环境中配置cuda环境，指定gpu以及用量

１．在终端执行程序时指定GPU CUDA_VISIBLE_DEVICES=0 python your_file.py # 指定GPU集群中第一块GPU使用,其他的屏蔽掉CUDA_VISIBLE_DEVICES=1 Only device 1 will be seenCUDA_VISIBLE_DEVICES=0,1 Devices 0 and 1 will be visibleCUDA_VISIBLE_DEVICES="0,1" Sam...

2020-09-09 21:45:29 1589

原创面试bert相关的问题

Bert的双向体现在什么地方？mask+attention，mask的word结合全部其他encoder word的信息Bert的是怎样实现mask构造的？MLM：将完整句子中的部分字mask，预测该mask词 NSP：为每个训练前的例子选择句子 A 和 B 时，50% 的情况下 B 是真的在 A 后面的下一个句子， 50% 的情况下是来自语料库的随机句子，进行二分预测是否为真...

2020-03-08 16:26:30 4660 3

原创文本编辑器去除重复行正则表达式

^(.*?)$\s+?^(?=.*^\1$)

2020-02-16 22:35:23 1270

原创 skip gram和cbow的优缺点

在cbow方法中，是用周围词预测中心词，从而利用中心词的预测结果情况，使用GradientDesent方法，不断的去调整周围词的向量。当训练完成之后，每个词都会作为中心词，把周围词的词向量进行了调整，这样也就获得了整个文本里面所有词的词向量。要注意的是， cbow的对周围词的调整是统一的：求出的gradient的值会同样的作用到每个周围词的词向量当中去。可以看到，cbow预测行为的次数跟整个文本的...

2020-01-14 21:31:35 3264 1

原创 Word2Vector之skip-gram原理

1.词嵌入（word2vec）自然语言是一套用来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是用来表示词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入（word embedding）。2.为何不采用one-hot向量【如何使用one-hot】1. 假设词典中不同词的数量（词典大小）为NNN，每个词可以和从0到N−...

2019-12-18 14:31:22 350

原创机器学习性能评估指标

分类混淆矩阵1True Positive(真正, TP)：将正类预测为正类数. True Negative(真负 , TN)：将负类预测为负类数. False Positive(假正, FP)：将负类预测为正类数→→误报(Type I error). False Negative(假负 , FN)：将正类预测为负类数→→漏报(Type II error).精确率(...

2019-10-09 15:47:45 370

原创 java中几道面试常问的多线程基础题

1. 简述线程，程序、进程的基本概念。以及他们之间关系是什么？线程与进程相似，但线程是一个比进程更小的执行单位。一个进程在其执行的过程中可以产生多个线程。与进程不同的是同类的多个线程共享同一块内存空间和一组系统资源，所以系统在产生一个线程，或是在各个线程之间作切换工作时，负担要比进程小得多，也正因为如此，线程也被称为轻量级进程。程序是含有指令和数据的文件，被存储在磁盘或其他的数据存储设备中...

2019-10-03 23:10:04 107

原创 List,Set,Map,Arraylist 与 LinkedList ,HashMap 和 Hashtable ,HashMap 和 HashSet比较区别

说说List,Set,Map三者的区别？List(对付顺序的好帮手)：List接口存储一组不唯一（可以有多个元素引用相同的对象），有序的对象 Set(注重独一无二的性质):不允许重复的集合。不会有多个元素引用相同的对象。 Map(用Key来搜索的专家):使用键值对存储。Map会维护与Key有关联的值。两个Key可以引用相同的对象，但Key不能重复，典型的Key是String类型...

2019-10-03 22:55:48 217

原创剑指offer 链表中倒数第k个结点 python

题目描述输入一个链表，输出该链表中倒数第k个结点。思路1：1. 看到是单链表肯定不能反方向循环，倒数第k个节点，比如链表长度为6，倒数第三个也就是相当于正数第四个，符合6-3+1=4。2. 所以就想到了正向遍历链表两次，但两次复杂度又太高，再考虑能不能遍历一次，进而想到了快慢指针。3. 先判断头结点是否存在和k的大小，然后让快指针先走到第四个，也就是k的位置，然后慢指针从...

2019-09-20 17:48:56 66

原创剑指offer 二叉树的镜像（二叉树的所有子节点互换）

题目描述操作给定的二叉树，将其变换为源二叉树的镜像。输入描述:二叉树的镜像定义：源二叉树 8 / \ 6 10 / \ / \ 5 7 9 11 镜像二叉树 8 / \ 10 6 / \ / \ 11 9 7 5...

2019-09-20 17:13:37 93

原创剑指offer 二叉树的子结构

题目描述：输入两棵二叉树A，B，判断B是不是A的子结构。（ps：我们约定空树不是任意一个树的子结构）思路：本题可以分为两步，第一步：找到A中与B的根结点值相等的结点R，第二步：判断以R为根结点的子树是否包含B一样的结构。本题思路不难，但是需要格外注意对指针空值的判断。# -*- coding:utf-8 -*-# class TreeNode:# def __i...

2019-09-20 17:08:02 120

原创常见的损失函数（代价函数）

几种常见的损失函数1. 损失函数、代价函数与目标函数损失函数（Loss Function）：是定义在单个样本上的，是指一个样本的误差。代价函数（Cost Function）：是定义在整个训练集上的，是所有样本误差的平均，也就是所有损失函数值的平均。目标函数（Object Function）：是指最终需要优化的函数，一般来说是经验风险+结构风险，也就是（代价函数+正则化...

2019-08-19 15:38:58 1489

原创学习率(Learning rate)的理解及调整依据

1. 什么是学习率(Learning rate)？学习率(Learning rate)作为监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。这里以梯度下降为例，来观察一下不同的学习率对代价函数的收敛过程的影响（这里以代价函数为凸函数为例）：当学习率设置的过小时，收敛过程如下...

2019-08-02 19:46:41 5704

原创神经网络中Batch和Epoch之间的区别是什么？

神经网络中Batch和Epoch之间的区别是什么？随机梯度下降法是一种具有大量超参数的学习算法。通常会使初学者感到困惑的两个超参数: Batch大小和Epoch数量,它们都是整数值，看起来做的事情是一样的。在这篇文章中，您将发现随机梯度下降中Batch和Epoch之间的差异。阅读这篇文章后，你会知道：1. 随机梯度下降是一种迭代学习算法，它使用训练数据集来更新模型。2. 批量大小是...

2019-08-02 19:18:29 1150

原创 torchtext使用教程

将一个纯文本数据(比如一个 txt 文本)，变成一个模型可接受的数据（比如一个 embedding 序列），就用到了torchtext。API一览 torchtext.datatorchtext.data.Example : 用来表示一个样本，数据+标签torchtext.vocab.Vocab: 词汇表相关torchtext.data.Datasets: 数...

2019-07-10 19:57:34 5007 4

原创硬币的不等概率转等概率问题

有一枚硬币，它的正反面概率是不一样的，假设概率为p，如何让其正反面概率变为一样的？思路：硬币只能出现正反两面，0代表正面，1代表反面，所以设0的概率为票，1的概率为1-pimport randomdef core(p): re_dict = { '01': 0, '10': 1 } re_temp = [] ...

2019-07-09 09:57:42 932

原创绝对最简单实用的kenlm语言模型的安装及使用

统计语言模型工具有比较多的选择，目前使用比较好的有srilm及kenlm，其中kenlm比srilm晚出来，训练速度也更快，号称单机版训练超级快，经过测试确实很快，支持大规模的语料训练，文件的输入格式一行行以空格隔开的文本。kenlm训练语言模型用的是传统的“统计+平滑”的方法。读者可以跳过第一部分直接看第二部分，第一部分我只是描述一下我遇到的一个坑。1.坑网上资料无非是各种弄个互相抄袭的...

2019-05-10 19:53:26 14675 8

原创 NLP文本化向量常用包gensim之word2vec和doc2vec

1.gensim的介绍gensim是nlp常用的包，能根据tf-idf，LDA,LSI等模型转化成向量模式，以便进一步处理，此外还实现了word2vec的功能，能够将单词转化为词向量。gensim包常用模块corpora：一种格式或约定，转化为二维矩阵，我这里用了此模块下的WikiCorpus 获取xml文件的原始数据 mode...

2018-11-05 10:16:36 1681

原创 python中求汉字字符串长度以及默认编码与解码格式设置

print(len('你好啊'))结果为 3一般汉字在uicode编码格式中，一个汉字对应长度为1在utf-8编码格式中，一个汉字对应长度为3我在刚开始写的时候，在python3环境下，列表value里，用的是：len(value[i].decode('utf-8')) 但运行结果错误，我又把utf-8去掉，还是不行，最后直接用len(value[i])，最后结果就正确了。...

2018-08-21 18:40:24 5240

原创正则表达式入门学习总结

\bhi\b 匹配的是hi这个单词 \b是代表着单词的开头或结尾，也就是单词的分界处，不匹配任何字符，只代表一个位置\bhi\b.*\blucy\b 假如要找的是hi后面不远处的lucy单词，应该这样写先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词. 是另一个元字符，匹配除了换行符之外的任意字符 * 也是一个元字符，匹配的不是字符，也不是位置...

2018-08-17 14:09:05 247

原创 python3.6 使用newspaper库的Article包来快速抓取网页的文章或者新闻等正文

我主要是用了两个方法来抽去正文内容，第一个方法，诸如xpath，css，正则表达式，beautifulsoup来解析新闻页面的时候，总是会遇到这样那样各种奇奇怪怪的问题，让人很头疼。第二个方法是后面标红的，主要推荐用newspaper库在导师公司，需要利用重度搜索引擎来最快的获取想要的内容，再建立语料库，于是我用python 的 beautifulsoup 和urllib 来抓取一些网页内容来...

2018-08-15 17:52:15 9355 5

原创 spark面试总结

1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出之后会进行一个partition分区操作，默认使用的是hashpartition...

2018-02-27 10:24:31 9688

lijiaqi0612的博客