FB1024-CSDN博客

原创使用sentence-transformer进行fine-tune

使用自己的数据，对sentence-transformer进行fine-tune

2023-04-24 17:22:36 327

原创 TurboTransformers 加速预训练模型推理

TurboTransformers 加速预训练模型推理

2022-10-10 17:39:45 1053 1

1.安装onnxpip install onnx onnxruntime2. 加载模型并转存模型为onnx格式，并测试使用实例为sentence-transformers预训练模型计算相似度class Test(object): def init(self): # 加载预训练模型 self.tokenizer = AutoTokenizer.from_pretrained("../all-MiniLM-L6-v2") self..

2022-03-14 09:22:37 2248 5

原创机器学习-信息熵

熵熵是信息论中的一个基本概念，也称香农熵或信息熵，它衡量了一个概率分布的随机性程度，或者说它包含的信息量的大小。考虑随机变量取某一特定值所包含的信息量大小，假设随机变量X取值x的概率为p(x), 取这个值的概率很小而它又发生了，则包含的信息量大。考虑下面两个随机事件。（1）明天要下雨（2）奥巴马登上火星了显然后者所包含的信息量要大于前者，因为后者的概率要远小于前者但却发生了。如果定义一个函数h(x)来描述随机变量取值为x时的信息量大小，则h(x...

2021-07-27 21:26:39 1483

原创贝叶斯网络&HMM

2021-06-22 22:16:16 191

原创虚拟机和Unbutun系统安装

1.VirtualBox安装下载地址：https://www.virtualbox.org/wiki/Downloads 选择要安装的版本，按正常软件一路安装即可设置VirtualBox存储文件夹打开软件，点击管理->全局设定->常规->选择自己在本地新建的用于存储虚拟机的文件夹 2. 在VirtualBox上安装虚拟机点击“新建”按钮会弹出新建虚拟机电脑，然后为虚拟机命名，选择虚拟机类型和对应的版本。设置虚拟...

2021-04-11 15:36:12 289

原创文本多标签分类-SGM

论文标题：SGM:Sequence generation model for Multi-label classification论文地址：https://arxiv.org/pdf/1806.04822.pdf模型简况：使用seq2seq的方式来解决多标签分类问题，通过这种方式，能够在一定程度上建模标签之间的关联信息。Encoder 双向LSTM编码 AttentionD...

2020-07-18 10:26:15 777 2

原创【cs224n-16】Low Resource Machine Translation

神经机器翻译（NMT）的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、尼泊尔语这些小语种，无法提供足够多的双语数据，更极端的现实情况是，有些语言几乎没有任何双语预料，这种情况下NMT就无能为力了。松散定义:当并行句子数量在10,000或更少时，可以认为语言对资源不足。注:现代NMT系统现在有数亿个参数! 挑战: 数据: 来源数据、评估数据集建模：不清晰的学习范式、领域适应、模型泛化能力 W...

2020-07-12 16:44:22 436

原创【cs224n-15】Analysis and Interpretability of Neural NLP

神经网络自然语言处理的分析与解释动机:我们的模型在做什么? 我们的算法学习什么功能还不清楚，而且它们的复杂性使我们无法准确理解我们如何让模型变得更好？神经网络规划的分析与解释人类作为语言测试的对象我们如何理解人类的语言行为?一种方法:最小对。什么在说话者听起来是“好的” 我们如何理解语言模型中的语言行为?一种方法:最小对。被接受的句子的可能性高吗？神经网络作为语言测试对象在语言模型上执行最小对测试的步骤...

2020-07-11 21:30:46 181

原创文本多标签分类-概述

一.多类VS多标签多类分类(Multiclass classification) 表示分类任务中有多个类别,多类分类是假设每个样本都被设置了有且仅有一个标签。比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等，一个水果可以是苹果或者梨, 但是同时不可能是两者。多标签分类(Multilabel classification) 给每个样本一系列的目标标签. 可以想象成一个数据点的各属性不是相互排斥的,比如一个文档相关的话题. 一个文本可能被同时认为是...

2020-07-07 21:12:05 1651

原创【cs224n-15】Constituency Parsing and Tree Recursive Neural Networks

本文讨论一种新的类型的模型：递归神经网络（RNNs）,区别于循环神经网络（RNN）的是，前者是后者的一个超集。递归神经网络递归神经网络（左图）：需要树形结构循环神经网络（右图）：不能捕捉没有前缀背景的短语，最后的向量经常捕捉最后的词的太多信息递归神经网络非常适合具有嵌套层次结构和内在递归结构的设置。思考一个句子 “A small crowd quietly enters the historical church” 首先将句子分成名词短语、动词短语...

2020-07-02 22:14:49 318 1

原创【cs224n-14】Reference in Language and Coreference Resolution

本文主要讲解语言中的指称和指称的消解，介绍其相关定义和发展情况。1.什么是指代消解？指代是指:识别所有涉及到相同现实世界实体的提及。通俗点讲是篇章中的一个语言单位（通常是词或短语）与之前出现的语言单位存在特殊语义关联，其语义解释依赖于前者。例如He, her 都是实体的提及，He,her的具体表示意思依赖与之前出现的语言单位。举几个例子：李明怕高妈妈一人呆在家里寂寞，他便将家里的电视搬了过来。上面例子中的加粗部分，很明显依赖于前文。在语...

2020-06-20 22:51:38 276

原创【cs224n-13】Natural Language Generation

本文主要讲解自然语言生成的神经方法(NLG)的一般性应用和发展概况。一.概述:LMs和解码算法NLG：自然语言生成(NLG)指的是我们生成（即写入）新文本的任何设置。包括：机器翻译、文本摘要、对话、创意写作（讲故事、诗歌创作）、问答系统、图形字幕等等。语言建模：是给定之前的单词，预测下一个单词的任务。一个产生这一概率分布的系统叫做语言模型。如果系统使用 RNN，则被称为 RNN-LM条件语言建模：是给定之前的单词以及一些其他输入 x ，预测下一个单词的任务。...

2020-06-13 23:53:04 512

原创【cs224n-12】Modeling contexts of use: Contextual Representations and Pretraining. ELMo and BERT.

上一篇我们讲解了词嵌入的静态表示和上下文动态表示的区别，即基于上下文动态表示的预训练模型的发展情况，本文是对具体细节的一些细化描述。1. Representations for a word 我们可以从我们常见的词嵌入的静态表示模型 Word2vec, GloVe, fastText获得一个单词的表示，并应有与下游任务。 Tips for unknown words with word vectors 简单且常见的解决方案训练时：词汇表 Vocab ...

2020-05-31 18:28:28 204

原创【cs224n-11】Contextual Word Representations: BERT

词嵌入是NLP深度学习的基础，以Word2Vec、Glove和FastText为代表的静态词向量为文本在神经网络中的表示提供了一种强有力的工具。然而这种静态的词嵌入存在的问题是，以上下文无关的方式应用，对每个单词仅有一种表示，而通常单词的含义依赖于其上下文会有所不同，而且每个单词不仅有一方面特征，而应有各方面特征如语义特征，语法特征等。解决的方式是，在文本语料库上训练上下文表示。静态表示：上下文动态表示：上下文表示发展过程：1.Semi-Supervised...

2020-05-24 19:14:02 335 1

原创【cs224n-10】Information from parts of words (Subword Models)

在之前我们处理机器翻译等任务时，我们通常使用基于word单词作为基本单位进行模型的训练；但基于word单词的缺点是不能很好地处理单词不在词库中的情况，即out-of-vocabulary；并且对词法(morphology)的修饰处理也不是很好。因此我们很自然地可以想到可以使用更基础的组成来建立模型，比如英文中的字母，中文中的字。下文主要讲述4种典型方式。一. Character-Level Model 一种思路是将字符作为基本单元，建立Character-level model，但...

2020-05-17 11:30:44 183

原创【cs224n-9】ConvNets for NLP

Why CNNs? 之前的RNN系统中（不利用Attention的情况下），通常我们用最后的hidden vector来表示整个句子的所有信息，这就造成了信息的瓶颈。而CNN处理的思路是对于所有的子短语，都计算一个特征向量，最后再根据具体的任务将它们结合在一起。卷积神经网络接收词向量的序列，并首先为所有子短语创建短语向量，而不仅仅是语法正确的短语。然后，CNNs将他们分组完成手头的任务。What is Convolution?对于一维向量 f 和 g ，它们在位置i的卷积...

2020-05-10 15:42:57 162

原创【cs224n-8】Question Answering

问答系统(Question Answering)实际需求很多，比如我们常用的谷歌搜索就可看做是问答系统。通常我们可以将问答系统看做两部分：从海量的文件中，找到与问题相关的可能包含回答的文件，这一过程是传统的information retrieval；从文件或段落中找到相关的答案，这一过程也被称作Reading Comprehension阅读理解，也是这一讲关注的重点。MCTestReading...

2020-05-03 17:07:56 325

原创【cs224n-7】Machine Translation, Seq2Seq and Attention

一.Machine Translation 机器翻译(MT)是将一个句子 x 从一种语言( 源语言 )转换为另一种语言( 目标语言 )的句子 y 的任务。 1.1 1950s: Early Machine Translation机器翻译研究始于20世纪50年代初。俄语 →英语(冷战的推动)系统主要是基于规则的，使用双语词典来讲俄语单词映射为对应的英语部分1.2...

2020-04-19 17:23:59 521

原创【cs224n-6】The probability of a sentence? Recurrent Neural Networks and Language Models

主体内容：这节课主要讲解什么语言模型？如何构建语言模型，传统的方法有哪些缺陷？从而引入神经网络方法，讲解RNN\GRU\LSTM的架构原理。一.语言模型（Language Model） 1.1 语言模型定义语言模型的任务是基于现有的单词序列预测下一个单词是什么。更正式的说法是：给定一个单词序列,,...,，计算下一个单词的...

2020-04-04 11:59:33 271

原创【CS224n-5】Linguistic Structure: Dependency Parsing

一.句法结构(syntactic structure) 主要有两种方式： 1）Constituency Parsing 2）Dependency Parsing二.Constituency Parsing Constituency =phrase structure grammar(短语语法) = context-free grammars (CFG...

2020-03-29 19:38:27 542

原创【CS224n-4】Matrix Calculus and Backpropagation

用一个三层神经网络计算一个窗口的得分维度分析：如果我们使用 4 维的词向量来表示每个单词并使用 5 个词的窗口，则输入是 x∈ 。如果我们在隐藏层使用 8 个 sigmoid 单元和从激活函数中生成一个分数输出，其中 W∈ ， b∈， U∈， s∈R 。使用SGD更新参数:上节课有提到，在更新参数是时计算 ∇θJ(θ)的方法手工计算算法：反向传播1.手工推导 ...

2020-03-22 19:58:18 187

原创 VAE for 文本生成

VAE详解：https://spaces.ac.cn/archives/5253 变分自编码器（Variational auto-encoder，VAE）是一类重要的生成模型（generative model），它于2013年由Diederik P.Kingma和Max Welling提出[1]。2016年Carl Doersch写了一篇VAEs的tutorial[2]，对VAEs做...

2020-03-22 14:24:15 7292

原创【CS224n-3】Word Window Classification, Neural Networks, and PyTorch

1.分类定义 xi 是输入，例如单词（索引或是向量），句子，文档等等，维度为 d yi是我们尝试预测的标签（ C个类别中的一个），例如：类别：感情，命名实体，购买/售出的决定其他单词之后：多词序列的 2.分类训练数据： {xi,yi}Ni=1简单的说明情况固定的二维单词向量分类使用softmax/logisti...

2020-03-15 20:04:15 264

原创【CS224n-2】Word Vectors II: GloVe, Evaluation and Training

1.GloVe 根据第一讲的内容，我们已经了解了查找词嵌入的两种主要方法。第一种是基于计数的，依赖于矩阵因子化(如LSA, HAL)。虽然这些方法有效地利用了全局统计信息，但它们主要用于捕获单词相似性，而在单词类比、确定次优向量空间结构等任务中表现不佳。另一种方法是基于浅窗口的(例如，skipg -gram和CBOW mod- els)，它通过在本地上下文窗口进行预测来学习单词嵌...

2020-03-08 14:39:42 187

原创【CS224n-1】Word Vectors I: Introduction, SVD and Word2Vec

在所有NLP任务中，第一个也是可以说是最重要的共同点是，我们如何将所有的单词或字词作为输入，输入到我们构建的模型中去。为了大多数NLP任务具有良好的表现，我们需要对单词之间的相似性和差异性有一些概念。使用字词向量的话，我们可以很容易地使用向量本身编码这种能力（使用距离度量，如Jaccard、cos、Eu- clidean等)。1.One-hot Vector 首先我们能想...

2020-02-22 11:41:43 200

原创 python Elasticsearch查询

1. scroll 分页查询-方式1def search(kid,did): alldata=[] t1=time.time()*1000 es = Elasticsearch([{'host': '*.*.*.*', 'port': 9200}]) body={ "_source": ["uid", "knowledge_ids"], "q...

2019-11-18 16:53:19 400

原创 Linux杂记

1.查看fangbing用户下的所有python进程 pgrep python -u fangbing2. 删除fangbing用户下的所有python进程 pgrep python -u fangbing | xargs kill -s 93. 删除文件中含有"关键字符"的行 sed -i '/关键字符/d' 文件名4.跨服务器传输文件 scp -P...

2019-10-25 15:53:56 138

转载衡量模型泛化能力的评价标准

https://blog.csdn.net/vvyuervv/article/details/65449079

2019-10-25 15:46:42 1389

原创几种短文本相似计算方法

import jieba from collections import Counter import difflib def edit_similar(str1,str2): len_str1=len(str1) len_str2=len(str2) taglist=np.ze...

2019-10-25 15:41:43 179

转载神经网络训练时，出现NaN loss

1、梯度爆炸原因：在学习过程中，梯度变得非常大，使得学习的过程偏离了正常的轨迹症状：观察输出日志（runtime log）中每次迭代的loss值，你会发现loss随着迭代有明显的增长，最后因为loss值太大以至于不能用浮点数去表示，所以变成了NaN。可采取的方法：1.降低学习率，比如solver.prototxt中的base_lr，降低一个数量级（至少）。如果在你的模型中有多个loss...

2019-10-25 15:25:25 1221

原创爬虫过程中的动态拨号

windows下：import osfrom time import sleepclass VPNHelper(object): def __init__(self, _vpnIP, _userName, _passWord, WinDir=r"C:\Windows\System32", RasDialFileName=r'\rasdial.exe'): sel...

2019-10-25 15:20:15 229

原创神经网络激活函数

1.SigmoidSigmoid散活函数是将一个实数输入转化至 0 ~ 1 之间的输出，具体来说也就是将越大的负数转化到越靠近 0 ，越大的正数转化到越靠近1。多用于二分类。缺点：1）.Sigmoid 函数会造成梯度消失。一个非常不好的特点就是 Sigmoid 函数在靠近1和0 的两端时，梯度会几乎变成 0，会导致无法更新参数，即梯度消失。 2）. Sigm...

2019-10-25 15:13:36 260

原创深度学习常见优化算法

1.梯度下降神经网络最基本的算法是反向传播算法加上梯度下降算法。通过梯度下降算法使得网络参数不断收敛到全局（或局部）的最小值，但是由于神经网络层数太多，需要通过反向传播算法把误差一层一层地从输出传到输入，逐渐地更新网络参数。由于梯度方向是函数值变大的最快的方向，因此负梯度方向则是函数值变小的最快的方向。沿着负梯度方向一步一步迭代，便能快速收敛到函数最小值。这就是梯度下降法的基本思路...

2019-10-24 20:50:06 496

原创 Bagging与Boosting

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。1、Bagging (bootstrap aggregating)Bagging即套袋法，其算...

2018-09-15 11:18:45 115

原创文本相似度之LSI

1.VSM简介空间向量模型VSM，是将文本表示成数值表示的向量。在使用VSM做文本相似度计算时，其基本步骤是： 1）将文本分词，提取特征词s:（t1,t2,t3,t4） 2）将特征词用权重表示，从而将文本表示成数值向量s:(w1,w2,w3,w4)，权重表示的方式一般使用tfidf 3）计算文本向量间的余弦值，判断文本间的相似度缺点：空间向量模型...

2018-09-15 11:08:04 2688

原创 pip 安装包时报‘Microsoft Visual C++ 14.0 is required‘’问题的解决

1.打开：https://www.lfd.uci.edu/~gohlke/pythonlibs/2.选择自己需要下载的包： 3.下载与Python对应的版本： 4.安装：

2018-03-26 17:24:40 295

原创爬虫—phantomJS极验拼图破解

在全国企业信用信息系统中搜索信息时，可以看到以下验证码：破解思路： 1.从div中或取乱序的图片及坐标，乱序图片如下图： 2.根据获取到的乱序图片及坐标将图片拼完整，如下图：， 3.计算两张图片的像素差，并计算缺口位置，如下图： 4.根据缺口位置模拟人的行为拖动滑块 ...

2017-10-27 16:20:34 469

原创 MapReduce框架详解

Hadoop学习笔记：MapReduce框架详解http://blog.jobbole.com/84089/

2017-06-16 16:14:20 115

MPICH2-64位

空空如也