自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 问答 (1)
  • 收藏
  • 关注

原创 pycharm 使用(jihuo)方法

2.下载ja-netfilter,并解压。3.进入pycharm安装目录,找到文件。1.安装pycharm;

2023-09-26 17:39:41 109

原创 NER解决方案——biaffine

双仿射注意力:引入双仿射注意力矩阵,分别与ffn输出层做矩阵计算;编码: 经过bert编码,分别送入到两个ffn层,输出:获取输出评分矩阵,loss为交叉熵损失函数。引入双仿射注意力矩阵,可以解决实体嵌套问题。

2023-04-08 19:34:57 573

原创 NER解决方案——NN-CRF

对于BIO标注,I-PER 不可能接在B-LOC之后,同样I-PER和I-LOC也不可能出现在相邻序列当中。因此需要一种方法去约束这种条件,CRF通过构造转移矩阵,学习各个标签之间的转移概率,通过这种方式可以大大减少无效标签序列的产生。目标:给每一个可能的标注序列算一个分数,通过训练,使得那个唯一的真实的标签序列得分最高。优点:1、去掉池化层;step2: 获取最后一步的最大概率值,然后反向查找当前概率下的路径。由以上公式,可以递归求出所有路径的分数,的发射概率,由NN网络提供;的转移概率,由CRF提供;

2023-03-26 00:04:36 634

原创 NER解决方案——词典匹配

NER全称是命名实体识别(Named Entity Recognition, NER),旨在识别文本中专有名词,如位置、组织和时间。输入:小明在北京大学的燕园看了中国男篮的一场比赛输出:B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O其中,“小明 ”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG为实体类别分别挑了出来。

2023-03-12 18:22:09 748

原创 NER常见的解决方案汇总(deep learning)

NER (Named Entity Recognition)即命名实体识别。顾名思义就是识别文本当中的实体信息。举个例子,输入:张三现在在武汉市江夏区金融港输出:B-PER,E-PER,O, O,O,B-CITY,I-CITY,E-CITY,B-DISTRICT,I-DISTRICT,E-DISTRICT,B-LOCATION,I-LOCATION,-E-LOCATION其中,“张三”以PER,“武汉市”以CITY,“江夏区”以DISTRICT,“金融港”以LOCATION为实体类别分别挑了出来。

2023-03-12 18:03:40 557

原创 typora使用(po jie)方法

typora 是一个很好的markdown编辑器,操作简单便捷,用一次爱不释手,之前限制于其强制更新,导致无法使用,在网上搜了一大圈总结出了如下方案,可以无限试用(使用):方法:目测是可以永久使用了...

2022-08-19 10:07:13 60

原创 Elatstic search 8.0 在nlp任务中的实践

文章目录NLP模块介绍支持的任务实践模型加载模型部署NLP任务创建pipline总结Elastic search 8.0 在今年2月份更新,涉及nlp方面的有两个大的功能点,分别为:向量检索提高搜索相关性NLP组件支持NLP任务向量检索已在博客Elatstic search 8.0 在knn检索中的实践 中介绍这里讨论NLP相关任务模块。NLP模块介绍elastic search8.0在NLP任务上的基本框架有了如下变化:es内置工具eland 在8.0之前支持数据统计和数据挖掘功

2022-04-16 16:08:57 2176 1

原创 Elatstic search 8.0 在knn检索中的实践

Elastic search 8.0 在今年2月份更新,涉及nlp方面的有两个大的功能点,分别为:向量检索提高搜索相关性NLP组件支持NLP任务向量检索这一部分可以参考我之前写的博客:https://blog.csdn.net/loveitlovelife/article/details/122567795其结构为HNSW索引,该类型索引在ANN索引模型当中表现最优,其他索引类型如树模型、矢量模型相关介绍和其实从7.0开始就已经对向量这一块做了一些处理和计算...

2022-04-16 13:50:58 3089

原创 向量检索的索引构建算法综述

这里写自定义目录标题VectorRetrievalgithub落地场景背景框架检索模型——暴力搜索、倒排索引检索模型——kd-Tree、AnnoyKD-Tree:Annoy:检索模型——LSH检索模型——PQ检索模型——NSW、HNSWNSW:HNSW:result:检索框架Elastic SearchFaissMilvus业界的落地情况MilvusFaissMilvusFaissVectorRetrievalgithub仿真代码:https://github.com/KATEhuang920909/

2022-01-18 20:28:51 3014 1

原创 文本匹配-bert_siamese_finetuning

文章目录github输入层bert层lstm层输出层loss &optimizerrun总结之前写了一个tensorflow1的版本,见https://github.com/KATEhuang920909/bert-siamese-matching最近摸索了一番写了一个bert-siamese的微调版本,主要是基于keras,另外借鉴了苏神的bert4keras框架,整体结构看起来比t1舒服多了。。githubhttps://github.com/KATEhuang920909/fine

2022-01-10 00:09:23 1077 2

原创 文本匹配-dssm

文章目录前言DSSM深度语义匹配模型输入层表示层匹配层训练阶段优缺点模型改进Learning Deep Structured Semantic Models for Web Search using Clickthrough Data前言传统文本相似性如BM25、tf-idf等,无法发现语义的query-doc相似对,因此DSSM为计算语义相似度提供了一种方法。DSSM深度语义匹配模型DSSM模型结构如下:输入层在输入层用到了word hashing操作,这里用了n-grams方式进行has

2021-07-19 23:17:08 350

原创 文本匹配-HIM(ESIM)

文章目录论文链接地址github前言整体模型结构输入编码层(Input Encoding)局部推理层(Local Inference Modeling)损失函数欢迎指正论文链接地址Enhanced LSTM for Natural Language Inferencegithubto be continued前言\quad本文主要介绍了一种复杂网络建立自然语言推理模型,创新点在于:基于链式的LSTM网络,进一步通过在局部推理建模和推理组合中明确考虑递归架构,同时合并了语法解析信息。整体模型结构

2021-07-19 23:11:59 235 1

原创 文本匹配-bimpm

文章目录论文链接地址github前言信息检索中的匹配问题表征式模型(representation focused model)交互式模型(interaction focused model)语义匹配和相关性匹配语义匹配相关性匹配DRMM模型结构局部交互(local interaction)匹配直方图映射(Matching Histogram Mapping)前馈神经网络门结构得分聚合损失函数欢迎指正论文链接地址Bilateral Multi-Perspective Matching for Natura

2021-07-09 01:26:43 348 1

原创 文本匹配-drmm

文章目录论文链接地址github前言信息检索中的匹配问题表征式模型(representation focused model)交互式模型(interaction focused model)语义匹配和相关性匹配模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址A Deep Relevance Matching Model for Ad-hoc Retrievalgithubhttps://github.com/KATEhuang920909/deep_text_match

2021-07-02 01:32:47 649 1

原创 文本匹配-siamese-bilstm

文章目录论文链接地址github前言模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址Learning Text Similarity with Siamese Recurrent Networksgithubhttps://github.com/KATEhuang920909/deep_text_match前言本文提出了一种文本匹配的深度神经网络结构。为有监督任务,该模型将字符级双向LSTM的堆栈与Siamese体系结构相结合。输入两个文本字符级特征,输出两段文本的

2021-06-29 01:35:58 845 1

原创 文本匹配-duet

文章目录论文链接地址提出假设模型结构local modeldistributed modeloutput layeroptimizationgithub:最近上传to be continued论文链接地址Learning to Match using Local and Distributed Representations of Text for Web Search提出假设分布式表示的匹配与传统局部表示的匹配是互补的,并且两者的结合是有利的模型结构\quad模型由两大部分组成,一部分使用lo

2021-06-22 01:45:22 316 1

原创 文本匹配相关论文

文章目录前言传统方法深度文本匹配DSSM :CDSSM:ARC II:CNTN:LSTM-RNN:MV-LSTMMatchPyramidMatch-SRNNKNRMConv-KNRMDRMMSiamese-LSTMDAMESIMDUETBiMPMDIINDRCNRE2DUABERT前言\quad 文本匹配在信息检索、自动问答、对话系统当中有广泛的应用,这些任务都可以抽象成query和候选doc之间的匹配问题。工作期间我零零碎碎的去熟悉和掌握相关模型和方法,不过我还是觉得很有必要将这些东西系统的整理一遍

2021-01-18 00:27:04 683

原创 多进程分布式爬虫与普通爬虫方法对比

python中实现多进程主要在 multiprocessing库中实现,之前利用分布式爬虫与普通爬虫做了一个对比,部分代码如下:import multiprocessing as mpclass craw_method(analysis): # 获取最近100条新闻信息 def norml(self,): # result_content.colu ...

2020-02-28 23:57:26 410

原创 同步&异步 //并发&并行 //阻塞&非阻塞 //多线程&多进程

1.同步 & 异步同步在发出一个功能调用时,在没有得到结果之前,该调用就不返回。也就是必须一件一件事做,等前一件做完了才能做下一件事。eg: 普通B/S模式(同步):提交请求-> 等待服务器处理->处理完毕返回 这个期间客户端浏览器不能干任何事。异步当一个异步过程调用发出后,调用者不能立即得到结果。实际处理这个调用的部件在完成后,通过状态、通知和回调来通知调用者。...

2020-02-28 23:39:31 280

原创 win10+cuda9.0+cuDNN7 +python3.6.1+tensorflow1.10.0

之前也装过很多遍了,记录下来以后就不用到处找了。安装tensorflow的gpu版:1.查看GPU型号,寻找对应的cuda2.下载并安装:3.配置环境:(1)CUDA_BIN_PATH%CUDA_PATH%\bin(2)CUDA_LIB_PATH%CUDA_PATH%\lib\x64(3)CUDA_SDK_PATHC:\ProgramData\NVIDIA Corpora...

2020-02-14 20:14:46 267

原创 945. Minimum Increment to Make Array Unique(python)

Given an array of integers A, a move consists of choosing any A[i], and incrementing it by 1.Return the least number of moves to make every value in A unique.Example 1:Input: [1,2,2]Output: 1E...

2019-11-14 14:57:20 166

原创 zip /enumerate

zip:将相关元素打包成元组,返回元组组成的列表>>> l = ['a', 'b', 'c', 'd', 'e','f']>>> list(zip(l[:-1],l[1:]))[('a', 'b'), ('b', 'c'), ('c', 'd'), ('d', 'e'), ('e', 'f')]>>> nums = ['flowe...

2019-11-14 12:45:31 96

原创 信息熵概念&公式总结

信息量:特征的不确定性I(x)=−logP(x)I(x) =-log P(x)I(x)=−logP(x)信息熵: 特征不确定性均值H(x)=−∑xP(x)logp(x)H(x) =-\sum_x P(x)log p(x)H(x)=−∑x​P(x)logp(x)联合熵: 训练即总体的不确定性H(x,y)=−∑xP(x,y)logP(x,y)H(x,y) =-\sum_x P(x...

2019-11-14 01:35:49 3021 1

原创 相关优化方法

GD步骤:1.计算在a点的梯度u=∇aJ(θ)u=\nabla _aJ(\theta)u=∇a​J(θ)2.参数变量wiw_iwi​向梯度反方向移动:θ=θ−ϵ∗u\theta=\theta -\epsilon*uθ=θ−ϵ∗u3.循环步骤1和2,直至达到最大循环次数或满足f(x)f(x)f(x)收敛条件。则返回xxx作为函数f(x)f(x)f(x)的最小值近似解。SGD梯度是期望,期...

2019-11-13 01:06:02 183

原创 83. Remove Duplicates from Sorted List(python)

Given a sorted linked list, delete all duplicates such that each element appear only once.Example 1:Input: 1->1->2Output: 1->2Example 2:Input: 1->1->2->3->3Output: 1->...

2019-11-12 12:23:57 137

原创 神经网络中的attention机制及tensorflow实现

参考文献:Hierarchical Attention Networks for Document Classification文献中主要讨论了层次的注意力机制在文本分类中的应用,这里的两层神经网络模型结构基本相同首先通过word_embedding将每一个句子的单词映射成embedding向量,输入到神经网络当中,此处为双向GRU网络,然后加入attention机制,实际上就是添加两层网...

2019-11-12 01:17:56 4323 1

原创 tensorflow基本操作

import tensorflow as tf#导包tf.name_scope:定义操作名称with tf.name_scope('Weights'): #操作名称 Weights=tf.Variable(tf.random_normal([in_size,out_size]),name='W')记录weights变化情况tf.summary.histogram(layer_name...

2019-11-11 23:10:50 111

原创 942. DI String Match(python)

Given a string S that only contains "I" (increase) or "D" (decrease), let N = S.length.Return any permutation A of [0, 1, ..., N] such that for all i = 0, ..., N-1:If S[i] == "I", then A[i] < A...

2019-11-09 21:02:04 106

原创 26. Remove Duplicates from Sorted Array (python)

Given a sorted array nums, remove the duplicates in-place such that each element appear only once and return the new length.Do not allocate extra space for another array, you must do this by modifyi...

2019-11-09 20:11:54 108

原创 61. Rotate List

Given a linked list, rotate the list to the right by k places, where k is non-negative.Example 1:Input: 1->2->3->4->5->NULL, k = 2Output: 4->5->1->2->3->NULLExplanat...

2019-11-08 02:56:40 78

原创 739. Daily Temperatures

给定每日温度列表T,请返回一个列表,以便对于输入中的每一天,告诉您要等到温度升高才需要多少天。如果没有将来的可能,请0改写。例如,给定温度列表T = [73, 74, 75, 71, 69, 72, 76, 73],您的输出应为[1, 1, 4, 2, 1, 1, 0, 0]。注意: 的长度temperatures将在范围内[1, 30000]。每个温度都是该范围内的整数[30, 100]。...

2019-11-07 16:16:48 95 1

原创 957. Prison Cells After N Days (python)

连续有8个牢房,每个牢房都被占用或空着。每天,牢房是被占用还是空置都根据以下规则进行更改:如果一个单元有两个相邻的邻居都被占用或都空着,则该单元将被占用。否则,它将变为空置。(请注意,因为监狱是一排,所以该行中的第一个和最后一个单元不能有两个相邻的邻居。)我们通过以下方式描述监狱的当前状态: cells[i] == 1如果第- i个牢房被占用,否则cells[i] == 0。给定监狱...

2019-11-06 14:25:04 161

原创 916. Word Subsets(python)

We are given two arrays A and B of words. Each word is a string of lowercase letters.Now, say that word b is a subset of word a if every letter in b occurs in a, including multiplicity. For example...

2019-11-06 13:32:31 118

原创 48. Rotate Image(python)

You are given an n x n 2D matrix representing an image.Rotate the image by 90 degrees (clockwise).Note:You have to rotate the image in-place, which means you have to modify the input 2D matrix dire...

2019-11-05 20:12:37 464

原创 46. Permutations/47. Permutations II

递归大法好:class Solution(object): def permute(self, nums): """ :type nums: List[int] :rtype: List[List[int]] """ res=[] #递归 if len(nums) >=2...

2019-11-05 18:47:59 88 1

原创 linux 安装tensorflow-gpu 出现no space left on device

在公司服务器上装tensorflow-gpu 出现如下问题:大概是tmp没有足够的空间来安装,因此可以定义临时位置,设置临时环境变量TMPDIR:可以正常安装了:...

2019-10-21 16:49:32 821

原创 词干提取和词形还原

词干提取:作用:去除后缀并输出词的词干。porterStremmer/LancasterStremmer:from nltk import PorterStemmer ,LancasterStemmer,word_tokenizeraw="My name is Maximus Decimus Meridius,commander of the armies of the North,...

2019-10-18 18:42:31 701 1

原创 编辑距离python

编辑距离,又称又称Levenshtein距离,指从一个字符串转换为另一个字符串的最小操作步骤,编辑操作包括插入、删除、替换三种操作。编辑距离越小,两个字符串的相似度越大。python代码实现如下:def edit_distance(str1,str2): dp=[[0]*len(str1)]*len(str2) #dp[i][j]表示表示A串从第0个字符开始到第i...

2019-10-16 19:32:55 504

原创 词义消歧(基于词向量)

from gensim.models import Word2Vecmodel = Word2Vec.load('word2.model')content=['用','苹果','性能','好','分辨率','高']des1=['美国','一家','高科技','公司','经典','产品','有','iphone','手机']des2=['水果','一种','产自']def w2v_m...

2019-10-16 16:18:54 2434 4

原创 WordNet介绍及相似度计算

WordNet 是一种英语词典,可以根据单词的语义信息构建语义网络。其将词汇分为五大类:名词、动词、形容词、副词和虚词。语义关系包括上下位关系,同义关系,反义关系。通过各种关系,可以丰富语料信息,可应用于词义消歧、相似度计算等问题。导入nltk相关包,下载语料集。获取单词的所有含义。固定词性下的词集相关词语含义下的定义,举例等。固定词语含义下的同义词集上位词...

2019-10-16 12:54:00 4121 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除