loveitlovelife-CSDN博客

原创 pycharm 使用（jihuo）方法

2.下载ja-netfilter，并解压。3.进入pycharm安装目录，找到文件。1.安装pycharm;

2023-09-26 17:39:41 109

原创 NER解决方案——biaffine

双仿射注意力：引入双仿射注意力矩阵，分别与ffn输出层做矩阵计算；编码：经过bert编码，分别送入到两个ffn层，输出：获取输出评分矩阵，loss为交叉熵损失函数。引入双仿射注意力矩阵，可以解决实体嵌套问题。

2023-04-08 19:34:57 573

对于BIO标注，I-PER 不可能接在B-LOC之后，同样I-PER和I-LOC也不可能出现在相邻序列当中。因此需要一种方法去约束这种条件，CRF通过构造转移矩阵，学习各个标签之间的转移概率，通过这种方式可以大大减少无效标签序列的产生。目标：给每一个可能的标注序列算一个分数，通过训练，使得那个唯一的真实的标签序列得分最高。优点：1、去掉池化层；step2：获取最后一步的最大概率值，然后反向查找当前概率下的路径。由以上公式，可以递归求出所有路径的分数，的发射概率，由NN网络提供；的转移概率，由CRF提供；

2023-03-26 00:04:36 634

原创 NER解决方案——词典匹配

NER全称是命名实体识别（Named Entity Recognition, NER），旨在识别文本中专有名词，如位置、组织和时间。输入：小明在北京大学的燕园看了中国男篮的一场比赛输出：B-PER，E-PER，O, B-ORG，I-ORG，I-ORG，E-ORG，O，B-LOC，E-LOC，O，O，B-ORG，I-ORG，I-ORG，E-ORG，O，O，O，O其中，“小明 ”以PER，“北京大学”以ORG，“燕园”以LOC，“中国男篮”以ORG为实体类别分别挑了出来。

2023-03-12 18:22:09 748

原创 NER常见的解决方案汇总(deep learning)

NER （Named Entity Recognition）即命名实体识别。顾名思义就是识别文本当中的实体信息。举个例子，输入：张三现在在武汉市江夏区金融港输出：B-PER，E-PER，O, O，O,B-CITY，I-CITY，E-CITY，B-DISTRICT，I-DISTRICT，E-DISTRICT，B-LOCATION,I-LOCATION,-E-LOCATION其中，“张三”以PER，“武汉市”以CITY，“江夏区”以DISTRICT，“金融港”以LOCATION为实体类别分别挑了出来。

2023-03-12 18:03:40 557

原创 typora使用(po jie)方法

typora 是一个很好的markdown编辑器，操作简单便捷，用一次爱不释手，之前限制于其强制更新，导致无法使用，在网上搜了一大圈总结出了如下方案，可以无限试用（使用）：方法：目测是可以永久使用了...

2022-08-19 10:07:13 60

原创 Elatstic search 8.0 在nlp任务中的实践

文章目录NLP模块介绍支持的任务实践模型加载模型部署NLP任务创建pipline总结Elastic search 8.0 在今年2月份更新，涉及nlp方面的有两个大的功能点，分别为：向量检索提高搜索相关性NLP组件支持NLP任务向量检索已在博客Elatstic search 8.0 在knn检索中的实践中介绍这里讨论NLP相关任务模块。NLP模块介绍elastic search8.0在NLP任务上的基本框架有了如下变化：es内置工具eland 在8.0之前支持数据统计和数据挖掘功

2022-04-16 16:08:57 2176 1

原创 Elatstic search 8.0 在knn检索中的实践

Elastic search 8.0 在今年2月份更新，涉及nlp方面的有两个大的功能点，分别为：向量检索提高搜索相关性NLP组件支持NLP任务向量检索这一部分可以参考我之前写的博客：https://blog.csdn.net/loveitlovelife/article/details/122567795其结构为HNSW索引，该类型索引在ANN索引模型当中表现最优，其他索引类型如树模型、矢量模型相关介绍和其实从7.0开始就已经对向量这一块做了一些处理和计算...

2022-04-16 13:50:58 3089

原创向量检索的索引构建算法综述

这里写自定义目录标题VectorRetrievalgithub落地场景背景框架检索模型——暴力搜索、倒排索引检索模型——kd-Tree、AnnoyKD-Tree:Annoy:检索模型——LSH检索模型——PQ检索模型——NSW、HNSWNSW:HNSW:result:检索框架Elastic SearchFaissMilvus业界的落地情况MilvusFaissMilvusFaissVectorRetrievalgithub仿真代码：https://github.com/KATEhuang920909/

2022-01-18 20:28:51 3014 1

原创文本匹配-bert_siamese_finetuning

文章目录github输入层bert层lstm层输出层loss &optimizerrun总结之前写了一个tensorflow1的版本，见https://github.com/KATEhuang920909/bert-siamese-matching最近摸索了一番写了一个bert-siamese的微调版本，主要是基于keras，另外借鉴了苏神的bert4keras框架，整体结构看起来比t1舒服多了。。githubhttps://github.com/KATEhuang920909/fine

2022-01-10 00:09:23 1077 2

原创文本匹配-dssm

文章目录前言DSSM深度语义匹配模型输入层表示层匹配层训练阶段优缺点模型改进Learning Deep Structured Semantic Models for Web Search using Clickthrough Data前言传统文本相似性如BM25、tf-idf等，无法发现语义的query-doc相似对，因此DSSM为计算语义相似度提供了一种方法。DSSM深度语义匹配模型DSSM模型结构如下：输入层在输入层用到了word hashing操作，这里用了n-grams方式进行has

2021-07-19 23:17:08 350

原创文本匹配-HIM(ESIM)

文章目录论文链接地址github前言整体模型结构输入编码层（Input Encoding)局部推理层（Local Inference Modeling）损失函数欢迎指正论文链接地址Enhanced LSTM for Natural Language Inferencegithubto be continued前言\quad本文主要介绍了一种复杂网络建立自然语言推理模型，创新点在于：基于链式的LSTM网络，进一步通过在局部推理建模和推理组合中明确考虑递归架构，同时合并了语法解析信息。整体模型结构

2021-07-19 23:11:59 235 1

原创文本匹配-bimpm

文章目录论文链接地址github前言信息检索中的匹配问题表征式模型（representation focused model）交互式模型（interaction focused model）语义匹配和相关性匹配语义匹配相关性匹配DRMM模型结构局部交互（local interaction)匹配直方图映射（Matching Histogram Mapping)前馈神经网络门结构得分聚合损失函数欢迎指正论文链接地址Bilateral Multi-Perspective Matching for Natura

2021-07-09 01:26:43 348 1

原创文本匹配-drmm

文章目录论文链接地址github前言信息检索中的匹配问题表征式模型（representation focused model）交互式模型（interaction focused model）语义匹配和相关性匹配模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址A Deep Relevance Matching Model for Ad-hoc Retrievalgithubhttps://github.com/KATEhuang920909/deep_text_match

2021-07-02 01:32:47 649 1

原创文本匹配-siamese-bilstm

文章目录论文链接地址github前言模型结构输入层siamese-BiLSTM层输出层损失函数欢迎指正论文链接地址Learning Text Similarity with Siamese Recurrent Networksgithubhttps://github.com/KATEhuang920909/deep_text_match前言本文提出了一种文本匹配的深度神经网络结构。为有监督任务，该模型将字符级双向LSTM的堆栈与Siamese体系结构相结合。输入两个文本字符级特征，输出两段文本的

2021-06-29 01:35:58 845 1

原创文本匹配-duet

文章目录论文链接地址提出假设模型结构local modeldistributed modeloutput layeroptimizationgithub:最近上传to be continued论文链接地址Learning to Match using Local and Distributed Representations of Text for Web Search提出假设分布式表示的匹配与传统局部表示的匹配是互补的，并且两者的结合是有利的模型结构\quad模型由两大部分组成，一部分使用lo

2021-06-22 01:45:22 316 1

原创文本匹配相关论文

文章目录前言传统方法深度文本匹配DSSM :CDSSM:ARC II:CNTN：LSTM-RNN:MV-LSTMMatchPyramidMatch-SRNNKNRMConv-KNRMDRMMSiamese-LSTMDAMESIMDUETBiMPMDIINDRCNRE2DUABERT前言\quad 文本匹配在信息检索、自动问答、对话系统当中有广泛的应用，这些任务都可以抽象成query和候选doc之间的匹配问题。工作期间我零零碎碎的去熟悉和掌握相关模型和方法，不过我还是觉得很有必要将这些东西系统的整理一遍

2021-01-18 00:27:04 683

原创多进程分布式爬虫与普通爬虫方法对比

python中实现多进程主要在 multiprocessing库中实现，之前利用分布式爬虫与普通爬虫做了一个对比，部分代码如下：import multiprocessing as mpclass craw_method(analysis): # 获取最近100条新闻信息 def norml(self,): # result_content.colu ...

2020-02-28 23:57:26 410

原创同步&异步 //并发&并行 //阻塞&非阻塞 //多线程&多进程

1.同步 & 异步同步在发出一个功能调用时，在没有得到结果之前，该调用就不返回。也就是必须一件一件事做，等前一件做完了才能做下一件事。eg: 普通B/S模式（同步）：提交请求-> 等待服务器处理->处理完毕返回这个期间客户端浏览器不能干任何事。异步当一个异步过程调用发出后，调用者不能立即得到结果。实际处理这个调用的部件在完成后，通过状态、通知和回调来通知调用者。...

2020-02-28 23:39:31 280

原创 win10+cuda9.0+cuDNN7 +python3.6.1+tensorflow1.10.0

之前也装过很多遍了，记录下来以后就不用到处找了。安装tensorflow的gpu版：1.查看GPU型号，寻找对应的cuda2.下载并安装：3.配置环境：(1)CUDA_BIN_PATH%CUDA_PATH%\bin(2)CUDA_LIB_PATH%CUDA_PATH%\lib\x64(3)CUDA_SDK_PATHC:\ProgramData\NVIDIA Corpora...

2020-02-14 20:14:46 267

原创 945. Minimum Increment to Make Array Unique（python)

Given an array of integers A, a move consists of choosing any A[i], and incrementing it by 1.Return the least number of moves to make every value in A unique.Example 1:Input: [1,2,2]Output: 1E...

2019-11-14 14:57:20 166

原创 zip /enumerate

zip:将相关元素打包成元组，返回元组组成的列表>>> l = ['a', 'b', 'c', 'd', 'e','f']>>> list(zip(l[:-1],l[1:]))[('a', 'b'), ('b', 'c'), ('c', 'd'), ('d', 'e'), ('e', 'f')]>>> nums = ['flowe...

2019-11-14 12:45:31 96

原创信息熵概念&公式总结

信息量：特征的不确定性I(x)=−logP(x)I(x) =-log P(x)I(x)=−logP(x)信息熵：特征不确定性均值H(x)=−∑xP(x)logp(x)H(x) =-\sum_x P(x)log p(x)H(x)=−∑xP(x)logp(x)联合熵：训练即总体的不确定性H(x,y)=−∑xP(x,y)logP(x,y)H(x,y) =-\sum_x P(x...

2019-11-14 01:35:49 3021 1

原创相关优化方法

GD步骤：1.计算在a点的梯度u=∇aJ(θ)u=\nabla _aJ(\theta)u=∇aJ(θ)2.参数变量wiw_iwi向梯度反方向移动：θ=θ−ϵ∗u\theta=\theta -\epsilon*uθ=θ−ϵ∗u3.循环步骤1和2,直至达到最大循环次数或满足f(x)f(x)f(x)收敛条件。则返回xxx作为函数f(x)f(x)f(x)的最小值近似解。SGD梯度是期望，期...

2019-11-13 01:06:02 183

原创 83. Remove Duplicates from Sorted List(python)

Given a sorted linked list, delete all duplicates such that each element appear only once.Example 1:Input: 1->1->2Output: 1->2Example 2:Input: 1->1->2->3->3Output: 1->...

2019-11-12 12:23:57 137

原创神经网络中的attention机制及tensorflow实现

参考文献：Hierarchical Attention Networks for Document Classification文献中主要讨论了层次的注意力机制在文本分类中的应用，这里的两层神经网络模型结构基本相同首先通过word_embedding将每一个句子的单词映射成embedding向量，输入到神经网络当中，此处为双向GRU网络，然后加入attention机制，实际上就是添加两层网...

2019-11-12 01:17:56 4323 1

原创 tensorflow基本操作

import tensorflow as tf#导包tf.name_scope:定义操作名称with tf.name_scope('Weights'): #操作名称 Weights=tf.Variable(tf.random_normal([in_size,out_size]),name='W'）记录weights变化情况tf.summary.histogram(layer_name...

2019-11-11 23:10:50 111

原创 942. DI String Match(python)

Given a string S that only contains "I" (increase) or "D" (decrease), let N = S.length.Return any permutation A of [0, 1, ..., N] such that for all i = 0, ..., N-1:If S[i] == "I", then A[i] < A...

2019-11-09 21:02:04 106

原创 26. Remove Duplicates from Sorted Array (python)

Given a sorted array nums, remove the duplicates in-place such that each element appear only once and return the new length.Do not allocate extra space for another array, you must do this by modifyi...

2019-11-09 20:11:54 108

原创 61. Rotate List

Given a linked list, rotate the list to the right by k places, where k is non-negative.Example 1:Input: 1->2->3->4->5->NULL, k = 2Output: 4->5->1->2->3->NULLExplanat...

2019-11-08 02:56:40 78

原创 739. Daily Temperatures

给定每日温度列表T，请返回一个列表，以便对于输入中的每一天，告诉您要等到温度升高才需要多少天。如果没有将来的可能，请0改写。例如，给定温度列表T = [73, 74, 75, 71, 69, 72, 76, 73]，您的输出应为[1, 1, 4, 2, 1, 1, 0, 0]。注意：的长度temperatures将在范围内[1, 30000]。每个温度都是该范围内的整数[30, 100]。...

2019-11-07 16:16:48 95 1

原创 957. Prison Cells After N Days (python)

连续有8个牢房，每个牢房都被占用或空着。每天，牢房是被占用还是空置都根据以下规则进行更改：如果一个单元有两个相邻的邻居都被占用或都空着，则该单元将被占用。否则，它将变为空置。（请注意，因为监狱是一排，所以该行中的第一个和最后一个单元不能有两个相邻的邻居。）我们通过以下方式描述监狱的当前状态： cells[i] == 1如果第- i个牢房被占用，否则cells[i] == 0。给定监狱...

2019-11-06 14:25:04 161

原创 916. Word Subsets(python)

We are given two arrays A and B of words. Each word is a string of lowercase letters.Now, say that word b is a subset of word a if every letter in b occurs in a, including multiplicity. For example...

2019-11-06 13:32:31 118

原创 48. Rotate Image(python)

You are given an n x n 2D matrix representing an image.Rotate the image by 90 degrees (clockwise).Note:You have to rotate the image in-place, which means you have to modify the input 2D matrix dire...

2019-11-05 20:12:37 464

原创 46. Permutations/47. Permutations II

递归大法好：class Solution(object): def permute(self, nums): """ :type nums: List[int] :rtype: List[List[int]] """ res=[] #递归 if len(nums) >=2...

2019-11-05 18:47:59 88 1

原创 linux 安装tensorflow-gpu 出现no space left on device

在公司服务器上装tensorflow-gpu 出现如下问题：大概是tmp没有足够的空间来安装，因此可以定义临时位置，设置临时环境变量TMPDIR：可以正常安装了：...

2019-10-21 16:49:32 821

原创词干提取和词形还原

词干提取：作用：去除后缀并输出词的词干。porterStremmer/LancasterStremmer：from nltk import PorterStemmer ,LancasterStemmer,word_tokenizeraw="My name is Maximus Decimus Meridius,commander of the armies of the North,...

2019-10-18 18:42:31 701 1

原创编辑距离python

编辑距离，又称又称Levenshtein距离，指从一个字符串转换为另一个字符串的最小操作步骤，编辑操作包括插入、删除、替换三种操作。编辑距离越小，两个字符串的相似度越大。python代码实现如下：def edit_distance(str1,str2): dp=[[0]*len(str1)]*len(str2) #dp[i][j]表示表示A串从第0个字符开始到第i...

2019-10-16 19:32:55 504

原创词义消歧（基于词向量）

from gensim.models import Word2Vecmodel = Word2Vec.load('word2.model')content=['用','苹果','性能','好','分辨率','高']des1=['美国','一家','高科技','公司','经典','产品','有','iphone','手机']des2=['水果','一种','产自']def w2v_m...

2019-10-16 16:18:54 2434 4

原创 WordNet介绍及相似度计算

WordNet 是一种英语词典，可以根据单词的语义信息构建语义网络。其将词汇分为五大类：名词、动词、形容词、副词和虚词。语义关系包括上下位关系，同义关系，反义关系。通过各种关系，可以丰富语料信息，可应用于词义消歧、相似度计算等问题。导入nltk相关包，下载语料集。获取单词的所有含义。固定词性下的词集相关词语含义下的定义，举例等。固定词语含义下的同义词集上位词...

2019-10-16 12:54:00 4121 2

空空如也

python二叉树输出结果为什么是这样