毅强-CSDN博客

原创远程监督关系抽取知识汇总已经给您打包完成(不断更新！！)

笔者最近在学习利用远程监督范式做关系抽取任务。在读论文和调试代码的过程中，发现有些论文里的细节我是在调试代码才弄懂的，例如论文中说的Precision和Recall值指的是多示例学习中包级别的准确率和召回率。那么多示例学习是什么呢？远程监督有事如何做关系抽取任务的呢？相信这篇文章你会有一定的收货～背景关系抽取任务是在非结构化的文本中抽取出关系事实，并且这种关系事实可以应用到知识图谱、问答、搜索引擎等下游任务当中。神经网络的出现，使得有监督的关系抽取得到了很好的提升，但是有监督的学习对有标注的数据.

2020-07-30 09:47:47 2041 1

原创 SemEval等数据集SOTA又刷新啦！！ Downstream Model Design of Pre-trained language Model for Relation Extraction

《Downstream Model Design of Pre-trained language Model for Relation Extraction》该论文是华为在2020自然语言处理顶会ACL上发表的一片文章。论文所提出的REDN模型在SemEval 2010 task 8、NYT以及WebNLG上完成SOTA结果。个人认为该篇论文的创新点还是比较好的，构思非常的巧妙。目录1 背景2 与其他工作的对比3 方法3.1 编码器3.2 关系计算层3.3 损失函...

2020-07-24 11:40:10 966 3

原创运用sys.path.append()解决python两个包之间子文件引用问题！

平时里笔者在利用pychram变成是没有发现包与包之间的子文件引用出现问题，原因是在pycharm中自动为你写好了文件之间的引用路径，使两个同级包内的子文件是可以访问的。但是，当笔者复现别人的代码使，由于在CentOS服务器上跑实验，这种包之间的错误就显现了出来。错误描述：首先文件结构如下图所示：在test文件夹下有两个文件夹model、code。model文件夹下有一个python文件：show.py；code文件夹下有一个python文件：test.py；两段代码分别为：# T.

2020-07-21 16:03:47 1694

原创 Bandicam安装教程（含免费百度网盘资源链接+教程）

Bandicam是我用过的最好用的录屏软件，这款录屏软件免费无会员时间限制，而且操作简单，中文汉化，界面简洁且功能强大；话不多说，直接上百度网盘链接，绝对良心资源，好用给个赞呦~~；百度网盘资源链接：https://pan.baidu.com/s/1moWFjNeOl1GsZaWoN25lpg提取密码：u92d安装步骤：.解压”软件.zip”文件进入解压好软件文件点击运行”Bandicam_2.0.3.674.exe”...

2020-06-14 18:45:44 6321 2

原创 [错误记录] RuntimeError: index out of range: Tried to access index 30522 out of table with 30521 rows.

问题描述：在很多的nlp任务当中，我们会为类似于Bert的预训练模型填入一些在其tokenizer词表中未出现过的词，这样做的目的是为了防止这种未出现过的词在tokenizer拆分时不被拆分成别的单词。Eg.The system as described above has its greatest application in an arrayed <e1> configuration </e1> of antenna <e2> elements </e

2020-06-12 16:38:22 2725

原创 Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers [论文研读]

笔者之前写过一些论文的讲解文章，都是按照论文的基本顺序：摘要、介绍、相关工作、方法、实验和总结的顺序。这星期在实验室论文分享上，分享了《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》这篇文章，突然有了想法，如果一味的按照论文的顺序写一些类似于“翻译”的博客，也没有什么价值。不如按照自己的思路，能把别人讲懂了，比什么都强。这篇博客，我按照我自己理解的逻辑，来给大家讲解这篇文章，以后的文章也都按照这样的思路，希望.

2020-05-22 12:41:44 1689 7

原创 Joint entity recognition and relation extraction as a multi-head selection problem [论文精度&代码讲解]

中文信息学会和百度等举办的2020语言与智能技术竞赛，我对关系抽取赛道的题目比较感兴趣，报名并参加了该赛题，查阅相关资料，笔者决定基础模型为Model（Bert+Multi-Headselection），一是之前对bert有些学习和利用，二是利用Multi-Headselection范式解决在一个Text中，抽取多实体多关系问题，此博客记录一下比赛研究过程，在关系抽取领域学习研究不到一...

2020-04-08 19:36:55 3771 5

原创 Jointly Extracting Multiple Triplets with Multilayer Translation Constraints [论文研读]

一般的关系抽取方法是首先进行命名实体识别(NER)，然后在进行关系分类(RC)输出抽取出的三元组(SPO)。在AAAI上的这篇论文《Jointly Extracting Multiple Triplets with Multilayer Translation Constraints》就提出了一个新的解决关系抽取的模型，可以联合命名实体识别和关系分类进行关系抽取，这样就避免了分步联合抽取的错误蔓...

2020-03-26 17:43:58 1366 3

原创 linux环境新NVIDIA-GPU服务器进行压力测试

实验室新进购的服务器。机型为：4卡GPU，GTX2080ti。新的服务器需要对其进行压力测试，测试服务器在显存满载的情况下，能否保证散热正常、计算精度正常等等。本次压力测试，用到的程序gpu_burn实现，搜索了很长时间的资料，记录下来。参考资料：Linux 系統 NVIDIA GPU 顯示卡壓力測試首先在gpu_burn官网下载代码官网链接：点击进入gpu_burn官...

2020-03-21 15:50:09 14424 4

原创 EMNLP2019关系抽取论文集合（含链接）

Relation ExtractionEMNLP 2019Henry Rosales-Méndez, Aidan Hogan and Barbara Poblete.2019. Fine-Grained Evaluation for Entity Linking. In EMNLP2019.Arpita Roy, Youngja Park, Taesung Lee and Shim...

2020-02-28 16:50:00 1456 1

原创 Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks [论文研读]

《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》是Zeng在2014年那篇经典论文之后的有益著作，这篇论文提出PCNN方法，将卷积网络特征提取应用于远距离监督，而且还引入多示例学习方法。摘要文章在摘要部分主要提出了两个问题，主要是在训练数据少的情况下，如何更...

2020-02-23 17:17:07 607

原创 Attention Is All You Need 论文研读

《Attention Is All You Need》是2017年由Google提出的论文，论文重点描述了transformer结构及原理。transformer在机器翻译等众多NLP领域取得了很大的进步，这次学习《Attention Is All You Need目的是为了搞懂transformer，BERT预训练模型原理及细节。论文链接：https://arxiv.org/abs/17...

2020-02-17 11:30:53 1612

原创 linux服务器非root用户安装tensorflow1.14.0-gpu+cuda10+cudnn7.6

实验室新服务器安装tensorflow-gpu，之前安装过一次cpu版本的tensorflow，这次安装gpu版本，出现很多的错误，这里特意将安装tensorflow-gpu的正确方法记录下来，希望对其他人有所帮助。这里是在服务器非root用户上安装，不适用于linux主机上安装tensorflow的用户，还请注意区分。实验环境服务器内核版本：CentOS Linux releas...

2020-02-09 16:02:25 3546

原创 Enriching Pre-trained Language Model with Entity Information for Relation Classification 论文研读

论文地址：https://arxiv.org/pdf/1905.08284.pdf摘要关系分类是一项重要的自然语言处理任务用以抽取两实体的关系，最先进的关系分类方法主要是基于卷积网络（CNN）或者循环网络（RNN）。最近，预训练模型BERT成功应用于诸多NLP领域的分类和序列标注问题。关系分类与以上问题的不同之处在于它依赖句子和两个实体的信息。在此论文中，提出了一种既用BERT...

2020-02-08 17:30:01 946

原创 jieba分词基础

这篇博客写一些结巴分词的基础操作，参考网站http://github.com/fxsjy/jieba/blob/master/README.md1.分词我们对“张三是云计算领域的专家”这句话进行分词，如何让分词达到理想化，就需要自定义词典的引用，并且定期维护词典。#jieba精确分词import jiebasent = "张三是云计算领域的专家"seg = jieba.cut(...

2019-09-25 16:26:01 820

原创 clodblocks安装详解（C语言或者fortran语言）

clodblocks是笔者在大学本科编程最喜欢的软件，clodblocks与VS相比具有更小的体积，非常轻便。与传统的VC++相比不论是代码补齐还是缩进功能都更加智能，而且clodblocks还支持开源，免费供开发者使用。一、clodblocks的安装点击进入官网：clodblocks官方网站这里如果需运行fortran程序要求下载自带fortran编译器的程序，如下图：点击运...

2019-09-22 19:22:41 1717

原创利用jieba实现分词、高频词统计、词性标注

小编学习nlp的起步阶段，今天利用python语言中的jieba包，实现了中文的分词、高频词统计、词性标注。我知道对于原理理解的重要性，迫不及待地把实现的过程记录在博客中，算法原理问题过后进行补充。1、jieba分词Jieba提供了三种分词模式：精确模式：视图将句子切分的最精确。全模式：把句子句子中，所有可以成词的词语都扫出来，速度快，但是不能解决歧义的问题。模糊模式：在精确模式...

2019-09-21 21:49:26 4624

Mr_WangYC的博客