自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (4)
  • 收藏
  • 关注

原创 利用主题模型提升抽取式文本自动摘要

文章链接(coling-2020):Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Network目录任务定义问题发现模型改进实验结果任务定义首先我们定义一下抽取式文本自动摘要。抽取式文本自动摘要就是直接从原文中抽取 重要的、相关的 句子,重新组合形成摘要。我们可以形式化的将其分化为三个子任务:对文章的每个句子编码,用于后续句子相关性和重要性的打分。建模句子关系,对句子赋予全局信息抽取并重新组合句子。摘

2021-04-20 10:44:35 778 1

原创 python判断字符串是否为数字

判断字符串是否为正整数 isdigit()num_list = ['1', '3', '-5', '7.7', '9.0']digit = [num.isdigit() for num in num_list]print(digit) # [True, True, False, False, False]判断字符串是否为整数(包含正负数)num_list = ['1', '3'...

2019-09-10 15:48:23 1656 2

原创 [论文阅读] HIBERT 抽取式文本摘要

原文链接HIBERT: Document Level Pre-training of Hierarchical BidirectionalTransformers for Document SummarizationHIBERT(Hierachical Bidrectional Encoder Representations from Transformers)本文的任务是是抽取式的文本摘要,...

2019-09-09 21:04:02 1566

原创 Label smooth

什么是Label smooth regularization对分类问题 经过softmax函数之后的 one hot 编码(正类概率为1,其他为0)进行改进。为什么要使用Label smooth regularizationone-hot 编码的问题:会自驱的向正类和负类的差值扩大的方向学习(过度的信任标签为1的为正类),在训练数据不足的情况容易过拟合。原理思路:软化softmax...

2019-08-28 11:29:51 2047

原创 一个统一的自动摘要模型结合生成式和提取式摘要技术

目录引言整体系统架构提取器功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入引言根据以前的知识,提取式摘要能获得更好的...

2018-10-25 22:26:25 4782 4

原创 [论文阅读]《A Template-based Abstractive Meeting Summarization》

本文是一篇较老的文章了,发表于2014年。文章所提出的思路为生成摘要模型,选择摘要模型,填写摘要模型。作者以会议的摘要为提取对象,所有的语料都是有主讲人的主动语态的句子。这里主要介绍系统的整体架构: 整个系统分为两个大的模块,离线的模型生成阶段和在线的摘要生成阶段。1. 模型生成阶段第一步,从由人写的摘要中归纳,将其中的名词用一个上义祠(个人理解就是这个词是该名词的母集,e.g...

2018-08-09 10:39:57 532

原创 生成对抗网络用于文本摘要生成

开始生成对抗网络是最近较火的一种网络模型,其思想为二人零和博弈。即两个人总的利益是一个常数,如果一个人更强大那么他会获得更多的利益,但是二人的利益之和是保持不变的。在GAN中对应的生成模型和判别模型。 生成模型用于生成样本,判别模型用于判断样本真假。 现在生成对抗网络被用于对深度学习框架的攻击,通过训练生成对抗网络,最后由生成模型生成的噪声样本。让噪声样本不能被深度学习模型...

2018-08-01 19:17:40 4628 8

原创 Word2Vec 简介

Word2Vec 简介 Word2vec是一个用于处理文本的双层神经网络。它的输入是文本语料,输出则是一组向量:该语料中词语的特征向量。虽然Word2vec并不是深度神经网络,但它可以将文本转换为深度神经网络能够理解的数值形式Word2vec的目的和功用是在向量空间内将词的向量按相似性进行分组。它能够识别出数学上的相似性。Word2vec能生成向量,以分布式的数值形式来表示词的上下文...

2018-07-20 15:12:21 2330 2

原创 CentOS下安装ROUGE

前言最近开始学习自然语言处理方面的知识,其中ROUGE是对文本摘要进行自动评价的一些标准。本文参照在Ubuntu系统下安装ROUGE。准备工作Perl解释器,在Ubuntu系统下自带,有的CentOS系统会有(通过perl -v查看版本,需要在5.6.0版本以上)需要额外安装perl解释器的XML::DOM模块以及DB_File模块,而XML::DOM的安装又需要XML::Re...

2018-07-19 11:27:04 1018 4

不经意传输(OT)协议的发展历程

对不经意传输协议的发展历程进行梳理,对每种不经意传输协议举例说明。

2018-07-18

SecureML_利用秘密分享进行隐私保护的机器学习训练

对论文SecureML的一些自己的理解,利用秘密分享来进行机器学习训练,从而保证数据的隐私性。

2018-07-18

在深度学习中用同态加密技术进行隐私保护

利用同态加密技术在深度学习中对用户的隐私进行保护。

2018-07-18

大数据时代的安全威胁与挑战

对现在的大数据时代下的隐私保护技术面临的威胁和挑战进行描述。

2018-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除