自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 textRank4zh抽取关键词,中文摘要生成

根据源文本抽取关键词

2022-06-29 11:24:44 690 1

原创 贪心搜索抽取关键句,文本摘要生成

贪心搜索文本关键句

2022-06-21 22:15:28 629 1

原创 中文自动文本摘要生成指标计算,Rouge/Bleu/BertScore/QA代码实现

本部分讲述下如何计算生成摘要与参考摘要的指标,指标方面分为两类,一类基于n-grams计算,如Rouge-1,Rouge-2,Rouge-L,BLEU,主要衡量摘要的句法的连贯性,不能衡量生成摘要的真实性与忠诚程度,另一类基于蕴含或者QA等辅助手段,这种方式能够更好的衡量生成摘要的忠诚度,如FEQA,QuestEval。代码中均为transformers库中计算代码。至于摘要生成过程中存在的幻觉问题,如内在的无中生有,外在的无中生有,有一篇很好的综述:https://arxiv.org/pdf/2202

2022-04-15 16:42:30 8074 9

原创 做论文常用中文摘要数据集

(1)短文本1)哈工大LCSTS(2)中等长度1)NLPCC2017的单文档新闻测试集合TTNews2)NLPCC2021的字节跳动CNew_sum(3)长文本1)NLPCC2020的CLTS,但该数据集并不好很差,大量摘要为正文摘抄抽取。

2022-03-29 10:29:47 2378 1

原创 Bigbird中文长文本摘要生成

1 完整代码不多废话,直接上代码,具体讲解看上一篇的Longformerimport loggingfrom transformers import BigBirdPegasusConfig, BigBirdPegasusForConditionalGeneration, BertTokenizerfrom transformers import BartForConditionalGenerationlogger = logging.getLogger("bigbirdpegasus-

2021-12-15 17:07:48 2040 1

原创 Longformer中文长文本摘要生成

1 Longformer之前做了BART中文摘要生成,但是因为项目需求是中文长文本摘要生成,因此在此采用Longformer完成中文摘要生成(实际用的是LED,Longformer基础上添加了解码器),11G显存长度可以到8K,非常友好。短文本上虽然比不上BART,不过这并不重要。1.1 Longformer结构LED结构与BART类似,只不过多了global attention,因为LED没有中文预训练模型,但是我们有BART呀,这也给出了BART权重转到LED的脚本,因此这次我们就采用BAR

2021-12-15 17:00:03 4983 51

原创 CPT中文预训练模型在lcsts上的摘要finetune

import pandas as pdimport datasetsimport jiebaimport numpy as npimport lawrougeimport torchfrom datasets import load_dataset, Datasetfrom transformers import BertTokenizerfrom transformers import AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2.

2021-10-29 16:13:22 1221

原创 BART中文摘要生成,(nplcc与LCSTS数据集)

from ipywidgets import IntProgressimport tqdm from datasets import load_datasetimport lawrougeimport datasetsimport randomimport pandas as pdfrom datasets import dataset_dictimport datasetsfrom IPython.display import display, HTMLfrom transfor.

2021-10-29 15:54:49 12421 68

原创 LCSTS中文摘要数据集预处理,使用Huggingface能够加载训练

import pandas as pdimport datasetsfrom datasets import load_dataset, Datasetfrom transformers import BertTokenizermax_input_length = 512max_target_length = 128lcsts_part_1=pd.read_table('./SourceDataset/PART_II.txt', header=None, .

2021-10-29 15:37:15 1696 1

CNews_sum.json

CNews_sum_train训练集,经过简单数据清洗

2021-11-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除