道天翁-CSDN博客

原创中文自动文本摘要生成指标计算，Rouge/Bleu/BertScore/QA代码实现

本部分讲述下如何计算生成摘要与参考摘要的指标，指标方面分为两类，一类基于n-grams计算，如Rouge-1，Rouge-2，Rouge-L，BLEU，主要衡量摘要的句法的连贯性，不能衡量生成摘要的真实性与忠诚程度，另一类基于蕴含或者QA等辅助手段，这种方式能够更好的衡量生成摘要的忠诚度，如FEQA，QuestEval。代码中均为transformers库中计算代码。至于摘要生成过程中存在的幻觉问题，如内在的无中生有，外在的无中生有，有一篇很好的综述：https://arxiv.org/pdf/2202

2022-04-15 16:42:30 8074 9

原创做论文常用中文摘要数据集

(1)短文本1）哈工大LCSTS(2)中等长度1）NLPCC2017的单文档新闻测试集合TTNews2）NLPCC2021的字节跳动CNew_sum(3)长文本1）NLPCC2020的CLTS，但该数据集并不好很差，大量摘要为正文摘抄抽取。

2022-03-29 10:29:47 2378 1

原创 Bigbird中文长文本摘要生成

1 完整代码不多废话，直接上代码，具体讲解看上一篇的Longformerimport loggingfrom transformers import BigBirdPegasusConfig, BigBirdPegasusForConditionalGeneration, BertTokenizerfrom transformers import BartForConditionalGenerationlogger = logging.getLogger("bigbirdpegasus-

2021-12-15 17:07:48 2040 1

原创 Longformer中文长文本摘要生成

1 Longformer之前做了BART中文摘要生成，但是因为项目需求是中文长文本摘要生成，因此在此采用Longformer完成中文摘要生成（实际用的是LED，Longformer基础上添加了解码器），11G显存长度可以到8K，非常友好。短文本上虽然比不上BART，不过这并不重要。1.1 Longformer结构LED结构与BART类似，只不过多了global attention，因为LED没有中文预训练模型，但是我们有BART呀，这也给出了BART权重转到LED的脚本，因此这次我们就采用BAR

2021-12-15 17:00:03 4983 51

原创 CPT中文预训练模型在lcsts上的摘要finetune

import pandas as pdimport datasetsimport jiebaimport numpy as npimport lawrougeimport torchfrom datasets import load_dataset, Datasetfrom transformers import BertTokenizerfrom transformers import AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2.

2021-10-29 16:13:22 1221

原创 BART中文摘要生成，(nplcc与LCSTS数据集)

from ipywidgets import IntProgressimport tqdm from datasets import load_datasetimport lawrougeimport datasetsimport randomimport pandas as pdfrom datasets import dataset_dictimport datasetsfrom IPython.display import display, HTMLfrom transfor.

2021-10-29 15:54:49 12421 68

原创 LCSTS中文摘要数据集预处理，使用Huggingface能够加载训练

import pandas as pdimport datasetsfrom datasets import load_dataset, Datasetfrom transformers import BertTokenizermax_input_length = 512max_target_length = 128lcsts_part_1=pd.read_table('./SourceDataset/PART_II.txt', header=None, .

2021-10-29 15:37:15 1696 1

CNews_sum.json

CNews_sum_train训练集，经过简单数据清洗

2021-11-10

关于外卖系统的问题（C#,Winform）

2017-11-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

daotianweng的博客

原创 textRank4zh抽取关键词，中文摘要生成

原创贪心搜索抽取关键句，文本摘要生成