- 博客(0)
- 资源 (1)
- 收藏
- 关注
基于BertForQuestionAnswering算法的阅读理解升级
使用BertForQuestionAnswering,问答任务的输入为问题+回答组成的句子对,输出为起始位置和结束位置用于标出回答中的具体文本。这里需要两个输出,即对起始位置的预测和对结束位置的预测,两个输出的长度都和句子长度一样,从其中挑出最大的预测值对应的下标作为预测的位置。
2022-09-22
基于BertForTokenClassification算法的长文本实体识别
Bert 模型采取了两个预训练任务:Masked Language Model和Next Sentence Prediction,而这两个任务都是基于BertPreTrainedModel抽象基类。
2.1 BertPreTrainedModel
所有Bert-based的模型,包括预训练模型和下游任务模型都是基于BertPreTrainedModel类,用于初始化权重参数和加载预训练描述。同时也继承了PreTrainedModel的变量和方法。
2022-09-21
对文章中的关键词抽取textrank算法进行了性能和准确率优化
自动摘要,就是从文章中自动抽取关键句。人类对关键句的理解通常是能够概括文章中心的句子,而机器只能模拟人类的理解,即拟定一个权重的评分标准,给每个句子打分,之后给出排名靠前的几个句子。基于 TextRank 的自动文摘属于自动摘录,通过选取文本中重要度较高的句子形成文摘。
我们是要抽取关键句,因而是以句子为基本单位。使用 TextRank 提取摘要的整个过程如下:
预处理:将文本分割成句子 S1,S2,⋯,SmS1,S2,⋯,Sm,以句子为节点构建图。
计算句子相似度:对句子进行分词、取停用词等处理,以便于计算任意两个句子之间的相似度。将计算好的句子相似度作为两个句子构成的边的权值。
句子权重:根据公式,迭代传播权重计算各句子的得分。
抽取文摘句:得到的句子得分进行倒序排序,抽取重要度最高的 N 个句子作为候选文摘句。
形成文摘:根据字数或句子数要求,从候选文摘句中抽取句子组成文摘。
2022-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人