未来影子-CSDN博客

原创 CNN-NER论文详解

基于序列标注（sequence labeling）基于超图（hypergraph）基于序列到序列（Seq2Seq）基于片段分类（span classification）本文跟进了《Named Entity Recognition as Dependency Parsing》这一论文的工作，同样采用基于片段分类的方案。

2023-07-31 18:23:09 724

原创 W2NER详解

W2NER模型，将NER任务转化预测word-word（备注，中文是字-字），它能够统一处理扁平实体、重叠实体和非连续实体三种NER任务。假定摄入的句子 X 由 N 个tokne或word组成，Xx1x2xNXx1x2...xN，模型对每个word pair(xixjx_i,x_jxixj)中的两个word关系类别R进行预测，其中R∈NoneNNWTHW−∗R∈NoneNNWTHW−∗。

2023-07-30 23:08:34 1026

论文地址：https://arxiv.org/abs/2105.07148代码地址：https://github.com/liuwei1206/LEBERT左图是在BERT之后的架构上面引入词汇信息右图是在BERT底层时引入词汇信息首先，对于给定的中文句子sc={c1,c2,...,cn}ci代表句子中的第i个字符s_c = \{c_1,c_2,...,c_n\}\quad c_i代表句子中的第i个字符sc={c1,c2,...,cn}ci代表句子中的第i个字符利用词典D匹配出句子中包含的

2023-07-29 16:16:25 320

原创微软浏览器连不上网络

控制面板 -> 网络和Internet -> Internet 选项 -> 连接 -> 局域网设置 -> 取消代理服务器。针对微软浏览器连不上网络，但其他浏览器仍能连上网络。

2023-07-13 16:13:15 1609

原创大数据面试小抄

流式大数据处理引擎内存执行速度 -> 速度快任意规模 -> 可扩展性强高吞吐、低延迟：每秒处理数百万个事件，毫秒级延迟结果的准确性：提供事件事件、处理时间语义。对于乱序事件流仍然能提供一致且准确的结果exactle-once状态一致性保证高可用：本身高可用的设置，加上与K8s、YARN、Mesos的紧密集成，再加上从故障中快速恢复、动态扩展任务的能力，Flink能做到以极少的停机事件 7 * 24 全体候运行能够更新应用程序代码将作业迁移到不同的Flink集群，而不会丢失应用程序状态。

2023-02-17 20:15:40 3655 1

原创深度学习实验3 - 卷积神经网络

定义一个函数用来生成相应的文件夹定义划分数据集的函数split_data(),将数据集进行划分训练集和测试集将划分好的数据集利用DataLoader进行迭代读取，ImageFolder是pytorch中通用的数据加载器，不同类别的车辆放在不同的文件夹，ImageFolder可以根据文件夹的名字进行相应的转化。这里定义一个batch size为1281 手写二维卷积1.1 自定义卷积通道1.2 自定义卷积层1.3 添加卷积层导模块中1.4 定义超参数1.5 初始化模型、损失函数、优

2022-12-11 22:33:26 6549 19

原创实验2_前馈神经网络实验

device = torch . device("cuda" if torch . cuda . is_available() else "cpu") # 如果有gpu则在gpu上计算加快计算速度 print(f'当前使用的device为 {

2022-12-10 22:22:38 4228 14

原创深度学习课件-实验1_PyTorch基本操作实验

利用 𝐓𝐞𝐧𝐬𝐨𝐫 创建两个大小分别 𝟑×𝟐 和 𝟒×𝟐 的随机数矩阵 𝑷 和 𝑸 ，要求服从均值为0，标准差0.01为的正态分布 2) 对第二步得到的矩阵 𝑸 进行形状变换得到 𝑸 的转置 𝑸^𝑻 3) 对上述得到的矩阵 𝑷 和矩阵 𝑸^𝑻 求内积!利用 𝐓𝐞𝐧𝐬𝐨𝐫 创建两个大小分别 𝟑×𝟐 和 𝟒×𝟐 的随机数矩阵 𝑷 和 𝑸 ，要求服从均值为0，标准差0.01为的正态分布 2) 对第二步得到的矩阵 𝑸 进行形状变换得到 𝑸 的转置 𝑸^𝑻 3) 对上述得到的矩阵 𝑷 和矩阵 𝑸^𝑻 求内积!

2022-12-10 17:46:17 6116 10

原创深度学习验证结果不一致

在原来的DataLoader那块，在测试时候，将shuffle设置为False，就不会出现结果不一致的了。同一个seed下，几次shuffle之后的结果不一致，实验如下。

2022-12-09 13:36:59 662

原创深度学习第一次作业 - 波士顿房价预测

由于数据没有null值，并且都是连续型数据，所以暂时不用对数据进行过多的处理，不够既然要建立模型，首先就要进行对housing分为训练集和测试集，取出了大概百分之20的数据作为测试集，剩下的百分之70为训练集。在选取的特征数量远小于第一个模型情况下，得分0.695，略小于第一个模型的0.7559。数据不存在相关性较小的属性，也不用担心共线性，故我们可以用线性回归模型去预测。试使用相关性最高的3个特征量重建模型，并与原模型进行比较。首先，利用线性回归模型对数据进行训练，并预测测试集数据。

2022-11-25 11:27:11 3978 3

原创 biaffine model：Named Entity Recognition as Dependency Parsing

动机：NER研究关注于flat NER,而忽略了nested NER方法：在本文中，使用基于图的依存关系解析中的思想，以通过biaffine model为模型提供全局的输入视图。biaffine model 对句子中的开始标记和结束标记进行评分，使用该标记来探索所有跨度，以便该模型能够准确地预测命名实体工作介绍：在这项工作中，我们将NER重新确定为开始和结束索引的任务，并为这些定义的范围分配类别，我们的系统在多层Bi-LSTM之上使用biaffine模型，将分数分配给句子中所有可能的跨度。

2022-11-24 14:37:09 1086

原创 Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Att

嵌套命名实体任务的解决，提出了一个新的框架：Adaptive Shared Network Architecture with Attentive CRF（ASAC）采用自适应共享（AS）机制自适应地选择预训练模型每一层的输出来编码输入文本，从而获得不同实体类别的不同特征，通过这种机制，可以从预训练语言模型不同层里去学习上下文特征，用于下游任务在解码阶段利用注意力条件随机场，它使其他实体识别任务的维特比解码输出作为查询。通过注意力机制将查询作为残差输入到原始CRF进行偏差校正。

2022-11-21 16:09:11 826

原创中文医疗实体关系基于BERT + Bi-LSTM+ CRF

【代码】中文医疗实体关系基于BERT + Bi-LSTM+ CRF。

2022-11-20 14:53:16 915 3

原创 nlp中的对抗训练比较

常见的对抗训练有：fgsm、fgm、pgd、FreeAT、yopo、FreeLB、smart，AWP这里给出fgsm、fgm、pgd、FreeAT的代码以及实验结果。

2022-10-29 16:27:14 819

原创 pytorch的F.cross_entropy交叉熵函数和标签平滑函数

标签平滑是一种损失函数的修正，它将神经网络的的训练目标从“1”调整为“1 - label smoothing adjustment”，这意味着神经网络被训练得对自己的答案不是那么自信，NN有一个坏习惯，在训练过程中对预测变得“过于自信”，这可能会降低它们的泛化能力，从而在新的、看不见的未来数据上表现得同样“出色”，此外，大型数据集通常会包含标签错误的数据，这意味着神经网络在本质上应该对“正确答案”持怀疑态度，以减少一定程度上围绕错误答案的极端情况下建模。N：样本个数，C：类别数。最后计算每个样本的均值。

2022-10-28 19:43:34 2104

原创 Bert + 架构解决文本分类任务

[在这里插入图片描述]一般任务 = 预训练 + 架构 + 应用在本文中，我们将用任务未使用BERT架构，使用基本的模型架构解决文本分类任务的可见这篇文章中文文本分类，基本模型的pytoch实现 - 影子的文章 - 知乎 https://zhuanlan.zhihu.com/p/577121058。

2022-10-26 18:30:37 2062

原创在colab上运行GitHub项目

运行我们这个项目，注意，我们当前是在仓库（Bert-Chinese-Text-Classification-Pytorch）的这个目录下，故可以直接使用如下命令，不然记得给文件（run.py）加上前缀，例如：/content/drive/MyDrive/Colab Notebooks/Bert-Chinese-Text-Classification-Pytorch/run.py。有点背，开了pro会员，还是背分到了T4，/(ㄒoㄒ)/~~科学上网、拥有谷歌邮箱、谷歌云端硬盘、colab注册。

2022-10-26 16:25:12 4770 1

原创中文文本分类，基本模型的pytoch实现

学习说明：最近发现了一个宝藏仓库，将常见的文本分类方法做了一个介绍、及封装。现在将学习这仓库的一些笔记记录如下。

2022-10-25 15:53:07 662

原创从Github上拉取项目，总是出现10054、443的奥秘解决

【代码】从Github上拉取项目，总是出现10054、443的奥秘解决。

2022-10-20 21:11:49 528

原创 KaFSP: Knowledge-Aware Fuzzy Semantic Parsing for Conversational Question Answering over a Large-Sca

在本文中，研究了在大规模知识库问答上的会话的两个问题- 语法中定义的行为不足以解决现实场景中的不确定推理- 知识基础信息未能充分利用，也没有被纳入语义解析中为了解决上述两个问题，我们提出了一个knowledge-aware fuzzy semantic parsing framework (KaFSP)。它定义了模糊比较操作在基于不确定推理的语法系统中，这部分涉及了模糊集理论。

2022-10-18 16:20:44 316

原创自然语言推断：微调BERT

我们以前在WikiText-2数据集上预训练BERT（注意，原始的BERT模型是在更大的语料库上预训练的），原始的BERT模型有数以亿计的参数。在下面，我们提供了两个版本的预训练的BERT："bert.base"与原始的BERT基础模型一样大，需要大量的计算资源才能进行微调。在下文中，预训练的BERT模型bert被送到用于下游应用的BERTClassifier实例net中，在BERT微调的常见实现中，只有额外的多层感知机（net.output）的输出层的参数将从零开始学习。

2022-10-11 16:08:01 981

原创针对序列级和词元级应用程序微调BERT

在前几节中，我们为自然语言处理应用设计了不同的模型，例如基于循环神经网络、卷积神经网络、注意力和多层感知机。这些模型在有空间或时间限制的情况下是有帮助的，但是，为每个自然语言处理任务精心设计一个特定的模型实际上是不可行的。因此，我们介绍了一个名为BERT的预训练模型，改模型可以对广泛的自然语言处理任务进行最少的架构更改。当有足够的计算资源时，我们可以考虑为下游自然语言处理应用微调BERT下面，我们将自然语言处理应用的子集概括为序列级和词元级。在序列层次上，介绍了在单文本分类任务和文本对分类（或回归）任务中，

2022-10-11 16:07:11 608

原创自然语言推断：使用注意力

例如，上述的“注意”（attending）步骤确定前提中的“need”和“sleep”都与假设中的“tired”对齐，则将对“疲倦-需要睡眠”进行比较。与保留前提和假设中词元的顺序相比，我们可以将一个文本序列中的词元与另一个文本序列的每个词元对齐，然后比较和聚合这些信息，以预测前提和假设之间的关系。从语义上的相似性，我们不妨将假设中的“我”与前提中的“我”对齐，将假设中的“累”与前提中的“睡眠”对齐。同样，我们可能希望将前提中“我”与假设中的“我”对⻬，将前提中的“需要”和“睡眠”与假设中的“累”对⻬。

2022-10-11 16:00:00 874

原创自然语言推断与数据集

下面我们来定义一个用于加载SNLI数据集的类。构造函数中的变量num_steps指定文本序列的长度，使得每个小批量序列将具有相同的形状。换句话说，较长序列的前num_steps个标记后的标记将被截断特殊标记""将被附加到较短的序列后，直到它们的长度变为num_steps通过是实现__getitem__功能，我们可以任意访问带有索引idx的前提、假设和标签。

2022-10-10 20:43:21 379

原创情感分析：使用卷积神经网络

在下面的类中实现textCNN模型，与双向循环神经网络模型相比，除了用卷积层代替循环神经网络层外，还使用了两个嵌入层：一个是可训练权重，另一个是固定权重。

2022-10-09 21:01:51 849

原创情感分析：使用循环神经网络

在下面的BiRNN类中，虽然文本序列的每个词元经由嵌入层（self.embedding）获得其单独的预训练GloVe表示，但是整个序列由双向循环神经（self.encoder）编码。我们将使用预训练的Glove模型来表示每个词元，并将这些词元表示送入多层双向循环神经网络以获得文本序列表示，该文本序列表示将被转换为情感分析输出，对于相同的下游应用，我们将考虑不同的架构选择。我们使用这些预训练的词向量来表示评论中的词元，并且在训练期间不要更新这些向量。最后，让我们使用训练好的模型对两个简单的句子进行情感预测。

2022-10-09 21:00:12 233

原创情感分析：使用循环神经网络

在下面的BiRNN类中，虽然文本序列的每个词元经由嵌入层（self.embedding）获得其单独的预训练GloVe表示，但是整个序列由双向循环神经（self.encoder）编码。我们将使用预训练的Glove模型来表示每个词元，并将这些词元表示送入多层双向循环神经网络以获得文本序列表示，该文本序列表示将被转换为情感分析输出，对于相同的下游应用，我们将考虑不同的架构选择。我们使用这些预训练的词向量来表示评论中的词元，并且在训练期间不要更新这些向量。最后，让我们使用训练好的模型对两个简单的句子进行情感预测。

2022-10-09 20:58:54 1462 6

原创情感分析及数据集

由于情感可以被分类为离散的极性或尺度（例如，积极的和消极的），我们可以将情感分析看作一项文本分类任务，它将可变长度的文本序列转换为固定长度的文本类别。在这两个数据集中，“积极”和“消极”标签的数量相同，表示不同情感积极性。情感分析（sentiment analysis）研究人民在文本中（如产品评论、博客评论和论坛讨论等）“隐藏”的情绪。正如我们所料，评论的长度各布不相同，为了每次处理小批量这样的评论，我们通过截断和填充将每个评论的长度设置为500。在词元化之后，让我们绘制评论词元长度的直方图。

2022-10-09 20:58:14 2343

原创 ChineseBERT Chinese Pretraining Enhanced by Glyph and Pinyin Information

最近预训练的模型关于中文的忽视了两个重要因素：字形和拼音。它们在语言理解上携带了重要的语法和语义信息。在本文的工作中，我们提出了ChineseBERT，结合汉字的字形和拼音信息。- 字形嵌入是基于不同字体，能够从视觉特征捕获字符语义- 拼音嵌入字符对汉字的发音进行了处理，处理了汉语中常见的同字异义现象（不同发音代表不同含义）

2022-10-06 18:11:12 1191

原创自然语言处理：预训练 - 词的相似性和类比任务

除了找到相似的词，我们还可以将词向量应用到此类比任务中，例如，“man”:“woman”::“son”:“daughter”是⼀个词的类⽐。glove_6b50d中预训练词向量的词表包含400000个词和一个特殊的未知词元，排除输入词和未知词元后，我们在词表中找到“chip”一词语义最相似的三个词。为了演示在预训练词向量中捕捉到过去式概念，我们可以使用“现在式-过去式”的类比来测试句法：“do”:“did”::“go”:“went”下面输出与“baby”和“beautiful”相似的词。

2022-09-21 22:12:12 594

原创现代卷积神经网络 - 稠密连接网络（DenseNet）

接下来，类似于ResNet使⽤的4个残差块，DenseNet使⽤的是4个稠密块。使用通道数为3的输入时，我们会得到通道数为3 + 2 * 10 = 23的输出。卷积块的通道数控制了输出通道数相对于输入通道数的增长，因此也被称为增长率（growth rate）⽽过渡层可以⽤来控制模型复杂度。它通过1 × 1卷积层来减⼩通道数，并使⽤步幅为2的平均汇聚层减半⾼和宽，从⽽进⼀步降低模型复杂度。在每个模块之间，ResNet通过步幅为2的残差块减小高和宽，DenseNet则使用过渡层来减半高和宽，并减半通道数。

2022-09-20 21:53:43 466

原创现代卷积神经网络 - 残差网络（ResNet）

通过配置不同的通道数和模块里的残差块数可以得到不同的ResNet模型，例如更深的含152层的ResNet-152。ResNet的前两层跟之前介绍的GoogLeNet中的一样：在输出通道数为64、步幅为2的7 * 7卷积层后，接步幅为2的3 * 3的最大汇聚层。随着我们设计越来越深的网络，深刻理解“新添加的层如何提升神经网络的性能”变得至关重要，更重要的是设计网络的能力，在这种网络中，添加层会使网络更具表现力，为了取得质的突破，我们需要一些数学基础知识。我们也可以在增加输出通道数的同时，减半输出的高和宽。

2022-09-20 21:50:49 303

原创现代卷积神经网络 - 残差网络（ResNet）

通过配置不同的通道数和模块里的残差块数可以得到不同的ResNet模型，例如更深的含152层的ResNet-152。ResNet的前两层跟之前介绍的GoogLeNet中的一样：在输出通道数为64、步幅为2的7 * 7卷积层后，接步幅为2的3 * 3的最大汇聚层。随着我们设计越来越深的网络，深刻理解“新添加的层如何提升神经网络的性能”变得至关重要，更重要的是设计网络的能力，在这种网络中，添加层会使网络更具表现力，为了取得质的突破，我们需要一些数学基础知识。我们也可以在增加输出通道数的同时，减半输出的高和宽。

2022-09-20 21:49:46 686

原创现代卷积神经网络合并行连结的网络（GoogLeNet）

这些路径的通道数分配和第三模块中的类似，首先是3 * 3卷积层的第二条路径输出最多通道，其次是仅含1 * 1卷积层的第一条路径，之后是含5 * 5卷积层的第三条路径和含3 * 3最大汇聚层的第四条路径。其中每条路径通道数的分配思路和第三、第四模块中的一致，只是在具体数据上有所不同，需要注意的是，第五模块的后面紧跟输出层，该模块同NiN一样使用全局平均汇聚层，将每个通道的高和宽变成1，最后我们将输出变成二维数组，再接上一个输出个数为标签类别数的全连接层。同时，我们可以为不同的滤波器分配不同数量的参数。

2022-09-20 21:48:16 722

原创现代卷积神经网络 - 批量规范化

当我们训练时，中间层的变量（例如，多层感知机中的仿射变化输出）可能具有更广的变化范围：不论是沿着从输入到输出的层，跨同一层中的单元，或是随着时间的推移，模型参数随着训练更新变幻莫测。然而，我们必须小心区分直觉对我们观察到的现象的真实解释，回想一下，我们甚至不知道简单的神经网络（多层感知机和传统的卷积神经网络）为什么如此有效，即使在暂退法和权重衰减的情况下，它们仍然非常灵活，因此无法通过常规的学习理论泛化保证来解释它们是否能够泛化到看不见的数据。正是由于这个基于批量统计的标准化，才有了批量规范化的名称。

2022-09-20 21:43:39 776

原创现代卷积神经网络 - 网络中的网络（NiN）

卷积层的输入和输出由四维张量组成，张量的每个轴分别对应样本、通道、高度和宽度。若我们将权重连接导每个空间位置，我们可以将其视为1 * 1卷积层，或作为在每个像素位置上独立作用的全连接层。然而，若使用了全连接层，可能会完全放弃表征的空间结构，网络中的网络（NiN）提供了一个非常简单的解决方案：再每个像素的通道上分别使用多层感知机。NiN块以一个普通卷积层开始，后面是两个1 * 1的卷积层。NiN使用窗口形状为11 * 11、5 * 5和3 * 3的卷积层，输出通道数量与AlexNet中的相同。

2022-09-18 22:27:38 155

原创现代卷积神经网络 - 使用块的网络（VGG）

研究人员开始从单个神经元的角度思考问题，发展导整个层，现在又转向块，重复层的模式。如图7.2.1中所⽰。使用块的想法首先出现在牛津大学的视觉几何组的VGG网络中，通过使用循环和子程序，可以很容易地在任何深度学习框架的代码中实现这些重复的架构。该函数有三个参数，分别对应于卷积层的数量num_convs、输入通道的数量in_channels和输出通道的数量out_channels。正如你所看到的，我们在每个块的高度和宽度减半，最终高度和宽度都为7，最后再展平表示，送入全连接层处理。

2022-09-18 22:23:41 214

原创现代卷积神经网络 - 深度卷积神经网络（AlexNet）

在LeNet提出后，卷积神经网络在计算机视觉和机器学习领域中很有名气。但卷积神经网络并没有主导这些领域。这是因为虽然LeNet在小数据上取得了很好的效果，但是在更大、更真实的数据集上训练卷积神经网络的性能和可行性还有待研究。事实上，在上世纪90年代初和2012年之间的大部分时间里，神经网络往往被其他机器学习方法超越，如支持向量机（support vector machincs）在计算机视觉中，直接将神经网络与其他机器学习方法进行比较也许不公平。这是因为，卷积神经网络的输入是由原始像素值或是经过简单预处理（例

2022-09-18 22:18:34 364

原创卷积神经网络 - 图像卷积

值得注意的是，由于卷积核是从数据中学习到的，因此⽆论这些层执⾏严格的卷积运算还是互相关运算，卷积层的输出都不会受到影响。为了说明这⼀点，假设卷积层执⾏互相关运算并学习图6.2.1中的卷积核，该卷积核在这⾥由矩阵K表⽰。所以，卷积层中的两个被训练的参数是卷积核权重核标量偏置。然而，当有了更复杂数值的卷积核，或者连续的卷积层时，我们不可能手动设计滤波器。现在我们将输入的二维图像转置，再进行如上的互相关运算，其输出如下，之前检测到的垂直边缘消失了，不出所料，这个卷积核K只可以检测垂直边缘，无法检测水平边缘。

2022-09-17 18:30:44 550

simulate2020625.mat

Characterizing stochastic 的相关资料.zip

FracLab2.04.zip

texstudio.zip

空空如也