Jeu-CSDN博客

转载 codex

从github上爬下小于1MB的python文件，去除掉那些可能是自动生成的、平均每行长度大于100的、最大行长度大于1000的、几乎不含字母数字的。经过清洗处理后，最终得到1。：将清洗过后的数据集送入GPT3架构的模型中，。注意这里不再是基于GPT3做微调，也不再使用GPT3训好的权重。而是整个重新训练。

2023-03-09 20:46:06 118

原创下拉框推荐-Suggest-SUG

下拉框推荐、sug、suggest

2023-02-28 19:01:05 1418

1-范式发展历程：P1. 非神经网络时代的完全监督学习（Fully Supervised Learning, Non-Neural Network）--特征工程 P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network)--架构工程P3. 预训练，精调范式 (Pre-train, Fine-tune)--目标工程 P4. 预训练，提示，预测范式（Pre-train, Prompt, Predict）--prompt挖掘工程从

2021-08-16 15:15:16 2528

原创 2021-04-12

NLP=自然语言处理和CV相比，nlp最大的特点是特征是离散的，不像cv中是一幅图，nlp是一个个的句子简单说几点nlp的难点： 1、相同意思的句子表达有多种：我爱踢足球；足球是我的爱好；我的爱好之一是足球 2、相同词在不同语境中意思不同：我喜欢苹果；我喜欢用苹果公司的产品 3、词的先后顺序直接影响语意：我爱你；你爱我 4、多加一个字直接影响语意：我爱吃西瓜；我不爱吃西瓜 5、语句中噪声多，真正影响语意的可能只有几...

2021-04-12 17:45:43 604

原创 NER实体识别漏标对模型性能的影响及优化方法

论文地址：https://arxiv.org/pdf/2012.05426.pdf1、先简单介绍一下一些基础的东西。我们在进行实体识别（NER）的时候，标注成本是很大的，同时难免会遇到标错和漏标实体的情况，在我看来，漏标和标错可以说是一个概念的，标错一般是指把非实体标实体，把实体标非实体，漏标一般是指把实体标非实体，无论是哪种情况，都会对模型产生两个方面的误导，一是实体样本的缺失，导致实体样本空间缩小；二是错标或者漏标会误导模型向相反的方向学习，就像漏标时，明明是一个实体，模型把他当作一个非实体去训练，

2021-03-10 17:41:07 1267

原创挖坑

1、维特比算法和beamsearch算法的区别：https://blog.csdn.net/yiqingyang2012/article/details/54692686/?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242大致说一下，细致的公式之类的后面补充：维特比针对分词来说状态是比较少的，可穷举的，就像BIO，计算时只要计算到达此时状态时的每条路径的最大值就好，

2021-02-19 18:23:41 108

原创 ner计算准召的坑

1、踩了个大坑，记录一下声明：不喜欢写estimator所以才踩的坑1、from tensorflow.contrib import crf 如果想使用这个函数，tensorflow的版本号要在1.14以下，1.12就可以，不要相信那些乱七八糟要求各种版本的2、log_likelihood, trans = tf.contrib.crf.crf_log_likelihood( inputs=logits, tag_indices=self.labels, seque

2021-01-26 16:04:29 461 1

转载 NLP未来发展趋势

转载《https://mp.weixin.qq.com/s/HJytXba8s0A7VWgGVXSdOw》CMU、华盛顿大学、南加州大学、MIT、MILA、密歇根大学、爱丁堡大学、DeepMind、伯克利、Apple…如果我说来自这些地方的dalao共同发表了一篇文章，你相信么？但别惊讶，在即将召开的EMNLP'20的长文列表里，我们就真找到了这样一篇“奇文”。一篇论文引得众星云集，那解决的必然不是小问题。这不，作者也很贴心地把他们所希望解决的问题斜体独行地放在了论文的首栏里——Where is N

2020-11-23 11:58:31 3040

转载 bert的各种变形：Roberta、ALbert、SpanBert

---先挖个坑

2020-11-02 19:35:15 1494

原创事件抽取、元素识别、事件去重相关论文阅读

1、Event co-reference resolution via a multi-loss neural network without suing argument information这篇文章

2020-11-02 11:49:20 427

原创阿里、腾讯、滴滴等社招面试问题整理

1、为何会梯度消失和爆炸：消失：BPTT时，多个激活函数导数的相乘导致解决：LSTM、BN、RELU 爆炸：权重函数初始化过大，解决：梯度截断2、word2vec、fasttext的区别： word2vec训练方式有两种，Cbow和Skip-gram，加速方法有两种层次softmax和负采样 cbow是...

2020-04-20 22:34:39 1276

原创半天时间学习SQL语言

之前很少使用，但是换了新的工作，虽然还在远程办公，但发现用到的比较多，所以花半天时间学习下基本语言，主要是从w3school中学习（后续会逐步补充）1、sql主要分为两个部分：dml和ddl。DML主要是查询和更新，都是处理表中数据，包含select、update、insert、delete（删除表中数据）；DDL更上一层，对表与表之间关系进行处理，如drop（删除表）、create、alte...

2020-04-13 17:14:36 379

原创 bert模型裁剪及标签平滑在短文本意图识别中的效果分析

1、bert网络模型base有12层，在下游任务中耗时严重2、意图识别类似于一个分类任务，真实标签向量其中一个位置1，其余位置全是0

2020-03-04 17:31:15 950 2

原创 Batch_ normalization、Layer_ normalization、Weight_ normalization的异同

1、先说为什么会有BN：我们在训练一个深度网络的时候，每一层的结果对整体结果都有很大影响的。而我们每次网络的输入都是batch_size大小的，这样做的目的是避免错误样本导致的梯度更新错误，而就是这样的batch_size个样本，他们在中间层的网络输出按道理来说应该分布是类似的，但是实际情况不是这样，他们的输出分布是乱七八糟的，网络层数越大，这种差异就越大，这就导致梯度更新方向手足无措，这...

2020-02-22 19:55:19 466

转载 SGD和Adam（转载）

https://blog.csdn.net/weixin_42398658/article/details/84525917

2020-01-14 15:48:03 3536

原创小蜜团队万字长文《读后简略概括》

1、对话系统主要分为三类：闲聊型+任务导向型+问答型闲聊型：就是瞎聊，想聊啥就聊啥任务导向型：考虑多轮对话，根据对话的不同状态和槽位值进行回复策略的选择问答型：一问一答，识别询问者的意图，从知识库中选取答案进行返回2、任务导向型：pipeline系统+端到端系统 pipeline系统：自然语言理解（槽值意图的识别）+对话状态跟踪+...

2020-01-07 11:37:14 281

原创统计学习方法学习1.0

决策树决策树是一种分类和回归方法优点：模型可读性，分类速度快过程：特征选择、决策树的生成、决策树的剪枝损失函数：正则化的极大似然函数特征选择：多个特征时，如何选择某个特征作为判断的依据信息增益：熵定义：熵越大，随机变量的不确定性越大。条件熵： ...

2020-01-07 10:10:46 146

原创阿里few shot learning文章的个人理解

先贴结构图：1、每次C类，每类K样本，剩下的是测试集。2、encoder层是BiLSTM+attention，得到编码向量，假设隐含层个数是96个，句子长度是30，暂不考虑batch_size，那么每个字的隐含层就是1*192向量，整个H就是30*192，那么attention的最后输出就是一个1*192的向量（计算公式如下，权重矩阵W是30*192的矩阵）。 ...

2020-01-05 16:55:58 505

转载知识蒸馏

https://blog.csdn.net/xbinworld/article/details/83063726

2020-01-03 15:51:47 135

原创 7、文本分类算法

textCNN：前面介绍过，这里不做赘述 TextRNN：前面介绍过，也不做赘述 Attention：就是在输出之后加了一层attention，感觉大家都已经很了解了，但还是简单说一下，attention就是输出层的s(t-1)与前面所有的隐含层做乘积再softmax，得到一个权重分布的向量，再与所有隐含层相乘叠加得到c(t)（权重矩阵的计算有多种方法，点乘是一种，下面代码中的是相加），然后再...

2019-12-25 20:38:41 598

原创 6、摘要提取算法

目前主要方法有：基于统计：统计词频，位置等信息，计算句子权值，再简选取权值高的句子作为文摘，特点：简单易用，但对词句的使用大多仅停留在表面信息。基于图模型：构建拓扑结构图，对词句进行排序。例如，TextRank/LexRank 基于潜在语义：使用主题模型，挖掘词句隐藏信息。例如，采用LDA，HMM 基于整数规划：将文摘问题转为整数线性规划，求全局最优解。TextRank 算法是一种用...

2019-12-25 20:26:16 1534

原创 5、分词算法

1、正向最大匹配：已有字典，最长词长度为m，判断当前位置i到i+m中存在的最长的词2、反向最大匹配：相反3、双向最大匹配：正向和逆向同时进行，取效果最好的，效果最好的评价标准是：分词结果词的数量少，单个字少4、HMM分词。自己之前写过，就是隐马尔可夫过程，原地址贴过来了https://blog.csdn.net/cuipanguo/article/details/82114083...

2019-12-25 20:13:53 282

原创 4、实体识别BiLSTM+CRF、Lattice LSTM

自己之前写过，直接贴原地址了1、BiLSTM：https://blog.csdn.net/cuipanguo/article/details/1007470632、Lattice LSTM：https://blog.csdn.net/cuipanguo/article/details/100987939为什么要加一层CRF呢？因为做实体识别每个词开始位置B和结束位置E，中间位置M可能存...

2019-12-25 19:54:29 1035

原创 3、CNN、RNN、LSTM

1、CNN：就是把每个字转换成向量，再拼接成图像的样式，再用卷积核处理，再池化和拼接，再softmax得到分类结果，卷积核的作用能够整合一些上下文信息。2、RNN：前向网络中加入了前一个字的信息，隐含层嘛；能够整合更多的上下文信息，效果更好，但是会出现梯度消失和爆炸。产生的原因是什么呢？在bp过程中（这里就不推导了），当前层参数的导数是后面所有层导数跌成的结果，主要包含激活函数的导数和权值...

2019-12-25 18:33:44 734

原创 2、TF-IDF和BM25计算文本相似度

这两者计算的都是文档和文本之间的相似度，如果是两个短文本貌似也可以。1、TF-IDF = TF * IDF 假设文本是“我怎么这么帅气”，4个词，第一个词“我”，文档1中一共有10个词，“我”有2次，这个词的词频都是2，这就是TF 第一个词“我”，在所有文档中，有“我”这个词的文档数是m，文档总数是n，则IDF = log（n/（m+1））所有词叠...

2019-12-25 17:28:22 759

原创 1、word2vec

1、以前怎么计算两句话的相似度呢？就是词袋模型我很帅》[1（我）,1（帅）,1（很）,0（不）] 我不帅》[1,1,0,1]2、现在怎么计算呢？就是把每个字转换成一个向量（也可以把一句话变成一个向量）下面是两种经典模型CBOW简单说一下：一共N个字，上下文各两个字，每个字是一个1*N向量，对应位置是1，其余全为0.然后呢乘以一个N*K的矩阵，K...

2019-12-25 16:54:56 135

原创 pcnn关系抽取论文阅读总结：尽量细节表现出来

目的之类的就不用说了，直接说pcnn做实体关系抽取的过程：1、把输入转换成对应的向量：上面的输入是 I hired Kojo Annan,the son of Kofi Annan,in the company；两个实体我用红体标出来了；转换的向量实际上包含两部分，一是这个词经过训练好的矩阵looking up得到的向量，假设是d维；二是位置向量；假设hired这个字吧，离...

2019-10-15 17:59:28 6658 1

原创 igit使用防掉坑指南

1、下载安装，网络差的话就会失败，一般就是下载超时什么的，之前说过解决办法，但这里建议找个好点的网络就ok，安装步骤随便找个勾勾选项就ok，影响不大2、下面尽量超级详细点： 1、启动：随便找个空地方右键点击Git Bash here 2、你的igit远程仓库应该有两种模式SSH和HTTP，http有点坑，下载慢，上传慢，你文件大的话就会超时，各种失败，...

2019-10-15 11:43:11 1220

转载胶囊网络

https://www.sohu.com/a/226611009_633698

2019-09-26 16:19:20 271

原创 Lattice LSTM

Lattice LSTM由于中文的实体一般都是由词语组成的，所以分词与NER在中文领域具有很强的相关性，一般操作是先分词，再做词序列标注。很明显的，分词错误会导致ner的错误，尤其在开放领域，跨领域分词仍然是一个难题。简单来说Lattice LSTM是利用字符作为输入的基础上，加上了分词的信息，就这样，没了，具体怎么加的，看一下文章接下来来讲1、文章首先介绍了关于中文的两种实体识别的方...

2019-09-18 16:50:40 9935 6

原创 BiLSTM+CRF code

开始撸代码：1.先定义参数， batch_size：64 epoch：40 hidden_dim：300 learning_rate：0.001 dropout：0.5 embedding_dim：300 optimizer：Adam cl...

2019-09-16 20:38:34 525

原创双层LSTM+CRF做实体识别，详细过程，看不懂我自罚三杯！！！

BiLSTM+CRF:如果看了之后还看不懂，我自罚三杯！！！参考的是国外一个很好的博客，原文链接：https://createmomo.github.io/2017/12/06/CRF-Layer-on-the-Top-of-BiLSTM-7/现在抽空学习一下知识图谱方面的知识1、Introduction：1.1 开始之前：假设我们有两个实体类别：person...

2019-09-11 19:55:06 3776 1

原创损失函数

1、0-1损失：你不=我，就是1；你=我，就是02、感知损失：在1的基础上设定一个阈值3、hinge 损失：max{0, 1 - 你*我}，说是能解决SVM问题中几何间隔最大化问题4、交叉熵：-叠加（你*log我），就是求相对熵的公式吧，差不多5、平方差：（你 - 我）的平方6、名字太长，不想写了...

2019-09-02 17:25:10 172

原创激活函数快速理解

1、sigmoid函数所以啊很明显，会导致梯度消失（因为在反向传播BPTT过程中，在对w求导时，会包含f(x)的导数，多层时就相当于0.25的n次方，前面的单元更新态度太小了，所以是梯度消失啦）...

2019-09-02 16:57:19 376

原创 adam算法相关知识

学习链接：https://blog.csdn.net/Solo95/article/details/848421441、指数加权平均： 2、使用动量的梯度下降： 3、RMSprop算法： 4、Adam算法：dw相当于一阶矩，平方相当于二阶矩。没了，就是这么简单...

2019-08-26 12:46:21 781

原创 Java动态加载类

Class.forName("")返回的是类Class.forName("").newInstance()返回的是object假如你需要动态调用的类名是HelloWord.class。HelloWord.class继承extends于父类HelloUniverse.clss，子类在集成父类属性和方法的时候可以扩展自己的属性和方法，父类必须有一个无参构造，子类可以通过默认super...

2019-08-12 17:09:11 819

原创 java调用文本分类textrnn模型，勿踩坑

直接贴代码# 将模型保存为可用于线上服务的文件（一个.pb文件，一个variables文件夹）# print('Exporting trained model to', save_dir)builder = tf.saved_model.builder.SavedModelBuilder(save_dir)# 服务器专用代码classification_signature = (...

2019-08-08 18:15:47 809 2

阿里小样本学习参考论文.pdf

bert的python实现

nlp学习文档

word2vec中的数学

空空如也