攀攀的跟屁虫-CSDN博客

原创 crf中的状态转移

crf条件随机场，有一个初始状态矩阵、状态转移矩阵和发射矩阵。在用bilstm+crf做ner时状态转移矩阵常常有问题，比方说直接从”O“跳到“I”（BIO标注方式下）。看了tensorflow的代码后明白了原因所在：在没有给定状态转移矩阵时(通常不会给出状态转移矩阵)，tensorflow随机初始一个状态转移矩阵，然后在训练的过程中学习这个状态转移矩阵。问题的原因是tf随机初始的，对于神经网络而言，初始值是非常重要的。一个好的初始值会让模型得到一个好的结果，一个不好的初始值很有可能让模型在一开始就跑偏

2020-07-10 09:54:22 1989 1

原创 textcnn中的bn和ln

之前的textcnn: cnn->relu->pool但是考虑到cnn是窗口滑动，感觉应该加一个。cnn->bn/ln->relu->pool。但是实际上我这个就一层，不加norm好像区别也不大，

2021-09-07 19:18:52 254

原创个人笔记_持续更新

激活函数的选择：参考资料：https://zhuanlan.zhihu.com/p/172254089sigmoid的梯度范围是（0,0.25），假设一个网络有多层，每层的激活函数是sigmoid，那么反传多层后梯度会变的非常小。也就是sigmoid会导致梯度消失。如果权重非常大，使得输出达到了饱和区域，那么梯度会接近于0。所以sigmoid容易发生梯度消失。relu的公式是max(0,x),梯度取值为0和1两个值，多层relu之后梯度还是0或者1,1的话梯度继续传播，0的话从该位置开始停止传播

2021-09-03 20:22:35 257

原创 transformer杂记

transformer代码结构图.这个图其实就是把网上常见的transformer图画得更详细了,参考的是transformer的代码.这么细致的图并不方便于记忆,但是日后回顾细节时不必再看代码.总结有如下几个点:encoder的输入和bert的输入相同的是都有token_emb和pos_emb,但transformer没有token_type_id(也叫segment_id).另外transformer中采用的三角函数式位置编码,bert是训练得到的位置编码.位置编码的重要性低于token_emb

2021-07-28 11:14:19 222

原创 huggingface datasets load_metric connecterror cannot reach

出现这个错误的原因是连不上网，解决办法很简单:1.翻墙;2.打开提示中的网址，并把该网址对应的py文件下载下来。3.datasets.load_metric('py文件所在目录')就可以了

2021-06-02 10:54:27 3283 5

原创用kfold提高bert 笔记

下面言论仅针对小一点的数据集，bert非常受随机种子的影响：Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping如果不想受随机种子的影响，那么可以用小一点的学习率，epoch设的大一点（原bert作者建议微调2-4epoch，大一点就是epoch设为10/20这样的）。但是我目前的数据是，跑到3epoch效果最好，如果增加epoch（到20）,f1会降很多，倒是确

2021-04-26 17:59:00 370

原创关系抽取工具浅析

１.Jiagu思知（ownthink）开发的，对于百度百科文本，还能提取到部分三元组，抽取到的三元组有重复，有些比较奇怪，有些百科文本也提取不到任何三元组。其他文本就根本不行。Jiagu可以同时抽取出实体和实体之间的关系。2.DeepKE关系抽取用到的模型有很多：BiLSTM、Capsule、GCN（先用工具提取出句子的语法树，构建出词语之间的邻接矩阵，然后用ＧＣＮ）、LM、CNN、Transformer可以用自己的训练数据重新训练模型，上述几个模型可视为baseline，代码写的...

2020-11-17 13:54:55 1672

原创关系抽取相关论文笔记

a frustratingly easy approach for joint entity and relation extraction文章链接：https://arxiv.org/pdf/2010.12812.pdf时间：2020.10.24挂到arxiv上作者：陈丹琦简介：做关系抽取的，用pipeline的方式，包括两个步骤：先训练好一个NER，然后用人工标注的数据训练关系抽取模型。其中NER是Span-level，并没有很多改进，主要改进是在关系抽取阶段。代码还没有开源。关系.

2020-11-16 14:59:54 395

原创 Apache jena安装（docker镜像）

安装使用的是docker镜像，就两个命令拉下来镜像docker pull stain/jena-fuseki跑起来docker run -p 3030:3030 stain/jena-fuseki镜像里面的参数-e ADMIN_PASSWORD=pw123admin的密码，如果没有的话是自动随机生成的，可以通过docker logs containerid看到需要注意的点是，如果container重启，那么数据可能会丢失，所以需要挂载，可以用下面的命令，记得修改路径：

2020-11-13 11:23:42 473 1

原创无监督语义相似度

没有成对的文本，如何计算语义相似度１. bert方面的坑bert计算出来句子之间的相似度很接近，在我的数据集上finetune之后稍微好一点点，用的是cls的输出直接作为句子的向量，然后计算cosine，结果有点翻车，主要问题在：句子之间的距离都很近句子的长短也会影响，相同长度的句子之间距离更接近。针对这个问题，我有尝试把每个字的字向量加起来处以字符数量，但是发现还是一样后来，看了一个知乎的回答，原文：https://www.zhihu.com/question/354129879用字

2020-10-28 17:49:02 832 1

原创知识图谱入坑

比较大的开放知识图谱：中文百科类：CN-DBPedia，http://shuyantech.com/api/cndbpedia/ment2ent?q=词语 ZhiShi.me ownthink，https://github.com/ownthink/KnowledgeGraphData 非常大，8G多，用csv存的知识图谱的核心作用：确定了实体。有益于多个方面：分词会更准确，本体更加明确（消除了语言多样性带来的干扰）找出实体间的关系。这种对关系的明确定义是非常有意义的，因为在没有知识图

2020-09-16 17:19:35 487

原创 elasticsearch

今天搞了一下es，安装参考的是：https://www.linuxprobe.com/elasticsearch.htmlhttps://www.jianshu.com/p/1ca69272564d我遇到的问题有两个：一个是内存不够，一个是没有找到主节点（参考http://www.mamicode.com/info-detail-3052766.html）如果连接超时：装完es后还需要装配套的ikhttps://github.com/medcl/elasticsearch-an.

2020-09-10 20:27:16 82

原创推荐系统学习笔记——内容&协同

推荐系统分为基于内容的推荐系统和基于邻域的推荐系统（协同过滤）基于内容的推荐系统以内容为主要推荐依据，一个简单的流程对物品进行分类/打标签; 计算用户的偏好，比如某个用户喜欢爱情类电影，如果用户的偏好是变化的，可以加入衰退因子。利用衰退因子调整不同时间段偏好的权重; 生成候选集。根据物品所属类型/标签生成候选集; 对候选集进行排序。可以用别的用户对该物品的平均评分优点：冷启动影响较小，因为物品的分类不受用户评价影响，但是对候选集的排序可能会受影响（要看具体排序的策略）; 能照...

2020-08-24 18:44:53 255

原创 Docker日记

今天是被docker虐的一天。任务是把自己用python写的flask服务部署到一个服务器上，悲剧的是那个服务器上没有python，不能联网。尝试的第一个方法是装anaconda，把每个包下载到本地，然后逐个安装。这样的问题是：有的包依赖的包太多了，实在是装不过来，瞎折腾了很久才决定放弃这条路。如果您遇到这种情况，请一定不要学我，钻了半天的牛角尖才想到可以换个方法！尝试的第二个方法是用docker，然后就开启了被docker虐的一天，所幸最后是成功了。一、docker部署的流程1.写dock

2020-07-02 01:10:34 226

原创 setup.py install后无法导入包

今天遇到一个很有意思的情况，安装了一个包vec4ir，安装方式是在命令行中用python setup.py install 安装的，安装好以后发现import报错，提示找不到这个包。这就比较尴尬了。然后打开python的安装目录找lib->site-package，发现里面只有一个vec4ir的egg文件，名字叫做vec4ir-0.2-py3.6.egg。情况就是这么个情况，解决方法：把vec4ir文件夹复制到了lib->site-package，这个方法并不漂亮，但是解决了问题

2020-06-05 11:12:08 2818 7

原创 tensorflow模型保存和加载

方式一ckpt 使用saver：如果要看，请直接看这个方法的最后两个，前面讲的是官网的坑。用tf.train.Saver()创建一个saver，然后保存。# 建立网络创建变量，建图v1 = tf.Variable(..., name="v1")v2 = tf.Variable(..., name="v2")...# 建立saver对象，后面保存的时候要用saver = tf.train.Saver()with tf.Session() as sess: sess.run(..

2020-05-28 10:45:11 649

原创 BM25

计算用户输入query和语料库中每条语句之间的相似度分数。我参考了gensim中的源码，实现的挺简单的，还是包括tf和idf两部分，tf：单词在文档中出现的频率idf：，其中D是整个语料库中包含多少篇文档，df是语料库中有多少个文档包含了某个单词，0.5是用来做平滑的。现在忽略0.5，分子分母约分，就变成了。如果语料库中一半的文档都包括某个词，那这个词的idf=0，如果语料库中超过一半的文档都包括某个词，那么这个词的idf<0，这时候就用eps代替，eps是一个比较小的值，是平均每个词的i

2020-05-25 15:17:52 276

原创 tfidf

tfidf包括两部分：tf：词语在文档中出现的次数，idf中的df是在整个语料库中有多少篇文档包含了该词语，其中的i是逆的意思，核心思想是：如果一个词在某篇文档中出现的次数多并且包含该词语的文档少，那么这个词语很重要。如果一个词在很多个文档中都出现，那么说明这个词只是个高频词，没有意义（例如：“的”这个字）。tfidf有很多变种，可以参考下面图表。上图的出处：https://rare-technologies.com/pivoted-document-length-normalisation/

2020-05-25 14:46:58 888

原创使用docker布服务

今天更新了一下git的代码，但是自己不会用docker部署，求助了组内的大神，在这里记录一下过程：1.首先把更新后的代码拷到服务器上：git clone 地址2.把原来运行docker镜像停一下：docker stop <容器id>其中的容器id可以通过 docker images看到所有的dockerdocker ps3. 构建镜像docker build -t 要创建的镜像的名称 Dockerfile所在目录Dockerfile中包括了很多指令，每个指令都

2020-05-20 14:21:53 156

原创矩阵求两两元素之间的距离

如果是两维的，很简单，可以直接用scipy.spatial.distance的cdist，要求两个矩阵必须是2维的，三维会报错import numpy as npfrom scipy.spatial.distance import cdista = np.reshape(np.arange(12),newshape=[3,4])b = np.reshape(np.arange(10,30),newshape=[5,4])distance = cdist(a,b)print(distance)

2020-05-20 11:12:23 1306

原创 tensorflow sparse_to_dense

神坑，今天调了好久，格式是：tf.sparse_to_dense(sparse_indices=index,output_shape=[N,N],sparse_values=values)起来没问题，但是有个隐藏的坑：要求index必须是升序，乱序不行。values可以是一个scalar，也可以是一个tensor。例子：tf.sparse_to_dense(sparse_indices=[[1,2],[1,3],[2,2]],output_shape=[4,4],sparse_values=

2020-05-12 20:38:05 421

原创 tf.matmul、tf.multiply、*的区别

tf.matmul矩阵乘法，叉乘。tf.multiply和*一样都是点乘，对应位置的元素相乘。

2020-04-23 11:06:30 1101

原创 attention

attention的目的是找出那些词（字）比较重要，很多人说是找其他词（上下文）与目标词的相似度，越相似的越重要。怎么说无所谓，目标就是给部分词赋予更多的权重，给部分词赋予少一些的权重。所以，这里我把attention的过程分为两步：求权重。赋予权重的方式有很多，图中列举了几个。对value进行加权求和，然后输出。...

2020-04-22 14:30:37 135

原创 Hierarchical Attention Networks for Document Classification的代码

概述：HAN有两层attention，一层用来捕获词级信息，一层用来捕获文档级信息。结构如图所示第一层是embedding层(像大多数nlp网络一样)；第二层是双向GRU，拼接输出，然后attention（这个attention和BiLSTM+attention里面的attetion有点不同）第三层是句子的attention跟词语attention结构相同最后就是常用的soft...

2020-04-21 20:21:45 455 1

原创 fasttext

这是一个结构很简单的网络（见图１），速度非常快，在某些任务上准确率会比rnn\transformer等还要好。有没有谁能告诉我为什么简单但却有效呢？图１fasttext网络处理流程图关键代码也是超级简单sentence_embeddings = tf.nn.embedding_lookup(self.Embedding,self.sentence) #参考的代码中self.Embeddi...

2020-04-20 21:06:37 158

原创 pip 使用镜像

方法一：pip install -i 镜像地址包名每次装包都需要手动指定地址，比较烦，可以用第二个方法，一劳永逸。使用示例：pip install -i http://mirrors.aliyun.com/pypi/simple/ gensimhttp://mirrors.aliyun.com/pypi/simple/ 是阿里云的镜像地址，gensim是一个包的名字。在...

2020-04-20 16:15:09 1891

原创句法分析摸索

句法分析分为：短语结构分析和依存句法分析短语结构分析常用的方法有：上下文无关文法线图分析法CYK算法Earley算法LR算法/Tomita算法上述参考中科大的自然语言处理视频https://www.bilibili.com/video/av29373034/分析工具选择了stanfcorenlp，因为据说nltk中没有句法解析工具。from stan...

2018-12-17 22:44:04 418

原创模型树M5'算法

1.简介模型树是一种在叶节点采用线性回归函数的决策树。这种技术在预测连续值方面很成功。它可以通过采用一个把分类问题转换为函数优化问题的标准方法,来实现分类。模型树表示一种分段线性函数。同典型的回归方程一样,它通过一系列的独立变量(称为属性)来预测一个变量的值(称为类)。以表的形式表示的训练数据可以直接用来构造决策树。在数据表中,每一行(样本)表示为(x1,x2,…,xN,y),其中xi表示第i...

2018-12-04 21:06:26 4915

原创代码评估软件

由于需要做过程性代码评估，所以首先找了一些代码评估软件。总结如下CourseMarker论文：The CourseMarker CBA System: Improvements over Ceilidh网址：https://coursemarker.software.informer.com没有公开 Marmoset网址：http://marmoset.cs.umd.e...

2018-12-04 20:33:20 908

原创 python3中的Antlr4（windows）

安装教程，我参考的是：https://www.aliyun.com/jiaocheng/525558.html为了方便大家看，内容是1. 到官网http://www.antlr.org/download.html 或者https://pypi.python.org/pypi/antlr4-python3-runtime/下载 antlr4-python3-runtime-4.7.macos...

2018-12-04 19:56:39 7957 4

原创无头浏览器

import osfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.chrome.options import Optionsimport timechrome_options = Options()chrome_options.ad...

2018-10-30 14:50:27 359 1

原创 tensorflow多线程

本文所有内容均不是原创，仅是看到好的资源，转载到这里，方便自己查找，所有来源都会标注清楚。https://www.cnblogs.com/demian/p/8005407.html如果你打开了这篇博客，推荐去上面链接读原文，原文写的更好。Tf中的队列tensorflow的session对象可以支持多线程，多线程可以方便地使用同一个Session并执行，然而，Python中的并行运算并不...

2018-10-17 21:46:11 2536

原创 gensim - KeyedVectors

本文为KeyedVectors的官方文档简单翻译，欢迎批评指正。词向量的训练和使用可以分开，gensim中用KeyedVectors实现实体（单词、文档、图片都可以）和向量之间的映射。实体都用string id表示。gensim中word2vec的生成方式如下：>>> from gensim.test.utils import common_texts #common_texts...

2018-07-12 17:25:59 8325

原创人格计算

2019-9-17更，这一项目已经完成了，网址也不能用了（服务器到期了）。虽说我可能很久才看一次，但看到评论还是会回复的。r人格计算，目前针对人格计算的研究比较少，大约在2012左右还比较火。国外做人格计算比较厉害的有IBM，还有众多学者Francois Mairesse计算机科学专家，Aidan G.C.Wright心理学家等人，国内有中科大的朱廷劭团队（真的好羡慕他们团队，有资金支持收...

2018-06-14 11:39:49 1258 6

原创情感支持相关论文摘要

[1]Harley J M, Carter C C, Papaionnou N, et al.Examining the Predictive Relationship Between Personality and Emotion Traitsand Learners’ Agent-Direct Emotions[M]// Artificial Intelligence in Education...

2018-03-28 11:22:25 370 1

原创对话策略相关论文摘要

[1] Peng B, Li X, Gao J, et al. Integrating planning for task-completiondialogue policy learning[J]. 2018.题目：Integrating planning for task-completiondialogue policy learning（在任务导向的对话策略学习中整合规划）作者：Baoli...

2018-03-28 11:21:30 1039

原创 Hybrid code networks: practical and efficient end-to-end dialog control阅读笔记

论文题目：Hybrid code networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning作者：来自Microsoft Research的J. D. Williams 时间：2017来源：ACL第55届年度会议本文提出对话系统中的end-to-end训...

2018-03-21 21:46:21 354

原创 A Survey on Dialogue Systems: Recent Advances and New Frontiers翻译

A Survey on Dialogue Systems: Recent Advances and New Frontiers摘要业界对对话系统的关注越来越多，近年来，对话系统的改进主要来自于深度学习，深度学习被用于大数据的多个领域，如计算视觉、自然语言处理和推荐系统等。在对话系统领域，深度学习可以使用海量数据来学习特征表示和回复生成策略，而只需要很少的人力。在这篇文章中，我们将从不同的角度概述对...

2018-03-19 22:02:05 1496

原创迁移学习

本篇博客参考自以下网址：http://blog.csdn.net/lqfarmer/article/details/73195060迁移学习提出背景：机器学习假设：在训练和测试模型时，数据服从相同的分布，来源于相同的特征空间，但实际上，这个假设很难成立。因为带标记的训练样本有限，数据分布会随时间、地点等发生变化。知识迁移可以把B领域中的知识迁移到A领域来，提高A领域分类效果，不需要花大...

2018-03-16 17:00:55 507

原创 beam search

首先，解释beam search参考来自：http://blog.csdn.net/amds123/article/details/731883531.简介Beam Search（集束搜索）是一种启发式图搜索算法，通常用在图的解空间比较大的情况下，为了减少搜索所占用的空间和时间，在每一步深度扩展的时候，剪掉一些质量比较差的结点，保留下一些质量较高的结点。这样减少了空间消耗，并提高了时间效率，但缺点...

2018-03-16 10:18:46 398

lowlevel鼠标键盘钩子

AGG_V21_Java_数据依赖图

Web-CAT_1.4.0.rar

空空如也