rebirth_2020-CSDN博客

原创 cnews_赛题分析

新闻文本分类本赛题为新闻文本，共有14个类别，属于少量类别的多分类。训练集共20w条，测试集分A/B，分别为5w条。赛题文本token化，防止作弊。赛题目标既然文本已经token化，那么便不可以在预处理方面做多少文章了。主要目的在于网络和超参的选择上。数据简单分析为了方便查看和更新，写在了github中~https://github.com/mathCrazyy/datawhale_cnews/blob/master/ana_cnews_data.ipynb评价标准赛题使用f1作为评价指标。

2020-07-21 22:15:17 383

原创 ELMO,GPT,BERT初步学习

https://lilianweng.github.io/lil-log/2019/01/31/generalized-language-models.html在2018年，诸如GPU, BERT等大体积的语言模型在各种任务上达到了比较好的效果。而我们在训练语言模型的过程中，也不同于图像的预训练模型，NLP任务的预训练不需要带标签的数据。最刚开始的语言模型(word2vec, doc)训练思路是基于词共现的，而不会更具特定的上下文做改变。这种方式的embedding在一定程度上会有效，但是其提升程度是有

2020-07-04 10:58:37 360

原创 fastext

fastextfastext可以用于文本分类。fasttext其实是在word2vec的基础上，修改了底层的特征表示。引入了ngram以及BPE。fasttext使用x1,x2…xn表示一个ngram向量，原本使用一个向量可以表示一个词，这里需要使用多个向量来表示一个词；然后再使用全部的ngram去预测指定的类别。引入了层级softmax，在做对很多个类别的分类预测时，由于频率更高的类别，具有更浅的深度，所以时间复杂度更低。几个概念BPE(byte pair encoder)字节对编码，可以

2020-06-30 23:31:28 495

原创 word2vec和glove

global vector for word representation(Glove)两类模型: count-based，并依赖于因式分解，如LSA,HAL,等，这些方法没有利用全局统计信息，仅仅是初级的单词相似度，另一种方法是 shallow window-based，如skip-gram和CBOW的模型，通过在上下文中预测来进行词向量的学习。但是没有使用全局共线统计的信息。这里的损失是优化减小预测损失。glove相对于window-based模型，首先其是count-based模型，利用了

2020-06-27 23:04:10 179 1

原创 word embedding

由来在处理自然语言任务的时候，需要对文本进行表征，通常我们需要将其转为数字。在word embedding之前，我们经历了wordnet以及onehot，wordnet需要人力去维护，onehot由于每个词都互相正交，没办法计算相似度，同时也存在着维度爆炸的情况。故而出现了word embedding。输入与输出为了得到word embedding，我们通常会使用word2vec工具来进行训练得到。当输入是英文类的字符时，可能需要对文本做适当的预处理(单复数等，不是特别确定)，当中文时，需要对字符做分

2020-06-24 23:28:59 182

原创 bash的常用小技巧

以下为本人工作常用的一些bash指令总结，希望能够有帮助，直接ctrl+F关键词查询需要的指令，不定时更新~~1. 循环读取文本中内容:while read p;do echo "ha ---$p"done<text2. 指定后缀的文件名写入文本ls -R /mnt/data2/*.jpg > file.txt //绝对路劲ls -R *.jpg...

2020-04-08 13:21:55 420

原创文本分类_acc分数异常

在照搬别人的参数时候，nn.LSMT中有一个参数，batch_first，对它设置了True，于是分数直接下降了70个点。查阅过之后，发现是nn.LSTM中的batch_first是指它接受输入时，会将第一维的位置，认为是batch。为了验证写了一个小例子。为了方便观察，设置了batch为4，句子最长长度为11读入数据file_path="E:/study_series/2020_3_dat...

2020-03-21 23:45:31 259

原创文本分类_引入embedding

分类时为了能够有更好的文本表征，使用预训练的embedding替换之前随机的向量。获取bert embeddingfrom tensorflow.python import pywrap_tensorflowimport numpy as npreader=pywrap_tensorflow.NewCheckpointReader(ckpt_path)param_dict=reader....

2020-03-21 23:13:30 967

原创文本分类_简单的网络层

网络层处理文本class SimpleLSTMBaseline(nn.Module): def __init__(self, hidden_dim, emb_dim=300, num_linear=3): super().__init__() self.embedding=nn.Embedding(len(TEXT.vocab),emb_dim) ...

2020-03-21 17:31:37 302 1

原创文本分类_torchtext文本预处理

在看attention的实现时，看的太费劲，在文本预处理一块缺失太多，所以专门补补。torchtext的功能训练模型之前，通常需要做的工作包括: 1. 从硬盘中读取数据到内存中2. 符号化文本，看文章中的操作，是对文本进行格式上的一些转换，清洗方面的操作3. 创建map将词汇或字符转为数字4. 将text转为整型数字list。5. 加载数据，转为需要的格式，包括context和label。6....

2020-03-21 17:16:58 1045

原创文本补全

总体思路：1. 通过一段文本，获取ngram词汇组合，如果是多gram组合，分别做ngram再组合更清晰。2. 使用ngram构建一个字典树3. 输入一个字，获取下一个字的词频排序。如下为核心代码部分1. 取ngram代码:def get_ngram(line, num): temp_ngram=[] for pos in range(0, len(lin...

2020-03-04 12:57:12 830

翻译 CRF Layer on the top of BiLSTM-5_trans

https://createmomo.github.io/2017/11/11/CRF-Layer-on-the-Top-of-BiLSTM-5/在4中解释了如何计算S(i)，在这节中说明如何计算P(total)P(total)可以直接求解，但是效率非常低。根据之前的loss定义，我们加上一个log，会变成了负数，再加上一个负号，求当前loss的最小值了。【和P(real)/P(total...

2020-02-25 23:10:21 160

翻译 CRF Layer on the top of BiLSTM-4_trans

https://createmomo.github.io/2017/10/17/CRF-Layer-on-the-Top-of-BiLSTM-4/2.3中，假设每个可能的标注序列有一个分值P(i)，一共有N个可能的标注序列，总分值为如下:很明显在N条可能的路劲中必然有一条是真正的标注序列。例如在1.2的例子中START B-Person I-Person O B-Organization O...

2020-02-25 23:00:04 124

翻译 CRF Layer on the top of BiLSTM-3_trans

https://createmomo.github.io/2017/10/08/CRF-Layer-on-the-Top-of-BiLSTM-3/CRFloss由真实标签序列分数和所有可能标签序列的分值组成。真实标签序列的分数在所有可能的标签序列中，应当是得分最高的一个。如下图所示，假设一个句子由5个单词组成，这个句子的所有标签序列的可能结果有N个，第i个标签序列的分值为p(i)。那么总分...

2020-02-25 22:54:05 141

翻译 CRF Layer on the top of BiLSTM-2_trans

https://createmomo.github.io/2017/09/23/CRF_Layer_on_the_Top_of_BiLSTM_2/### ### 回顾:CRF层可以对训练集进行训练，得到一个最终的概率最高的标签序列。CRF layer在CRF lyaer的loss函数中，有两种score。一种是发射（emission）score，一直是转移（transition）score。...

2020-02-25 22:38:41 171

翻译 CRF Layer on the top of BiLSTM-1_trans

https://createmomo.github.io/2017/09/12/CRF_Layer_on_the_Top_of_BiLSTM_1/概览介绍在NER任务中，BiLSTM后接的CRF层详细解释CRF层运作step-by-step使用chainer完成一个CRF层知识储备只需要了解什么是NER即可（通俗地说，只要是用户想要了解的实体，即可以认为是实体识别）。在文中将会提...

2020-02-25 22:30:54 211

原创 BERT理论学习_10

https://mp.weixin.qq.com/s/FHDpx2cYYh9GZsa5nChi4ghttps://www.cnblogs.com/d0main/p/10165671.htmlELMO由双向LSTM作为特征获取器，最后得到了三层embedding，最底层是单词的word embedding，向上一层为单词位置的embedding，句法信息多一些；再向上也是单词位置的embed...

2019-05-30 20:39:54 307

原创 attention_9

作业链接;https://shimo.im/docs/KivfbK9TUHgCqg9b/参考：https://blog.csdn.net/qq_41664845/article/details/84969266LSTM虽然能够减少一定的梯度消失，优与RNN，在文本很长的情况下，LSTM也会丢失大量的信息。attention的出现解决了随着时间推移，信息丢失的问题。如下图B所示，为基...

2019-05-28 21:48:43 114

原创循环和递归神经网络_8

作业： https://shimo.im/docs/3AB1IwSkwBwZlbMY参考：https://blog.csdn.net/roger_royer/article/details/90552633#_2https://blog.csdn.net/qq_39422642/article/details/78676567RNN的结构循环神经网路阔以看作是在时间维...

2019-05-26 21:59:33 286

原创卷积神经网络_7

任务链接:https://shimo.im/docs/RFlP7snWLoQ0ejMU参考:https://blog.csdn.net/sherpahu/article/details/90484459https://blog.csdn.net/randompeople/article/details/90454173卷积的理解，就是在一组变量上，通过一个范围函数做操作，不断移动这...

2019-05-24 21:02:22 147

原创神经网络基础&fasttext

作业：https://shimo.im/docs/Ger2yvth3180SEkL前馈神经网络，是由输入层，隐藏层，输出层组成。参考：https://blog.csdn.net/u010089444/article/details/52555567感知机，最少为单层的感知机，仅由输入层和输出层相链接，中间有权值。感知器类似于逻辑回归模型（可以做二分类或者多分类，逻辑回归是在线...

2019-05-22 21:26:35 576

原创 beyes_svm_lda文本分类

参考:https://blog.csdn.net/u013710265/article/details/72780520- 贝叶斯简要来说，贝叶斯是在先验概率和条件概率的基础上，得到后验概率。而先验概率可能是选择了多项式，伯努利或者高斯等，由于先验概率的选择，可能会导致选择不恰当而模型分类不准确，另外贝叶斯的条件概率建立在特征之间的相互独立上，如果特征之间高度相关，则使用贝叶斯不是一个好...

2019-05-20 21:50:23 207

原创 word2vec学习...

第一次认真看..依然有很多看不懂，写一些当下的学习总结。参考：https://blog.csdn.net/itplus/article/details/37998797基本的网络结构是输入层+投影层+隐藏层+输出层。主要为：1. 基于ngram和 2. 基于神经网络的语言模型以及在神经网络的语言模型上改进为 3. CBOW和SKIP-gram的语言模型。基于ngram的语言模型...

2019-05-18 21:31:56 130

原创 tfidf_特征选择_互信息_

- tfidf原理，特征筛选参考:https://www.jianshu.com/p/9b2eb69ab735tiidf选择值更高的词作为句子的表达（作为特征），进而做分类任务或者相关度排序任务。那么值是什么值呢？tfidf其实是td与idf的操作。全称为term frequence - inverse document frequence，前者为某个单词在文档中出现的频率，后者为包含该...

2019-05-16 07:32:25 1096

原创文本预处理_词频计算_ngram

- 中文文本的预处理在处理文本时，由于存在各种不可预知的词，所以只进行我们所关心字符的处理。参考：https://www.jianshu.com/p/093ec1eeccffdef filter_word(sentence): for uchar in sentence: if(uchar>=u'\u4e00' and uchar<=u...

2019-05-14 21:36:12 1824

原创分类模型_数据整理

1- make_classification构造虚拟数据集，主要通过n_samples，n_features, n_classes,weights来进行构建，后期可能会使用到n_redunant和n_informative等进行特征之间相关度的分析。X,y=datasets.make_classification( n_samples=2000, n_features=1...

2019-05-12 21:11:10 538

原创 ngram 求句子概率(平滑)

2019-05-09 19:14:47 1757

原创 xgboost总结

参考：https://blog.csdn.net/xiu351084315/article/details/89192983算法原理xgboost是在gbdt的基础上做了一些优化。gbdt是基于CART的集成算法，使用回归树，可以处理分类和回归问题，通过每轮样本训练的训练，不断减小残差，修正合适的损失函数来构建树。xgboost在损失函数中引入了正则项，减少过拟合；将一阶导数改为二阶导数；...

2019-04-10 21:33:16 114

原创 gbdt

参考：https://www.cnblogs.com/pinard/p/6140514.html前向分布算法就是一步一步计算每个弱学习器的参数的思想，和boosting相同。负梯度拟合负梯度拟合就是在某个弱学习器得到的结果和真实值之间的误差的基础上，在减少这个误差的方向上构建新的CART回归树做一个拟合。由于负梯度是函数对变量进行求导，所以对原生的分类问题没办法做处理，需要对分类问题转换为...

2019-04-07 13:44:30 158

原创随机森林算法梳理

参考:https://www.cnblogs.com/pinard/p/6131423.html集成学习集成学习面对的是一个强学习器，由多个个题学习器，通过一定的策略组合而成。个体学习器分为两种：同质学习器（同类算法得到的模型）通常使用CART决策树和神经网络等，根据模型之间的关联强度分为两种：强关联串行，例子boosting弱关联并行，例子bagging和随机森林...

2019-04-04 20:08:09 440

原创 windows10 下boost.python（3.6anaconda）+dlib19.4 配置+pytorch

为了安装Pytorch，测试一个github demo，所以要安装pytorch，而有需要python-boost和dlib。忘了配了多少次了，零零散散昨天基本弄清楚了。记录分享。首先是版本选择，vs2015+dlib19.4，坑如下:1. vs13会导致在安装dlib19.4时提示错误，需要使用vs15。不过记得如果是18.4的时候可以使用vs13，不确定。2. dlib19.5和d

2017-11-06 20:19:48 1793

原创 linux下编译opencv程序

我操...linux系统。。。让我疯了，，写好了又手贱没了。。会出现找不到opencv的情况，原因是在/usr/local/pkgconfig下面的opencv.pc缺少露路劲，加上opencv2的路劲即可：pkg-config --cflags --libs opencv查看，已经加进去露这个时候参考另外一篇asm的日志里面的方法，我操懒得写第三编露。。

2017-02-19 14:21:51 519

原创 asm训练（纯小白文高手勿看）

1.首先prepare.sh是不能用的，下载不了，简单看下里面的代码就能明白作用是下载，遍历下载文件提取的，那么手动下载好放到指定位置即可。2.然后根据readme里面的步骤1 ./prepare.sh即可。会有几个list文件生成。需要在编译的时候在最后加上 `pkg-config --cflags --libs opencv`。这个时候会发现作者写的许多库不对，刚开始以为链接问题，各种

2016-10-22 20:42:35 630

原创 ros

好久不写博客了又。前几天弄ros，然后要写一个地图出来。刚开始以为工作量很大，没有认真看导师给的内容，于是走了比较大的弯路。刚开始瞎看，后来看到了move_base，看ros example那本书，当初看到一处说，move_base是可以人为设定一个goal，然后可以让机器人走到那里。呵呵，今天才意识到这是路劲规划，不属于我要看的部分。又自己找了yaml的关键字查，又从bing上看到了

2016-07-25 22:00:27 420

原创双系统ubuntu+ros indigo安装

总在变，没办法，学。来北京3个月了，那会我连普通的装系统都不会...现在经历了平均一两周的重装系统，真的跟喝水似的了。虚拟机也装过了，昨天装了双系统ubuntu。也装了ros，写一点心得。1.使用easyBCD来装双系统，第一次看的一个教程有问题，没有删除分区助手分出来的盘符，导致在装ubuntu时没法增加分区。于是乎。。重新找教程，然后发现了不同，然后重新做，果然可以了。要用来装ubun

2016-07-15 09:18:38 803

原创面试经验1

今天去YH，原本跟cto就说好是聊聊现在纠结的心态，估计下面人不知道，扔了份卷子给我做，宝宝好心塞，结果笔试，面试。笔试不出意料很惨，cpp基础不好。但还是接到了面试，cto比想象的要年轻很多，就叫郑哥了。郑哥说1有好多人都搞反了，本来应该在好好学基础的时候却看那些看起来很华丽的东西，仅仅知道华丽却不知道怎么做。应该更多去关注自己不爱看的，而不是想看的。仔细想想确实是，相对于数学，c++基础，

2016-07-07 21:26:12 256

原创随笔（今天遇到的，优秀的网址）

thinkface，今天装matlab等待的过程随便翻看，下面有些东西也挺不错。cv视觉网，是thinface的友情链接 http://www.cvvision.cn/ 里面又有个网址挺好，算是挺方便的http://www.cvvision.cn/so.html碰到一个说unity的网址http://www.vice.cn/read/unity-sci-fi-short-film-

2016-06-23 17:06:57 340

原创 opencv学习1

Mat学习vector<float> v; v.push_back(3); v.push_back(5); v.push_back(7); cout << "【基于Mat的vector】shortvec = " << v << ";\n" << endl;错误代码，此时提示应该是输出Mat（v），

2016-06-15 15:09:35 220

原创 am_tools timface学习

前几天有点乱，不过总算是努力看了的没白看。导师让换课题，幸好里面的技术还是沿用了。看了两天asm，找到am_tools，然后想先跑通了，差不多从昨天这个时候开始跑，到现在终于通了。下午再详细看是怎么回事，期间遇到一些小问题，依依写出来，为记录也为分享。以下是参考的两个网址，1个中文一个英文，不得不说中文给了很大帮助，但一定要继续像英文转化，毕竟经过翻译会有一些出入或者错误。http://w

2016-06-15 12:05:23 1241

原创 opencv批量切割图片

在获取负样本时就算用Ps进行切片也比较麻烦，上了几千就麻烦的要死，好吧，网上找合适的程序好麻烦，自己动手写了个小程序。由于不熟悉，参考别人的代码，直接上 `#includeincludeinclude

2016-06-03 16:29:34 1097

基于mvc的在线投稿与审稿系统

空空如也