芝士小奶盖-CSDN博客

原创 python变换次数

输入一个数，将这个数的各个位相乘，求相乘后位个位数的次数如输入258，变换为2*5*8=80，然后8*0=0，次数为2。输入：2 5 8输出：2python3(直接100%通过牛客):import sysdef change_time(input_,temp): str_ = str(input_) mat = int(str_[0]) for i ...

2019-09-29 12:59:34 382

原创已知校验矩阵（监督矩阵）或生成矩阵G怎样生成所有可能码字

最近几天重新复习了有关信息编码的知识，首先跟大家推荐两本书吧。《数字通信原理与技术》（北京邮电出版社的）《ldpc原理与应用》首先先搞清几个概念。1.什么是分组码？每个码组的监督码元仅与该码组的信息码元有关，而与其他码组的信息码元无关，这类码称为分组码。在分组码中，监督码元仅监督本码组中的信息码元。编码效率R=k/n，k是信息位，n-k是监督位，R越大，信息位所占的比重越大...

2019-03-22 17:35:29 30184 2

原创 GANSYNTH（基于对抗性神经网络的音频合成）

本文基于文章《Adversarial neural audio synthesis》读了论文，看了源代码，还是有很多地方对不上，不理解（因为代码部分还是比较难的,音频音乐部分也涉及到很多信号处理方面的知识）。理解的我就补充进来。这是谷歌团队的megenta项目，首先先了解对抗神经网络（Gan，网上一大堆，可以找个demo看一看跑一跑就懂），以及progressive Gan,progr...

2019-03-22 09:12:59 5087 10

原创统计语言模型与NLP算法设计

什么是语言模型呢？简单的说，统计语言模型是用来计算句子中某种语言模式出现概率的统计模型。一般自然语言的统计单位是句子，所以也可以看做句子的概率模型。假设W=(w1,w2,....,wn)为一个句子，这个句子有n个词，也就是n个词汇按顺序构成的字符序列，这里表示为W1n,利用贝叶斯公式进行链式分解，w1,w1,....wn的联合概率为：我们...

2018-08-17 17:10:18 1892

原创 TF-IDF（附代码）

词频（Term Frequency,TF）是指某一个给定的词语在该文件中出现的频率。这个数字是对词数（Term Count）的归一化，以防止它偏向长的文件。对于在某一特定文件中的词语来说，它的重要性可以表示为： TF=(该词在文件中的出现次数）/（在文件中所有字词的出现次数之和）（定义来自百度百科）逆向文件频率（Inverse D...

2018-07-20 15:40:58 3454

原创 word2vec的应用：gensim相似度检测（附代码）

上篇写的word2vec的相关算法，这篇附上代码。其中我们的语料是小说“人民的名义”，百度云盘：https://pan.baidu.com/s/1ggA4QwN首先是进行分词：#-*-coding:utf-8 -*-import jieba.analyseimport jiebajieba.suggest_freq('沙瑞金',True)jieba.suggest_fre...

2018-07-20 14:29:23 8265 2

原创自然语言处理word2vec

首先，先让我们看一下gensim和word2vec的关系吧gensim库三大功能:可扩展的统计语义分析语义结构的纯文本检索语义上类似的文档word2vec是gensim的一个子模块,可以用来实现上面三大功能。而CBOW模型和 Skip-Gram模型是word2vec的两个模型。 Genism:在gensim中，word2vec相关的API都在gensim.models...

2018-07-20 14:12:05 634

贝叶斯是用来描述两个条件概率直接的关系。我知道：由上式进一步推导得：由此，推广到随机变量的范畴，设X,Y为两个随机变量，得到贝叶斯公式：其中，P(Y)叫做先验概率，P(Y|X)叫做后验概率，P(Y,X)是联合概率。在机器学习的视角下，我们把X理解成“具有某种特征”，把Y理解为“类别标签”，贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率，属于监...

2018-07-16 13:28:21 2506

原创基于循环神经网络（RNN）的神经语言模型

这篇主要介绍神经语言模型的结构。与RNN相比，NLP应用中主要多了两个层：词向量层（embedding)和softmax层。下面对这两个层分别进行介绍。一.词向量层（embedding) 在神经网络的输入层，每一个单词用一个实数向量来表示，这个向量被成为“词向量”（Word embedding，也可以翻译成：词嵌入)。词向量可以形象的理解为将词汇表嵌入到一个固定维度的是实数空间里。将单词编号转化...

2018-07-06 13:51:23 4187 2

原创经典损失函数：交叉熵（附tensorflow）

每次都是看了就忘，看了就忘，从今天开始，细节开始，推一遍交叉熵。我的第一篇CSDN，献给你们（有错欢迎指出啊）。一.什么是交叉熵交叉熵是一个信息论中的概念，它原来是用来估算平均编码长度的。给定两个概率分布p和q，通过q来表示p的交叉熵为：注意，交叉熵刻画的是两个概率分布之间的距离，或可以说它刻画的是通过概率分布q来表达概率分布p的困难程度，p代表正确答案，q代表的是预...

2018-07-03 16:09:56 78776 32

Study memo