BabY虎子-CSDN博客

原创 keras入门--常用层和函数

参考资料keras英文文档https://keras.io/ keras中文文档http://keras-cn.readthedocs.io/en/latest/Input层keras.engine.topology.Input() Input()用来实例化一个Keras张量。Keras张量是来自底层后端（Theano，TensorFlow或CNTK）的张量对象，我们增加了

2018-01-31 16:39:01 1122

原创读论文end-to-end Memory Networks

相关论文《end-to-end memory networks》《aspect level sentiment classification with deep memory network》《entity disambiguation with memory network》第一篇是2015年发表的关于注意力模型应用到NLP上的文章。一作是Sainbayar Sukhbaatar

2018-01-18 09:55:12 712 1

原创 linux命令之sed

sed命令sed命令可以将一个文件中的若干行内容显示出来，也可以将这些内容输出到指定文件中去，在处理大文件中可以用的到。如： sed -n ‘200000,250000p’ train.zh >>zh_4.txt 将train.zh中的第200000到第250000行输出到zh_4.txt文件中。

2018-01-08 10:10:30 406

利用numpy可以很方便的计算两个二维数组之间的距离。二维数组之间的距离定义为：X的维度为(a,c),Y的维度为(b,c),Z为X到Y的距离数组,维度为(a,b)。且Z[0,0]是X[0]到Y[0]的距离。Z(m,n)为X[m]到Y[n]的距离。如下图所示。代码如下:#computer the distance between text point x and train point x_train

2017-12-22 10:14:34 7152 1

原创字符级别word2vec

字符编码,word2vec,cnn

2017-12-21 11:33:58 4057 4

原创 keras for attention

keras还没有官方实现attention机制，有些attention的个人实现，在mnist数据集上做了下实验。模型是双向lstm+attention+dropout，话说双向lstm本身就很强大了。

2017-12-20 17:44:42 20002 16

原创 Python爬取当当网亚马逊书名

爬取当当网，亚马逊书名

2017-12-18 22:57:04 1247

原创 python3调用百度翻译接口样例

baidu开放的翻译接口python语言的demo是2版本的，稍作修改在python3跑了下，并将结果写入文件中。#coding=utf-8import http.clientimport hashlibfrom urllib imp

2017-11-15 14:48:06 5176

原创 php调用python程序以及下载文件功能

今天试了下windows下用php调用python的程序。环境：win10,python3+,Wampserver32$str = shell_exec ("C:/Users/***/Anaconda3/python C:/wamp/www/***/deal_document.py ".$newfile);python的路径和py文件的路径要写全，不然会因为python没加入环境变量而无法运行。

2017-11-08 21:57:15 1160

原创 python3打开pkl文件

python中带有pickle包对pkl文件进行操作。打开带有中文的pkl文件，需要指定编码格式：import pickle# f = open('dict_word.pkl', 'rb')# for line in f:# print(line)dict_word = pickle.load(open("dict_word.pkl", 'rb'), encoding='utf-8

2017-10-30 12:06:28 29681 3

原创 Python爬取高清图片

placeholder

2017-10-11 16:55:55 1293

原创 Elasticsearch入门2 导入导出数据

将数据导入导出elasticsearch，对elasticsearch进行查询是常用操作。python特供很方便的接口，对数据进行导入导出。参考博客python批量导入数据进Elasticsearch Term精确匹配中文字符串短语

2017-09-12 19:12:34 1662

转载国内可用语料库

国内可用语料库

2017-09-05 10:38:56 13226 1

原创 tensorflow入门9 模型部署2

placeholder for my model

2017-08-31 17:31:59 278

原创 tensorflow入门8 模型部署1

placeholder for tensorflow_serving example

2017-08-31 17:30:05 378

原创 python开发常用命令小结

conda命令virtualenv命令linux命令python命令

2017-08-31 17:26:22 1655

原创排序算法小结(python 实现)

排序算法

2017-07-27 15:50:00 355

原创从无到有RNN

这段时间看了一些关于循环神经网络的资料，也了解了一些框架中对RNN的封装。觉得还是要在非深度学习框架下用最直接的方式过一遍RNN的例子才能更好地理解RNN和其中用到的一系列算法(bptt,sgd,adam等)这篇博客主要结合一个简单的例子理解RNN内部的结构以及bptt算法的过程。还有个小心思，最近CNN相当的火爆，我不信RNN在序列问题上干不过CNN?(开玩笑的。。。其实想有些创新，就要了解原理)

2017-06-06 20:42:13 888

原创正则表达式小应用

正则表达式在处理文本尤其是对文本进行过滤和筛选等工作时很有用，经常用于字符串的匹配等操作。

2017-05-31 11:37:28 319

原创 tensorflow入门7 softmax函数和交叉熵损失函数

softmax函数、交叉熵损失函数

2017-05-17 17:52:34 2947

原创 LSTM简介

资源：Colah博客《Understanding LSTM Networks》:http://colah.github.io/posts/2015-08-Understanding-LSTMs/Colah博客中文翻译：http://www.jianshu.com/p/9dc9f41f0b29#《deep learning book》Chapter10 Sequence Mode

2017-05-08 15:32:41 2729

原创词向量之加载word2vec和glove

1 Google用word2vec预训练了300维的新闻语料的词向量googlenews-vecctors-negative300.bin，解压后3.39个G。可以用gensim加载进来，但是需要内存足够大。#加载Google训练的词向量import gensimmodel = gensim.models.KeyedVectors.load_word2vec_format('G

2017-04-26 20:57:33 29968 5

原创词向量之word2vec(2)

word2vec简单应用

2017-04-26 10:36:09 709

转载词向量之word2vec(1)

word2vector

2017-04-26 10:35:09 617

原创 python kmp算法简单实现

def getnext(a,next): al = len(a) next[0] = -1 k = -1 j = 0 while j < al-1: if k == -1 or a[j] == a[k]: j += 1 k += 1 next[j] = k

2017-04-26 10:21:21 1950

原创 bp算法推导过程

bp算法的推导过程，留个纪念。参考http://deeplearning.stanford.edu/wiki/index.php/反向传导算法

2017-04-19 17:47:27 1188

原创重启随机游走算法（RWR）

重启随机游走算法（RWR）

2017-04-18 10:46:55 31797 5

原创条件熵的定义

最大熵模型中使用条件熵作为模型基础，决策树算法中利用经验条件熵作为计算信息增益的基础。当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵和条件熵分别成为经验熵和经验条件熵。维基百科中也有对条件熵的定义和相关公式的描述。李航统计学习方法中最大熵模型的定义为：决策树求信息增益时的经验条件熵的定义为：可以看得出条件熵和经验条件熵公式是一样的，只是概

2017-04-18 09:31:34 8577

原创 python快排

快排最少的时间复杂度是O(n),平均是O(n logn),最坏O(n^2)。#quick_sort

2017-04-17 09:16:01 1807

原创 Elasticsearch入门1

Elasticsearch是一个实时分布式搜索和分析引擎，用于全文搜索、结构化搜索、分析以及这三者混合使用。检索文档

2017-04-12 09:39:06 280

原创 tensorflow入门6 tensorboard的使用

tensorboard的基本内容tensorboard的使用例子

2017-04-09 22:46:35 1002

原创 tensorflow入门5 从一个二分类问题看rnn的结构

之前在笔记本上安上了tensorflow1.0版本，可以在本地运行tf的程序。今天看了一个rnn的例子，关于线性和非线性序列的分类问题。对于一个list，如果形如[1,2,3,4,5]这种有序的就说是分为class 0，[1,3,10,7]这种随机生成的序列就分为class 1。通过这个例子，对rnn的理解更明确了。还有一点就是tf1.0版本和之前的一些函数有所区别。代码解析如下：生成

2017-04-05 18:49:48 8053 1

原创 tensorflow入门4 windows环境下安装tf

实验室的服务器有时候不太好用，就想着在自己的windows上安装tf。目前windows支持python3.5以上版本和tensorflow1.0版本，所以在安装tf之前我先把py2卸载了，安装anaconda3-4.2.0-windowsx86_64.exe，链接在点击打开链接，直接按就好，安装完成后可以conda info测试一下。并且告别了py2，迎来了py3。接下来就是安装te

2017-03-31 13:53:28 1466

原创 leetcode 77

返回n个数中k的排列，用到了递归的方法。class Solution(object): def __init__(self): self.l = [] def combine(self, n, k): """ :type n: int :type k: int :rtype: List[List[i

2017-03-27 22:14:59 537

原创 tensorflow入门3 卷积神经网络、循环神经网络以及双向lstm手写体识别

上一篇文章中总结了tf中卷积神经网络的两个中重要的函数，这篇文章里展示cnn在手写体识别中的应用import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("./MNIST_data/", one_hot=True)l

2017-03-27 15:51:15 1523

原创 tensorflow入门2 几个函数的总结和手写数字识别

tensorflow中很多函数是对神经网络中用到的一些功能的封装tf.nn.softmax_cross_entropy_with_logits(logits,labels,name=None)函数，用来计算交叉熵损失。

2017-03-23 20:02:05 1961

原创 tensorflow入门1 基本用法和最近邻算法

#tensorflow入门例子import tensorflow as tfhello = tf.constant('Hello, Tensorflow!')sess = tf.Session()print sess.run(hello)print "--------------"###################################################ba

2017-03-22 14:54:38 542

原创统计学习方法习题5.1 c4.5实现

题目要求：根据训练数据集，利用信息增益比（C4.5算法）生成决策树。信息增益比算法是id3算法的改进：信息增益比的定义：代码实现（机器学习实战的改编，保存为tree.py）：from math import logimport operatordef createDataSet(): dataSet = [1,0,0,1,0],\

2017-03-20 09:11:17 1134

原创统计学习方法习题5.2 python实现

根据表5.2所示的数据，用平方误差损失准则生成二叉回归树二叉回归树的算法为：其中公式5.21中的c1,c2分别为R1和R2上数据的平均值代码仿照机器学习实战上关于决策树实现：

2017-03-20 00:36:34 2003

原创 leetcode 64&70

两道比较简单的动态规划问题，用python实现64题大概意思是给出一个矩阵，从左上到右下最的和最小，70题就是更熟悉的爬楼梯的问题。其实也是对python语法进行熟悉，不像c语言有数组的概念，python里面用list实现类似的功能。但是，还是有些不一样的地方。class Solution(object): def minPathSum(self, grid): "

2016-12-11 18:41:34 389

nlp-lang-1.7.jar

ansj是由孙健开发的一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上。目前实现了：中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。作者在最新的分词方式里增加了基于深度学习的分词方式。

2017-09-04

tree_split-1.5

2017-09-04

ansj_seg-5.1.3.jar

最新的ansj分词工具jar包，用于在ecplise中使用ansj分词。ansj是由孙健开发的一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上。目前实现了：中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。作者在最新的分词方式里增加了基于深度学习的分词方式。

2017-09-04