自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(127)
  • 收藏
  • 关注

转载 c++面试题

1.求下面函数的返回值(微软)int func(x){    int countx = 0;    while(x)    {          countx ++;          x = x&(x-1);     }    return countx;}复制代码假定x = 9999. 答案

2016-10-12 15:21:43 531

转载 lstm的数学推导

本文是根据以下三篇文章整理的LSTM推导过程,公式都源于文章,只是一些比较概念性的东西,要coding的话还要自己去吃透以下文章。  前向传播:1、计算三个gate(in, out, forget)的输入和cell的输入:zinj(t)=∑mwinjmym(t−1)+∑v=1SjwinjcvjScvj(t−1),(1)(1)zinj(

2016-08-16 17:39:21 2663

转载 RNN介绍,较易懂

原文  http://www.jianshu.com/p/9dc9f41f0b29Recurrent Neural Networks人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃,然后用空白的大脑进行思考。我们的思想拥有持久性。传统的神经网络并不能做到

2016-08-16 15:42:03 85226 5

转载 端到端的OCR:基于CNN的实现

端到端的OCR:基于CNN的实现OCR是一个古老的问题。这里我们考虑一类特殊的OCR问题,就是验证码的识别。传统做验证码的识别,需要经过如下步骤:1. 二值化2. 字符分割3. 字符识别这里最难的就是分割。如果字符之间有粘连,那分割起来就无比痛苦了。最近研究深度学习,发现有人做端到端的OCR。于是准备尝试一下。一般来说目前做基于深度学习的OCR大概有如下套路:1

2016-08-16 14:15:47 6352 1

转载 设置ssh无密码登录

分类: LINUXSSH无密码登录要使用公钥与私钥。Linux下可以用用ssh-keygen生成公钥/私钥对。举例:有机器PC_A(172.0.246),PC_B(172.0.1.140)。现想A通过ssh免密码登录到B。1.在PC_A主机下生成公钥/私钥对[comodo@PC_A ~]$ ssh-keygen -t rsa -P ''-

2016-07-07 15:10:16 432

转载 神经网络参数设置注意事项

翻译网上的哈,我觉得有很大一部分从没看到过,所以就翻译了下,如有不对的地方,欢迎指正:1、准备数据:务必保证有大量、高质量并且带有干净标签的数据,没有如此的数据,学习是不可能的2、预处理:这个不多说,就是0均值和1方差化3、minibatch:建议值128,1最好,但是效率不高,但是千万不要用过大的数值,否则很容易过拟合4、梯度归一化:其实就是计算出来梯度之后,要除

2016-07-05 12:51:49 5161

转载 简单有趣介绍神经网络

作者:王小龙链接:http://www.zhihu.com/question/22553761/answer/36429105来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。神经网络很萌的!0. 分类神经网络最重要的用途是分类,为了让大家对分类有个直观的认识,咱们先看几个例子:垃圾邮件识别:现在有一封电子邮件,把出现在里

2016-06-23 18:50:53 1528

转载 各种算法的优点与缺点

1决策树(Decision Trees)的优缺点决策树的优点:一、           决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、           对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。三、           能够同时处理数据型和常规型属性。其他的技术往

2016-06-23 18:44:05 4620

转载 BP神经网络梯度下降算法

菜鸟初学人智相关问题,智商低,艰苦学习中,转文只为保存,其中加上了一些个人注释,便于更简单的理解~新手也可以看,共勉。转自博客园@编程De: http://www.cnblogs.com/jzhlin/archive/2012/07/28/bp.html从神经网络的生物模型说起         我们知道人大脑信息的传递、对外界刺激产生反应都由神经元控制的

2016-06-23 18:21:51 16763 7

转载 10个深度学习的工具

本周早些时候Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。无疑,来自Google军火库的TensorFlow必然是开源深度学习软件中的明星产品,登陆GitHub当天就成为最受关注的项目,当周获得评星数就轻松超过1万

2016-06-15 18:36:10 15205

转载 Wellner 自适应阈值二值化算法

参考文档: Adaptive Thresholding for the DigitalDesk.pdf            Adaptive Thresholding Using the Integral Image.pdf 源:http://www.cnblogs.com/Imageshop/archive/2013/04/22/3036127.html?utm_source=tu

2016-06-11 13:10:58 10685

转载 使用scikit-learn进行机器学习的简介(教程1)

一、机器学习:问题设定通常,一个学习问题是通过分析一些数据样本来尝试预测未知数据的属性。如果每一个样本不仅仅是一个单独的数字,比如一个多维的实例(multivariate data),也就是说有着多个属性特征我们可以把学习问题分成如下的几个大类:(1)有监督学习数据带有我们要预测的属性。这种问题主要有如下几种:①分类样例属于两类或多类,我们想要从已经

2016-06-07 15:49:39 8924

转载 Theano-卷积神经网络

供大家相互交流和学习,本人水平有限,若有各种大小错误,还请巨牛大牛小牛微牛们立马拍砖,这样才能共同进步!若引用译文请注明出处http://www.cnblogs.com/charleshuang/。 本文译自:http://deeplearning.net/tutorial/lenet.html文章中的代码截图不是很清晰,可以去上面的原文网址去查看。 1、动机

2016-06-04 13:08:45 1127

转载 卷积神经网络实现

Convolutional Neural Networks (LeNet)NoteThis section assumes the reader has already read through Classifying MNIST digits using Logistic Regression and Multilayer Perceptron. Additionally,

2016-06-03 18:10:11 1820

转载 基于 Python 和 Scikit-Learn 的机器学习介绍

基于 Python 和 Scikit-Learn 的机器学习介绍来自:http://developer.51cto.com/art/201507/485276.htm我叫Alex,我在机器学习和网络图分析(主要是理论)有所涉猎。我同时在为一家俄罗斯移动运营商开发大数据产品。这是我第一次在网上写文章,不喜勿喷。现在,很多人想开发高效的算法以及参加机器学习的竞赛。所以他

2016-06-03 18:00:38 708

原创 haartraining实践总结

haartraining实践总结:1. 构造positive样本和negtive样本set,        - 一般来说先将图片转成灰度图片        - resize图片到适合大小,以适于切割下来的pos的样本size最好为20×20的size,且要为正方形图片,且为bmp格式的图片。这样有利于算出最终结果的精确度。       - bmp的图片不能直接将jpg的图片改一下后

2016-05-29 12:56:38 522

转载 调整基于HAAR特征的AdaBoost级联分类器的物体识别的参数

1. 基于HAAR特征的AdaBoost级联分类器的物体识别问题        Paul A. Viola和Michael J. Jones在2001年发表文章“使用简单特征的提高级联检测器的快速物体检测”。同时CSDN上很多博主在07年到13年也纷纷对该方法的原理,库函数内容,XML文件的训练以及OpenCV的实现做出很多工作。同时,调用OpenCV的库函数很方便,能够用很短的代码即可实

2016-05-29 11:11:12 1344

转载 如何用OpenCV训练自己的分类器

转自http://apps.hi.baidu.com/share/detail/32393679最近要做一个性别识别的项目,在人脸检测与五官定位上我采用OPENCV的haartraining进行定位,这里介绍下这两天我学习的如何用opencv训练自己的分类器。在这两天的学习里,我遇到了不少问题,不过我遇到了几个好心的大侠帮我解决了不少问题,特别是无忌,在这里我再次感谢他的帮助。

2016-05-26 19:54:39 3127

转载 haartraining训练生成xml过程

总所周知,机器学习前要训练很多数据,一直感觉训练数据是个很神圣的东西,到底怎么训练呢?头脑一直有这么个疑问,但一直没时间去体验。因此最近在学adaboost算法,就要学会怎样训练出一个.xml文件了。方法是相同的,用过一次,以后的训练过程就差不多了。     只是打算进行简单的人脸数据训练,而是在网上下载了yale大学的人脸数据库,由耶鲁大学计算视觉与控制中心创建,包含15位志愿者的165

2016-05-26 19:05:09 6630 1

转载 神经网络简单介绍

http://wenku.baidu.com/link?url=z5pyQa4BQbJxi-3v4-wheRqLw8sCPfQ7k_RI2gG5dvaYe4inE_YIXyQq_QP_ivBTvl_Gt5T2DT3LSJMMvubZc5O_4N_HgndBTSsJvo3bfha

2016-05-24 18:46:10 297

转载 svm的不同种类

支持向量机的发展 自从90年代初经典SVM的提出,由于其完整的理论框架和在实际应用中取得的很多好的效果,在机器学习领域受到了广泛的重视。其理论和应用在横向和纵向上都有了发展。理论上:1.模糊支持向量机,引入样本对类别的隶属度函数,这样每个样本对于类别的影响是不同的,这种理论的应用提高了SVM的抗噪声的能力,尤其适合在未能完全揭示输入样本特性的情况下。2.最小二乘支持向量机。

2016-05-24 17:54:19 3828

原创 linux 安装libsvm 并配置python

1. download libsvm-3.21.tar.gz on official website:  http://www.csie.ntu.edu.tw/~cjlin/libsvm/2. untar and uploaded to /usr/local/bin/libsvm-3.213. run "make" at /usr/local/bin/libsvm-3.214. lib

2016-05-20 18:05:43 1165

转载 卷积神经网络

一、前言这篇卷积神经网络是前面介绍的多层神经网络的进一步深入,它将深度学习的思想引入到了神经网络当中,通过卷积运算来由浅入深的提取图像的不同层次的特征,而利用神经网络的训练过程让整个网络自动调节卷积核的参数,从而无监督的产生了最适合的分类特征。这个概括可能有点抽象,我尽量在下面描述细致一些,但如果要更深入了解整个过程的原理,需要去了解DeepLearning。这篇文章会涉及到卷积的

2016-05-18 22:48:12 612

转载 libsvm基础知识

1: 了解libsvm工具包LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等2001年开发设计的一个简单, 易于使用和快速有效的SVM模式识别与回归的软件包, 他不但提供了编译好的可在Windows系列系统的执行文件, 还提供了源代码, 方便改进, 修改以及在其它操作系统上应用; 该软件对SVM所涉及的参数调节相对比较少, 提供了很多的默认参数, 利用这些默认参数可以解决很多

2016-05-12 14:25:48 392

转载 数学字符读法

α( 阿而法)β( 贝塔)γ(伽马) δ(德尔塔) ε(艾普西龙) ζ(截塔) η(艾塔) θ(西塔) ι约塔) κ(卡帕) λ(兰姆达) μ(米尤) ν(纽) ξ(可系) ο(奥密克戎) π (派)ρ (若)σ (西格马)τ (套)υ (英文或拉丁字母)φ(斐) χ(喜) ψ(普西)) ω(欧米伽)

2016-05-12 11:21:32 614

转载 验证码识别svm

0x00 识别涉及技术验证码识别涉及很多方面的内容。入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足。验证码图像处理验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符的文本矩阵。读取图片图片降噪图片切割图像文本输出验证字符识别验证码内的字符识别主要以机器学习的分类算法

2016-05-12 11:07:36 2329

原创 python libsvm windows 64位 安装

网上有很多麻烦的在win64机器上安装libsvm的步骤,实际上只要在下面网站找到libsvm的whl包,pip安装就行了pip install libsvm-3.21-cp27-none-win_amd64.whlhttp://www.lfd.uci.edu/~gohlke/pythonlibs/#libsvm

2016-05-12 11:03:44 3493 4

转载 通俗介绍人工神经网络

http://wenku.baidu.com/view/54c9350dba1aa8114431d918.htmlhttp://www.wenkuxiazai.com/doc/ead69ab8f121dd36a32d82fc.html

2016-05-10 18:45:35 417

转载 图像局部特征点检测算法综述

研究图像特征检测已经有一段时间了,图像特征检测的方法很多,又加上各种算法的变形,所以难以在短时间内全面的了解,只是对主流的特征检测算法的原理进行了学习。总体来说,图像特征可以包括颜色特征、纹理特等、形状特征以及局部特征点等。其中局部特点具有很好的稳定性,不容易受外界环境的干扰,本篇文章也是对这方面知识的一个总结。本篇文章现在(2015/1/30)只是以初稿的形式,列出了主体的框架,后面还有

2016-05-07 11:24:26 1195

转载 Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Py

2016-04-29 17:08:39 801

转载 Python yield 使用

Python yield 使用浅析初学 Python 的开发者经常会发现很多 Python 函数中用到了 yield 关键字,然而,带有 yield 的函数执行流程却和普通函数不一样,yield 到底用来做什么,为什么要设计 yield ?本文将由浅入深地讲解 yield 的概念和用法,帮助读者体会 Python 里 yield 简单而强大的功能。11 评论

2016-04-27 12:02:37 367

转载 使用c语言来扩展python模块

我们来实现一个简单的加法的扩展模块!建立一个目录,整个目录名中不要包含中文。在目录下建立add.c,内容如下:#include ;static PyObject* add(PyObject *self, PyObject *args); //一定声明为static,把他们限制在这个文件范围里。 几乎所有的参数都是PyObject类型。 在python,每个东西都

2016-03-24 16:59:29 406

转载 海量数据采集爬虫架构

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本

2016-03-24 15:57:58 8086

转载 python实现pagerank

#coding=utf-8# Filename:pr.pyS=[[0,0,0,0],[0.3333,0,0,1],[0.3333,0.5,0,0],[0.3333,0.5,1,0]]#原始矩阵U=[[1,1,1,1],[1,1,1,1],[1,1,1,1],[1,1,1,1]] #全部都为1的矩阵f=[1,1,1,1]  #物征向量alpha=0.85 

2016-03-19 14:49:24 1985

转载 baidu分词技术分析

随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

2016-03-19 14:43:44 481

转载 数据清洗经验

平时习惯了在某些特定的数据集合上做实验,简单的tokenization、预处理等步骤就足够了。但是在数据越来越大的年代,数据清洗越来越重要,也越来越复杂。看到Philip J.Guo 的这篇英文文章《Parsing Raw Data》觉得不错,学习并译成中文,难免谬误,仅供参考。  前言  科研工作者、工程师、业务分析者这些和数据打交道的职业,数据分析在他们工作中是一项核心任务。这

2016-03-17 21:02:27 854

转载 Python nltk自然语言处理基本资料

nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建  http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 

2016-03-17 21:01:08 1354

转载 数据清洗实例分析

DataEye:数据清洗实例分析发表于2015-01-29 14:32| 2894次阅读| 来源资讯| 3 条评论| 作者资讯摘要:随着信息技术的快速发展,各个领域都在每时每刻以惊人的速度产生出各式各样的规模巨大的数据信息,人类也在工作生活的方方面面接触到越来越多的数据信息。然而,人类对数据信息理解的匮乏与数据爆炸的趋势显得并不对称,人类在努力将数据信息转化为有

2016-03-17 20:49:55 12742

转载 ngnix架构

转自 http://tengine.taobao.org/book/chapter_02.html初探nginx架构(100%)众所周知,nginx性能高,而nginx的高性能与其架构是分不开的。那么nginx究竟是怎么样的呢?这一节我们先来初识一下nginx框架吧。nginx在启动后,在unix系统中会以daemon的方式在后台运行,后台进程包含一个master进程和多个work

2016-03-15 17:59:35 888

转载 tomcat 与 ngnix配置

相信很多人都听过nginx,这个小巧的东西慢慢地在吞食apache和IIS的份额。那究竟它有什么作用呢?可能很多人未必了解。说到反向代理,可能很多人都听说,但具体什么是反向代理,很多人估计就不清楚了。摘一段百度百科上的描述:Html代码  反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并

2016-03-15 17:57:53 970

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除