自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(226)
  • 资源 (6)
  • 收藏
  • 关注

转载 Softmax Regression

原文:http://www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.htmlsoftmax,互斥k个logistic,多分类-------------------------------------------------------------------------------------------------

2016-08-21 15:19:41 583

转载 再谈机器学习中的归一化方法(Normalization Method)

转自 http://blog.csdn.net/zbc1090549839/article/details/44103801min-max, z-score 等=========================================================机器学习、数据挖掘工作中,数据前期准备、数据预处理过程、特征提取等

2016-08-21 14:56:07 2845

原创 CNN RNN 杂想

CNN,卷积,其实就是映射,这个空间,映射到另一个空间。然而,卷积的移动,这个很有趣。就像是我们所处的时间,其实是有时间这个维度的,但是我们感受不到。但是这个卷积的移动,就把时间的这个维度,也映射到了另一个空间!Batch取全部时,看到的是只有一个曲面,速度快,但不是最优。所以,有小一点的batch,随机性。但是,只取一个的时候,SGD,随机性有时会很大,难以收敛CNN,多少个output ch

2016-08-07 11:36:20 631

原创 个人理解的在线推荐

个人理解的:为什么要做 因为离线的数据太大了,比如user_id * item_id 的量级太大,不可能都离线算好,等到某个 user 来的,直接查表,得到item_id的排序因为需要根据一些在线的特征来计算(当然也会有离线的特征),比如当前浏览的类目、当前时间段、等等之类的因为需要实时反映一些新的模式。以前的模型,可能是事先算好的,一周更新一次(在线用的,也是这个事先算好的模型,只是会有部

2016-07-26 11:11:02 450

转载 机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size

原文:http://blog.csdn.net/u012162613/article/details/44265967本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值。(本文会不断补充)学习速率(learning rate,η)运用梯度下降算法进行优化时,权重的

2016-07-26 10:58:09 1056

原创 Batch Normalization & Layer Normalization

Batch Normalization: 原文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 详细说明:http://blog.csdn.net/hjimce/article/details/50866313 理解:http://blog.csdn.ne

2016-07-26 10:50:26 7696 2

转载 机器学习中的范数规则化之(一)L0、L1与L2范数

原文:http://blog.csdn.net/zouxy09/article/details/24971995主要思想:1. L0,是非0的个数,但是NP,所以一般选择L12. L1,稀疏,特征选择3. L2,防止过拟合====== 原文 ===========机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09

2016-07-26 10:01:58 511

转载 batch-GD, SGD, Mini-batch-GD, Stochastic GD, Online-GD -- 大数据背景下的梯度训练算法

原文地址:http://www.cnblogs.com/richqian/p/4549590.html另外有一篇讲batch size的:https://www.zhihu.com/question/32673260主要思想:1. batch,全部样本的梯度都算了,累加一起,做变化。2. mini-batch,一部分一部分的样本,做变化。

2016-07-26 09:58:45 505

转载 bootstrap, boosting, bagging 几种方法的联系

转:http://blog.csdn.net/jlei_apple/article/details/8168856这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的

2016-07-25 14:15:52 368

原创 知识图谱

周末讲座的内容,很泛的了解。 另外,transE 优化目标,头实体+关系=尾实体,低维语义表示,这想法赞。建模!或者参考这篇:http://www.tuicool.com/articles/jEzmUv一开始的是one hot,cout base distribute representation,再到后面的同一语义空间第一方面,三元组的形式 transE 优化目标,头实体+关系=尾

2016-07-11 00:35:31 2574

原创 CNN for NLP

强烈推荐:http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp论文:《Convolutional Neural Networks for Sentence Classification》Tensorflow 实现blog:http://www.wildml.com/2015/12/imple

2016-07-04 01:04:01 919

原创 Word2Vec Sent2Vec

好好研究了下Word2Vec和Sent2Vec的代码,推导了下公式,花费了不少的时间,不过清晰了很多。源代码参考:https://github.com/klb3713/sentence2vec理论上是分两部分,首先是进行Word2Vec的,获得词向量,以及权重等。然后再进行Sent2Vec的处理,基于已有的Word Vector以及网络权重。Word2Vec预测目标总体的目标是,词向量作为输入(

2016-07-04 00:03:29 7674 1

转载 Stanford 中文分词

http://nlp.stanford.edu/software/segmenter.shtmlhttps://github.com/jiekechoo/NLPStudyhttp://blog.csdn.net/shijiebei2009/article/details/42525091貌似实际用的不是这几篇。中间2. github上那篇,是怎么在maven中使用,通过properties文件

2016-06-27 10:10:55 5826

转载 JAVA WordVec 的一个实现

https://github.com/NLPchina/Word2VEC_java这个亲测可用。 然而 Word2VEC 里的 sum 函数错了,返回的是引用,要修改。下面逻辑还是有点绕,有想法了再改得清爽点:private float[] sum(float[] center, float[] fs) { if (fs == null) { if (cen

2016-06-27 09:55:35 909

转载 python scikit learn 模板

原文: http://blog.csdn.net/zouxy09/article/details/48903179代码如下:#!usr/bin/env python # -*- coding: utf-8 -*-import sysimport osimport timefrom sklearn import metricsimport numpy as npimport cPick

2016-06-27 09:46:39 588

转载 语法分析器

这个博客,讲得很细了: http://codemany.com/blog/reading-notes-the-definitive-antlr4-reference-part1/ANTLR v4是一款强大的语法分析器生成器,可以用来读取,处理,执行和转换结构化文本或二进制文件。通过文法文件,ANTLR可以自动生成词法分析器、语法分析树和树遍历器。两种。词法和语法。词法是大写的,语法是小写的。类似正

2016-06-22 21:27:40 2021

原创 平滑

有很多种。一次的 平均 前面窗口的均值问题是: 需要记录多个数不能对近期的数进行加权指数 Ft+1 = alpha * Xt + (1 - alpha) * Ft前一项即可,前一项预测与真实的差异二次的 平均 针对上面一次的问题,进行二次再求平均,然而问题也是类似的指数 布朗: 算两次指数平滑,求得对应的at,bt,然后预测m期后结果霍尔特 前一期的参数直接修正布

2016-05-31 23:45:01 397

转载 指代消歧

综述性文章《指代消解的基本方法和实现技术》。 分为两种,回指和共指。 有很多种处理方法。 开始的是基于规则的方法,比如hobbs(类似往前找合适的NP)、中心理论(向回看中心、向前看中心),然后基于句法的方法,以及基于训练集的方法,比如SVM等等(Deep Learning等也可以用了http://tcci.ccf.org.cn/conference/2013/NLPCC2013papers/

2016-05-26 10:28:22 2930

转载 java 注解与动态代理

注解: http://josh-persistence.iteye.com/blog/2226493 http://wiki.jikexueyuan.com/project/java-reflection/java-at.html http://www.infoq.com/cn/articles/cf-java-annotation动态代理: http://www.kancloud.cn/d

2016-05-25 09:42:24 834

转载 spring boot

http://www.cnblogs.com/huang0925/p/4347690.html上面这篇文章讲得很清楚。结合我们自己做的。比如之前的HSF,一个大project,里面有很多不同的模块,但是,其实,大部分的模块我们都不需要做的。所以,一般就是copy别人的项目作为模板,在上面小修小改,但是并不明白它的机制,只是用了而已。而Spring boot,微服务,这个现在很多,清爽很多。我们不需要

2016-05-24 23:12:30 428

转载 推荐算法综述

好多好长… 不想写,粘贴链接先吧… http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part01http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part02http://www.infoq.com/cn/articles/r

2016-02-20 22:21:52 389

转载 异常检测

参考: http://blog.163.com/zhoulili1987619@126/blog/static/353082012015211114642546/统计方法假设正常点和异常点都有一个分布。开始时,所有点都服从正常点的分布。然后,假设一个点是异常点,则它服从异常点的分布。计算前后的似然差异。如果较大,那的确是异常点。继续计算下一个点。基于邻近度的离群点检测k近邻,计算距离基于密度

2016-02-20 21:14:04 712

转载 不均衡数据处理

参考文献: 1. http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ 2. http://www.36dsj.com/archives/35137跟之前遇到的问题有点类似,作弊店家的检测。可以扩大数据样本吗?试着改变你的绩效标准不需要相

2016-02-20 17:10:12 408

转载 python爬虫介绍

参考链接: 1. 授人以渔的文章,里面讲到爬虫一般怎么做,分布式的时候怎么办等:http://www.zhihu.com/question/20899988 2. scrapy的文章,介绍了怎么用 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html 3. urllib的文章,比较粗鲁的方式 http://www.

2016-02-15 16:03:01 602

转载 极大似然

这两篇文章不错: 1. http://www.zhihu.com/question/20447622 2. http://blog.csdn.net/bingduanlbd/article/details/24384771总的来说,就是已经知道了观测到样本x1,x2,x3…xn,假设参数都是已知的,然后为了使得这些样本的可能性最大,再反过来求参数取值应该满足的条件。利用已知的样本结果,反推最有

2015-12-05 16:40:33 487

转载 simrank

http://m.blog.csdn.net/blog/yangxudong/24788137就是,节点的相似性,是由他们的邻居的相似性来决定的。迭代的过程。为了处理完全二部图的计算得到结果问题,而引入了evidence。为了处理边权重的问题,又引入了另一个函数。一、算法应用背景计算广告学(Computational Advertis

2015-10-29 15:05:13 4855 3

原创 贝叶斯

这两篇文章写得超赞: 朴素贝叶斯: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 贝叶斯网络: http://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html这篇文章写得很全: http://www.k

2015-10-21 14:25:55 1185 1

原创 多数据源冲突的解决

原来是个研究点: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.8378&rep=rep1&type=pdf http://wenku.baidu.com/link?url=WpepFZM0oYBDvUvOIjMsPuj3O23_8Cm1YjqC-G5Eke8Yc_DSvsNe96nMcLTEVExKH9VS89NbHIn

2015-10-19 10:28:17 1170

转载 lucene

原链接:http://www.cnblogs.com/xing901022/p/3933675.html#_labelTop主要是两部分。一是建立索引。有Directory建立目录,有IndexWriter进行写,其中的内容,就用Document封装起来(会有field的概念)。二是进行查询。有Term进行查询项的封装,有IndexSearcher进行搜索,

2015-10-15 16:44:16 364

转载 Collaborative Filtering

Paper链接:http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf 博客链接:http://www.xysay.com/amazon-item-to-item-collaborative-filtering-207.html分布式处理重编号功能是,为了避免数据倾斜,以及本来是string类型的id就是分桶,每个桶预设了默认的起

2015-09-28 16:47:36 415

转载 simHash

好文章!simhash讲得很透彻,而且应用时候,怎么建索引的方法也有介绍。原文链接:http://grunt1223.iteye.com/blog/964564在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别

2015-09-25 10:35:21 756

转载 Canopy聚类

http://my.oschina.net/liangtee/blog/125407 http://blog.sina.com.cn/s/blog_618985870101dw5j.html一般说法是,可以作为K-means的前一步,算出有多少个聚类,以及质心的初始位置。大致伪代码如下:定义一个对象集合objlist,一个存放所有聚类中心的集合canopieswhile(objlist非空) {

2015-09-19 14:52:55 1204

原创 熵、基尼不纯度、KL、互信息

对于一个分类,判断它本身是否“纯净”,可以用熵、基尼不纯度遇到两个分布的距离,可以用KL判断两个量的相关性,比如某个特征与某个类别是否有关系,可以用互信息(其实它与条件熵,差不多) 基本内容:http://www.cnblogs.com/TtTiCk/archive/2008/06/25/1229480.html连续型的时候:http://blog.csdn.net/daringpig/

2015-09-19 14:44:25 2809

原创 《菊与刀》感触

闲杂书,好久没看过了。 日本人,挺奇怪,也挺不奇怪的个体。 + 各就其位,按照等级尊卑 + 天皇的绝对地位 + 报恩,接受了别人的恩情 + 道义,为了荣誉感

2015-09-08 21:59:04 570

转载 LSH

SimHash参考:http://blog.csdn.net/heiyeshuwu/article/details/44117473如下图,规定是多少位,对各个特征进行hash。将所有特征的进行累加。累加结果,若该位大于0则为1,小于0则为0。 可以基于海明距离还计算是否相似还有查询的问题。空间换时间,取前若干位作为indexMinHash参考:http://blog.csdn.net/s

2015-08-29 23:33:58 605

原创 从DT到Random Forest、GBDT

决策树基础的内容,参考的链接: http://leijun00.github.io/2014/09/decision-tree/ID3最基础的决策树,多叉树,仅能处理离散型值采用信息增益来处理 g(D,A)=H(D)−H(D|A)会偏向有较多属性的feature,容易过拟合C4.5对ID3的改进对于连续值,进行划分。假设是min,k1,k2,…,max的划分,依次尝试划分的方式,计算最佳

2015-08-29 23:16:35 1967

转载 [转]你应该掌握的七种回归技术

[转]你应该掌握的七种回归技术

2015-08-24 11:40:53 1859

原创 TextRank

关键字嗯,模型比较简单,限定一个窗口(比如一个词前后k个词,认为他们具有连接),然后计算PageRank 得到的就是这段话里的关键字,据说比TFIDF要靠谱点关键句主要也是句子间连接关系的限定,paper里计算句子的相似度: 然后一样计算: 看清楚累加的下标 Vj 是 In(Vi) 的集合,分母是 Out(Vj) 的集合参考信息参考1 参考2 代码 论文

2015-08-06 15:08:00 784

转载 IR的评价指标-MAP,NDCG和MRR

Map:相关性,1 or 0,计算排序后rank值NDCG: 设定相关性等级(2^5-1, 2^4-1…)计算累计增益值(嗯,就累加起来)计算折算因子log(2)/log(1+rank) (越靠前的,越容易被点击)归一化到NDCG,为了不同等级上的搜索结果的得分值容易比较 4.1. 首先计算理想list的MaxDCG 4.2 相除即可MRR:”把标准答案在被评价系统给出结果中的排

2015-07-27 06:35:11 13852

原创 item-based algorithm

6.2 章节 http://openresearch.baidu.com/u/cms/www/201210/30144944cqmu.pdf;jsessionid=27FE07729A54FE415012B97849E2D1C1其实,最主要的只是这样一张图: 101,102是每个item的id最左边的大矩阵(记为A),用户的共现矩阵(co-occurrence matrix)。以购买为例子,购买

2015-07-27 06:12:39 627

alphabeta剪枝算法的C++实现下棋程序

alphabeta剪枝算法的C++实现下棋程序。有注释,易理解。

2011-11-10

C++实现遗传算法GA(包含多种选择算子变异算子实现)

自己写的遗传算法代码,有注释,易理解。同时,强大之处,在于,里面将遗传算法一般用到的选择算子(轮盘赌、随机、锦标赛)等方式都进行了实现,以及加上多种的变异算子。是理解遗传算法,以及它的各种实现方式的好例子(自己吹嘘下,呵呵)。

2011-11-10

数据结构课程的C++行编辑器

数据结构课程的C++行编辑器,对字符串的处理,等等功能。有详细注释。

2011-11-10

huffman哈夫曼编码的C++实现

数据结构课上,自己使用C++实现的huffman哈夫曼编码。有注释,较易理解。

2011-11-10

基于JAVA、数据库架设旅游信息网站

本系统为开发数据库应用的系统,主要着重在于数据库的建立以及使用。在数据库使用方面,考虑到MySql与Java的良好兼容性等,使用了MySql来建立。在开发Web应用界面方面,使用MyEclipse软件,使用struts技术。 成功架设一个界面良好,功能强大的旅游信息网站。有较好的交互操作。 并且,具有doc文档介绍,包括设计以及使用的说明,详尽。

2011-05-24

剪枝算法的五子棋C++程序

使用C++编写的五子棋程序,算法用的是alpha-beta剪枝,用MFC的框架

2010-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除