xceman1997-CSDN博客

转载 Science杂志公布的机器学习资源

原文地址：http://m.sciencemag.org/site/feature/data/compsci/machine_learning.xhtml本来想合并到从前的一个机器学习资源汇总的帖子里面，不过这个链接的确汇总了“大量”资源，单开一个帖子，转载。General ML Information SourcesDavid Aha's list of ma

2013-08-25 23:49:13 1903

转载公开课可下载资源汇总

原文地址：http://blog.coursegraph.com/%e5%85%ac%e5%bc%80%e8%af%be%e5%8f%af%e4%b8%8b%e8%bd%bd%e8%b5%84%e6%ba%90%e6%b1%87%e6%80%bb微博上经常有同学分享一些公开课资源，包括可下载的网盘资源，课件资源等等，但是时间长了就忘了在哪里了。另外Coursera官方也推荐一些

2013-08-02 19:44:21 2163

原创【资源】机器学习资源积累（积累中...）

Andrew Moore，邓侃在CMU的老板，机器学习和数据挖掘专家，写了很多关于数据挖掘和机器学习的PPT和PDF文档，浅显易懂，推荐阅读http://www.autonlab.org/tutorials/ Good Freely Available Textbooks on Machinehttp://metaoptimize.com/qa/questions/186/go

2012-10-15 12:21:37 2706 2

转载【转载】Learning To Rank之LambdaMART的前世今生

原文地址：http://blog.csdn.net/huagong_adu/article/details/407103051. 前言我们知道排序在很多应用场景中属于一个非常核心的模块，最直接的应用就是搜索引擎。当用户提交一个query，搜索引擎会召回很多文档，然后根据文档与query以及用户的相关程度对文档进行排序，这些文档如何排序直接决

2016-03-10 19:31:27 7346

转载【转载】广告计算——平滑CTR

原文地址：http://m.blog.csdn.net/article/details?id=50492787一、广告计算的基本概念1、广告的形式在互联网发展的过程中，广告成为了互联网企业盈利的一个很重要的部分，根据不同的广告形式，互联网广告可以分为：展示广告(display ads)赞助商搜索广告(sponsored search)上下文广告(co

2016-03-05 21:45:30 8543

转载【转载】互联网广告综述之点击率特征工程

原文地址：http://blog.csdn.net/mytestmy/article/details/19088827一．互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统，可以看到，其中的logistic regression模型是比较简单而且实用的，其训练方法虽然有多种，但目标是一致的，训练结果对效果的影响是比较大，但是训练方法本身，对效果

2016-03-05 21:06:02 8421

转载【转载】深入FFM原理与实践

原文地址：http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html深入FFM原理与实践del2z, 大龙 ·2016-03-03 09:00FM和FFM模型是最近几年提出的模型，凭借其在数据量比较大并且特征稀疏的情况下，仍然能够得到优秀的性能和效果的特性，屡

2016-03-05 12:24:53 10130

转载【转载】点击率预估的几个经典模型简介

原文地址：http://mp.weixin.qq.com/s?__biz=MzAwNDU4MjIyOA==&mid=402059039&idx=1&sn=d76033b80a0b9d0975e0ba98f37f9f2c&scene=1&srcid=0222Ic808bERBd4Qp3PuMBpV&from=groupmessage&isappinstalled=0#wechat_redirect

2016-02-22 19:44:29 8451

转载【转载】论文读书笔记-personalized news recommendation based on click behavior

比较经典的论文，有时候想起来，想再看看，总是不知道放哪儿了。索性放到blog上，随时查阅。论文分享链接：http://pan.baidu.com/s/1o7eroxW还有一篇别人的阅读笔记，挺好的。出处：http://www.aiuxian.com/article/p-334703.html====================================

2016-02-13 18:05:54 7749

原创【论文阅读：LDA】The Author-Topic Model for Authors and Documents_2004(ATM经典论文)

综述：ATM（author topic mode）的经典文章。具体：在传统LDA模型的基础上，加入author的概念。传统LDA模型，是描述文档和词（文档组成元素）之前的关系，这种关系用主题（topic）来衔接和描述。这篇文章加入author的概念。即一篇文章可能有多个author，一个author可能有多个文章，词是文章的组成元素，那么，ATM模型，通过topic描述了aut

2015-12-16 23:53:03 7682

转载【转载】汇总：LDA理论、变形、优化、应用、工具库

原文地址：http://site.douban.com/204776/widget/notes/12599608/note/287085506/2013-07-08 19:22:18http://www.douban.com/note/287085419/啥了不说了，这几天简直成魔了。自己的LDA框架也整理好了，接下来重新梳理一遍这边就算任督二脉打通啦！

2015-12-14 20:16:29 7671

原创【论文阅读：文章中心词抽取】TextRank: Bringing Order into Texts - emnlp 2004

综述：textrank的经典开山文章。用处在于：1. 抽取文章关键词；2. 抽取文摘具体内容：1 抽取文章关键词的几种思路：（1）简单统计方法：tf/idf（2）有监督的学习方法：将关键词抽取问题转成分类问题，用分类模型，如：朴素贝叶斯，来解决（3）无监督的学习方法（3-1）graph-based方法，即本文方法（3-2）LDA主题模型2

2015-12-01 21:04:37 7849

转载 ROC和AUC介绍以及如何计算AUC

原文地址：http://alexkong.net/2013/06/introduction-to-auc-and-roc/ROC和AUC介绍以及如何计算AUCJune 22, 2013ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣，对两者的简单介绍见这里。这篇

2015-11-03 17:57:35 6551

原创【Deep Learning】Using Structured Events to Predict Stock Price Movement:An Empirical Investigation

时间：2014发表于：EMNLP原文件：http://pan.baidu.com/s/1i3phG49主要内容：利用新闻事件来预测：1. 美股大盘走势；2. 挑选的15个个股的走势。详细内容：主要工作步骤：1. 抽取财经新闻2. 对新闻title进行parser，并进行事件抽取。其中事件抽取是open information extraction

2015-08-07 16:04:43 8061

原创【LDA】动手实现LDA

这段时间对LDA比较感兴趣，尝试在工作中使用它。平时做想法的快速验证，都用的是“GibbsLDA++-0.2”，一个c实现版本的LDA。这两天用c++ stl自己写了一个单机版的LDA，初衷如下：1. “GibbsLDA++-0.2”虽说号称是最popular的LDA工具包，不过依然有明显的bug，参考“【LDA】修正 GibbsLDA++-0.2 中的两个内存问题”。2. “GibbsL

2015-07-14 23:01:57 7701

原创【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

作者：Mingxuan Wang，李航，刘群单位：华为、中科院时间：2015 发表于：acl 2015 文章下载：http://pan.baidu.com/s/1bnBBVuJ主要内容：用deep learning设计了一种语言模型，能够根据之前“所有”的历史来预测当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量，该模型都比baseline（5-gram、RNN、等）好具体内容

2015-06-29 20:40:42 7515

原创在win7 + vs express for desktop中安装stlport和boost库

一、安装stlport stlport是将sgi的stl库平移到各个平台上。sgi的这个库的特点就是效率非常高。boost在这个库上面运行要比vs自带的stl库效率高。所以我们首选安装stlport。下载stlport：http://sourceforge.net/projects/stlport/ 最新版本是5.2.1 放到C盘根目录下面，解压。进入”vs2012 x86 native to

2015-06-28 22:16:27 6423

原创【LDA】并行化LDA的一些开源资料

资料：http://dataunion.org/10760.htmlgoogle pLDA：https://code.google.com/p/plda/yahoo Y!LDA：https://github.com/sudar/Yahoo_LDA

2015-06-21 18:27:11 8073

原创【LDA】用MPI优化GibbsLDA++-0.2

MPI 是“Message Passing Interface”的缩写，通常用来做单机多线程的并发编程。1. GibbsLDA++中训练框架大致如下：循环：训练过程迭代N次{ 循环：遍历每一个训练样本（指doc） { 循环：遍历训练样本中的每一个word { 循环：gibbs采样过

2015-06-21 17:21:20 8211

原创通俗理解LDA主题模型 zz

原文地址：http://www.note4j.com/?p=1130 前言印象中，最开始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打印过一次，但不知是因为这篇文档的前序铺垫太长（现在才意识到这些“铺垫”都是深刻理解LDA 的基础，但如果没有人帮助初学者提纲挈领、把握主次、理清思路，

2015-06-18 00:10:28 7233

原创【LDA】修正 GibbsLDA++-0.2 中的两个内存问题

周末这两天在家用LDA做个小实验。在LDA的众多实现的工具包中，GibbsLDA 是应用最广泛的，包括c++版本、java版本等。GibbsLDA++ 是它的C++版本的实现，目前最新版本是0.2版。在实际使用过程中，发现这个实现版本有内存使用问题。我花了一些时间定位到了问题，贴出来供大家参考。问题1：数组内存访问越界在model.cpp中，用到了两个矩阵nw和nd，分别存储wor

2015-06-07 23:24:23 7653 1

转载【转载】语义分析的一些方法

貌似是腾讯广点通部门的人写的，挺不错的。原文地址：http://dataunion.org/10748.htmlhttp://dataunion.org/10760.htmlhttp://dataunion.org/10781.html语义分析，本文指运用各种机器学习方法，挖掘与学习文本、图片等的深层次概念。wikipedia上的解释：In machine

2015-06-01 00:17:17 8673

转载【转载】Softmax Regression

原文地址：http://www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.html在前面的logistic regression博文Deep learning：四(logistic regression练习) 中，我们知道logistic regression很适合做一些非线性方面的分类问题，不过它只适合处理二分类

2015-05-31 18:46:28 798

原创【deep learning学习笔记】Distributed Representations of Sentences and Documents

很久以前关注过一段时间word2vec，最近比较好奇doc2vec，找来资料看看。时间：2014作者：Mikolov （word2vec的作者）发表于：icml原文件：http://pan.baidu.com/s/1bnm7COB主要内容：继写出word2vec之后，接下来的问题是：能否在更大的语言单位上，如：短语、句子、段落、篇章，上面继续word2v

2015-05-31 18:01:42 2032

原创【doc2vec】学习笔记：From word2vec to doc2vec: an approach driven by Chinese restaurant process

主要内容：在google word2vec的基础上，考虑文章（document）的向量化方法，借鉴了随机过程中的Chinese restaurant process过程。Chinese restaurant process过程：基本上的过程就是，餐馆中有无限多个桌子，每个桌子可以坐无限多个人。当第一位顾客过来的时候，直接开辟一张桌子坐下；当第n+1位顾客过来的时候，他有

2015-05-30 18:53:03 5541 2

转载【转载】技术向：一文读懂卷积神经网络

原文地址：http://toutiao.com/a4033463198/?tt_from=sina&app=news_article&iid=2585754491&utm_medium=toutiao_android&utm_campain=client_share&utm_source=sinaweibo自今年七月份以来，一直在实验室负责卷积神经网络（Convolutiona

2015-05-10 16:42:10 3490

转载【转载】Linux下程序的Profile工具

原文地址：http://blog.chinaunix.net/uid-9162199-id-108541.html我们在写程序，特别是嵌入式程序的时候，通常需要对程序的性能进行分析，以便程序能够更快更好地运行，达到实时（real-time）的目的。如果程序很大，分析起来就很困难。如果有个工具能够自动进行程序的性能分析，那就最好了。这里介绍一种Linux下程序的Profiling工具--

2015-04-30 15:36:04 1198

原创 vistual studio 2012 在本地安装 msdn2013

现在msdn默认都不是安装在本地磁盘上了，要上msdn社区上面去查，当网速比较慢的时候、或者浏览器比较慢的时候，比较费事。作为“老年”码农，还是希望恢复老的方式，就像经典的vistual studio 6.0及以后几个版本那样，将msdn及其索引存到本地，随时查询。现在在本机安装的是vs express for desktop（也就是vistual studio 2012）。至于最新的vs论坛

2015-04-26 23:07:44 1814

原创【使用笔记】git在macos上的使用初步

我的基本需求：在macos上本地写的代码，期望备份到云端服务器上。本地代码有一定的目录结构1. 注册github账号到www.github.com上注册账号（用户名+email地址），并创建目录2. 将本地机器与github账相关联将本地机器与github账号关联之后，本地机器就可以同服务器同步代码了。github使用ssh协议。具体来说：到 https:/

2015-04-12 11:16:39 952

原创【用Python玩Machine Learning】KNN * 测试

样本我就用的《machine learning in action》中提供的数据样例，据说是婚恋网站上各个候选人的特征，以及当前人对这些人的喜欢程度。一共1k条数据，前900条作为训练样本，后100条作为测试样本。数据格式如下：46893 3.562976 0.445386 didntLike8178 3.230482 1.331698 smallDoses55783 3.612548

2015-04-11 12:44:14 1022

原创【用Python玩Machine Learning】KNN * 代码 * 二

继续之前的写。三、对单个样本进行分类。'''function: classify the input sample by voting from its K nearest neighborinput:1. the input feature vector2. the feature matrix3. the label list4. the value of kre

2015-04-11 12:36:59 912

原创【用Python玩Machine Learning】KNN * 代码 * 一

KNN的是“k Nearest Neighbors”的简称，中文就是“最近邻分类器”。基本思路就是，对于未知样本，计算该样本和训练集合中每一个样本之间的距离，选择距离最近的k个样本，用这k个样本所对应的类别结果进行投票，最终多数票的类别就是该未知样本的分类结果。选择什么样的度量来衡量样本之间的距离是关键。一、从文本中读取样本的特征和分类结果。'''kNN: k Nearest N

2015-04-11 12:17:30 1284

原创【用Python玩Machine Learning】KNN * 序

这段时间工作太忙，很久没学习了。这两天，工作之余，偶尔在家翻翻书，权且当做休息了。我一直是c/c++的忠实用户，尤其是c的粉丝——概念简洁、运行高效——计算机专业的人，不用c语言，不了解程序底层的运行机制和过程，那和那些外专业的只会调用接口、函数的同学有什么区别呢？不过，最近一年还是慢慢去了解、尝试python了。原因很简单，开发成本太低了。c/c++就像复杂的吸尘器、洗碗机，优点是高效，缺点

2015-04-11 11:49:01 1105

原创【读书笔记】《推荐系统(recommender systems An introduction)》第十章至第十三章

第十章在线消费决策这一张主要写消费者的心理，更贴近于心理学，而不是技术方面。1. 传统的决策模型是认为人们的兴趣始终如一，不会发生变化；不过现代研究表明，用户在决策过程中偏好并不稳定2. 人们会根据物品的展示环境做决策：同样的商品，放到不同环境下面展示，身价就不同3. 首位/新近效应：位于列表首位和末尾的物品，更容易被记住4. 框架效应：展现框架决定用户决策

2015-01-18 12:32:25 1115

原创【读书笔记】《推荐系统(recommender systems An introduction)》第九章针对协同过滤推荐系统的攻击

个人评价：很有意思的一个话题，我在实际工作中也遇到过，不过这本书写的一般，有点儿“掉书袋”，太学术化、太YY、前提假设条件太强。姑且看看做借鉴吧。通常推荐系统利用用户数据的时候，是假定用户是善良的、诚实的。而攻击，就只值认为设法影响系统的结果、性能。攻击的维度：1. 针对某个物品，抬高或者降低其评分；2. 针对特定的用户群；3. 针对某个系统，然系统推荐不准确，甚至系统崩溃

2015-01-17 17:49:53 1903

原创【读书笔记】《推荐系统(recommender systems An introduction)》第八章案例分析：移动互联网个性化游戏推荐

对于在线商店，主要关心两方面：1. 提升转化率（将不消费的用户转变为消费用户）；2. 提升消费额（已经花钱的人，花更多的强）实验场所是移动互联网的一个网站，用户可以用移动设备来访问，并下载app（游戏和应用）。有些app免费，有些收费。作者利用这个实验环境对比了集中推荐算法的效果。对比了6种方法：1. 协同过滤；2. slope one；3. 基于内容的推荐；4. 混合推荐；5

2015-01-17 17:48:15 1370 2

原创【读书笔记】《推荐系统(recommender systems An introduction)》第七章评估推荐系统

基本思想：将数据分为训练集合和测试集合，用训练集合的数据训练模型，用测试集合的数据测试模型。训练集和测试集的划分，可以是按照时间的维度，也可以按照人群的维度。存在风险：对于某些方法可能有偏向性。用历史数据进行评价按照时间维度将数据分为训练集合测试集，N折交叉验证。还有直接用人工进行评价的。不过代价较大，不能上规模，在实际中用处不大。完。

2015-01-17 17:45:28 1058

原创【读书笔记】《推荐系统(recommender systems An introduction)》第六章推荐系统的解释

如何给推荐系统的结果给予解释？1. 基于约束的推荐系统：这种系统的商品都有各种属性，用户只知道个大概，但是不完全清楚各种属性，推荐系统在帮助用户一步步接近用户最终的期望。属性就是产生推荐理由的关键。本书中采用了一些推理方法来生成理由，挺玄乎的。我理解，直接告诉用户，我猜你最关心的是xx属性，根据这个属性，我来给你推荐xxx，这样就应该行了。2. 基于实例的推荐系统：产生的理

2015-01-17 17:44:24 1128

转载【转载】年终总结 & 算法数据的思考 & 结尾彩蛋

原文地址：http://www.douban.com/note/472267231/?qq-pf-to=pcqq.group据说作者是88年出生的，却写得很老到——自古英雄出少年！============================= 正文 =================================从前东家离职已经一个多月的时间了，在这一个月，前前后后也和几

2014-12-30 23:28:17 1084

原创【读书笔记】《推荐系统(recommender systems An introduction)》第五章混合推荐方法

第五章混合推荐方法推荐问题可以转换成效用函数，函数的输入为用户和物品，输出为用户和物品的效用——效用是指物品满足某种抽象目标的能力，如：满足用户某方面的需求、或者是满足零售转化率、等等任何一个推荐系统都是从众多物品中选取N个物品，使得这N个物品的效用总和最大1. 整体式混合设计从最底层的特征开始考虑整合1.1 特征混合方案如果有多种特征可以用，例如：用户浏

2014-12-14 00:44:33 1803

Learning Deep Architectures(slides) Bengio 2009

Addison Wesley - Applied C++

空空如也