自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xceman1997的专栏

基础知识、c/c++语言、自然语言处理技术

  • 博客(325)
  • 资源 (2)
  • 收藏
  • 关注

转载 Science杂志公布的机器学习资源

原文地址:http://m.sciencemag.org/site/feature/data/compsci/machine_learning.xhtml本来想合并到从前的一个机器学习资源汇总的帖子里面,不过这个链接的确汇总了“大量”资源,单开一个帖子,转载。General ML Information SourcesDavid Aha's list of ma

2013-08-25 23:49:13 1903

转载 公开课可下载资源汇总

原文地址:http://blog.coursegraph.com/%e5%85%ac%e5%bc%80%e8%af%be%e5%8f%af%e4%b8%8b%e8%bd%bd%e8%b5%84%e6%ba%90%e6%b1%87%e6%80%bb微博上经常有同学分享一些公开课资源,包括可下载的网盘资源,课件资源等等,但是时间长了就忘了在哪里了。另外Coursera官方也推荐一些

2013-08-02 19:44:21 2163

原创 【资源】机器学习资源积累(积累中...)

Andrew Moore,邓侃在CMU的老板,机器学习和数据挖掘专家,写了很多关于数据挖掘和机器学习的PPT和PDF文档,浅显易懂,推荐阅读http://www.autonlab.org/tutorials/ Good Freely Available Textbooks on Machinehttp://metaoptimize.com/qa/questions/186/go

2012-10-15 12:21:37 2706 2

转载 【转载】Learning To Rank之LambdaMART的前世今生

原文地址:http://blog.csdn.net/huagong_adu/article/details/407103051.       前言         我们知道排序在很多应用场景中属于一个非常核心的模块,最直接的应用就是搜索引擎。当用户提交一个query,搜索引擎会召回很多文档,然后根据文档与query以及用户的相关程度对文档进行排序,这些文档如何排序直接决

2016-03-10 19:31:27 7346

转载 【转载】广告计算——平滑CTR

原文地址:http://m.blog.csdn.net/article/details?id=50492787一、广告计算的基本概念1、广告的形式在互联网发展的过程中,广告成为了互联网企业盈利的一个很重要的部分,根据不同的广告形式,互联网广告可以分为:展示广告(display ads)赞助商搜索广告(sponsored search)上下文广告(co

2016-03-05 21:45:30 8543

转载 【转载】互联网广告综述之点击率特征工程

原文地址:http://blog.csdn.net/mytestmy/article/details/19088827一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果

2016-03-05 21:06:02 8421

转载 【转载】深入FFM原理与实践

原文地址:http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html深入FFM原理与实践del2z, 大龙 ·2016-03-03 09:00FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡

2016-03-05 12:24:53 10130

转载 【转载】点击率预估的几个经典模型简介

原文地址:http://mp.weixin.qq.com/s?__biz=MzAwNDU4MjIyOA==&mid=402059039&idx=1&sn=d76033b80a0b9d0975e0ba98f37f9f2c&scene=1&srcid=0222Ic808bERBd4Qp3PuMBpV&from=groupmessage&isappinstalled=0#wechat_redirect

2016-02-22 19:44:29 8451

转载 【转载】论文读书笔记-personalized news recommendation based on click behavior

比较经典的论文,有时候想起来,想再看看,总是不知道放哪儿了。索性放到blog上,随时查阅。论文分享链接:http://pan.baidu.com/s/1o7eroxW还有一篇别人的阅读笔记,挺好的。出处:http://www.aiuxian.com/article/p-334703.html====================================

2016-02-13 18:05:54 7749

原创 【论文阅读:LDA】The Author-Topic Model for Authors and Documents_2004(ATM经典论文)

综述:ATM(author topic mode)的经典文章。具体:在传统LDA模型的基础上,加入author的概念。传统LDA模型,是描述文档和词(文档组成元素)之前的关系,这种关系用主题(topic)来衔接和描述。这篇文章加入author的概念。即一篇文章可能有多个author,一个author可能有多个文章,词是文章的组成元素,那么,ATM模型,通过topic描述了aut

2015-12-16 23:53:03 7682

转载 【转载】汇总:LDA理论、变形、优化、应用、工具库

原文地址:http://site.douban.com/204776/widget/notes/12599608/note/287085506/2013-07-08 19:22:18http://www.douban.com/note/287085419/啥了不说了,这几天简直成魔了。自己的LDA框架也整理好了,接下来重新梳理一遍这边就算任督二脉打通啦!

2015-12-14 20:16:29 7671

原创 【论文阅读:文章中心词抽取】TextRank: Bringing Order into Texts - emnlp 2004

综述:textrank的经典开山文章。用处在于:1. 抽取文章关键词;2. 抽取文摘具体内容:1 抽取文章关键词的几种思路:(1)简单统计方法:tf/idf(2)有监督的学习方法:将关键词抽取问题转成分类问题,用分类模型,如:朴素贝叶斯,来解决(3)无监督的学习方法(3-1)graph-based方法,即本文方法(3-2)LDA主题模型2

2015-12-01 21:04:37 7849

转载 ROC和AUC介绍以及如何计算AUC

原文地址:http://alexkong.net/2013/06/introduction-to-auc-and-roc/ROC和AUC介绍以及如何计算AUCJune 22, 2013ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇

2015-11-03 17:57:35 6551

原创 【Deep Learning】Using Structured Events to Predict Stock Price Movement:An Empirical Investigation

时间:2014发表于:EMNLP原文件:http://pan.baidu.com/s/1i3phG49主要内容:利用新闻事件来预测:1. 美股大盘走势;2. 挑选的15个个股的走势。详细内容:主要工作步骤:1. 抽取财经新闻2. 对新闻title进行parser,并进行事件抽取。其中事件抽取是open information extraction

2015-08-07 16:04:43 8061

原创 【LDA】动手实现LDA

这段时间对LDA比较感兴趣,尝试在工作中使用它。平时做想法的快速验证,都用的是“GibbsLDA++-0.2”,一个c实现版本的LDA。这两天用c++ stl自己写了一个单机版的LDA,初衷如下:1. “GibbsLDA++-0.2”虽说号称是最popular的LDA工具包,不过依然有明显的bug,参考“【LDA】修正 GibbsLDA++-0.2 中的两个内存问题”。2. “GibbsL

2015-07-14 23:01:57 7701

原创 【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

作者:Mingxuan Wang,李航,刘群 单位:华为、中科院 时间:2015 发表于:acl 2015 文章下载:http://pan.baidu.com/s/1bnBBVuJ主要内容: 用deep learning设计了一种语言模型,能够根据之前“所有”的历史来预测当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量,该模型都比baseline(5-gram、RNN、等)好具体内容

2015-06-29 20:40:42 7515

原创 在win7 + vs express for desktop中安装stlport和boost库

一、安装stlport stlport是将sgi的stl库平移到各个平台上。sgi的这个库的特点就是效率非常高。boost在这个库上面运行要比vs自带的stl库效率高。所以我们首选安装stlport。下载stlport:http://sourceforge.net/projects/stlport/ 最新版本是5.2.1 放到C盘根目录下面,解压。进入”vs2012 x86 native to

2015-06-28 22:16:27 6423

原创 【LDA】并行化LDA的一些开源资料

资料:http://dataunion.org/10760.htmlgoogle pLDA:https://code.google.com/p/plda/yahoo Y!LDA:https://github.com/sudar/Yahoo_LDA

2015-06-21 18:27:11 8073

原创 【LDA】用MPI优化GibbsLDA++-0.2

MPI 是“Message Passing Interface”的缩写,通常用来做单机多线程的并发编程。1. GibbsLDA++中训练框架大致如下:循环:训练过程迭代N次{ 循环:遍历每一个训练样本(指doc) { 循环:遍历训练样本中的每一个word { 循环:gibbs采样过

2015-06-21 17:21:20 8211

原创 通俗理解LDA主题模型 zz

原文地址:http://www.note4j.com/?p=1130 前言印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,

2015-06-18 00:10:28 7233

原创 【LDA】修正 GibbsLDA++-0.2 中的两个内存问题

周末这两天在家用LDA做个小实验。在LDA的众多实现的工具包中,GibbsLDA 是应用最广泛的,包括c++版本、java版本等。GibbsLDA++ 是它的C++版本的实现,目前最新版本是0.2版。在实际使用过程中,发现这个实现版本有内存使用问题。我花了一些时间定位到了问题,贴出来供大家参考。问题1:数组内存访问越界在model.cpp中,用到了两个矩阵nw和nd,分别存储wor

2015-06-07 23:24:23 7653 1

转载 【转载】语义分析的一些方法

貌似是腾讯广点通部门的人写的,挺不错的。原文地址:http://dataunion.org/10748.htmlhttp://dataunion.org/10760.htmlhttp://dataunion.org/10781.html语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine

2015-06-01 00:17:17 8673

转载 【转载】Softmax Regression

原文地址:http://www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.html在前面的logistic regression博文Deep learning:四(logistic regression练习) 中,我们知道logistic regression很适合做一些非线性方面的分类问题,不过它只适合处理二分类

2015-05-31 18:46:28 798

原创 【deep learning学习笔记】Distributed Representations of Sentences and Documents

很久以前关注过一段时间word2vec,最近比较好奇doc2vec,找来资料看看。时间:2014作者:Mikolov (word2vec的作者)发表于:icml原文件:http://pan.baidu.com/s/1bnm7COB主要内容:继写出word2vec之后,接下来的问题是:能否在更大的语言单位上,如:短语、句子、段落、篇章,上面继续word2v

2015-05-31 18:01:42 2032

原创 【doc2vec】学习笔记:From word2vec to doc2vec: an approach driven by Chinese restaurant process

主要内容:在google word2vec的基础上,考虑文章(document)的向量化方法,借鉴了随机过程中的Chinese restaurant process过程。Chinese restaurant process过程:基本上的过程就是,餐馆中有无限多个桌子,每个桌子可以坐无限多个人。当第一位顾客过来的时候,直接开辟一张桌子坐下;当第n+1位顾客过来的时候,他有

2015-05-30 18:53:03 5541 2

转载 【转载】技术向:一文读懂卷积神经网络

原文地址:http://toutiao.com/a4033463198/?tt_from=sina&app=news_article&iid=2585754491&utm_medium=toutiao_android&utm_campain=client_share&utm_source=sinaweibo自今年七月份以来,一直在实验室负责卷积神经网络(Convolutiona

2015-05-10 16:42:10 3490

转载 【转载】Linux下程序的Profile工具

原文地址:http://blog.chinaunix.net/uid-9162199-id-108541.html我们在写程序,特别是嵌入式程序的时候,通常需要对程序的性能进行分析,以便程序能够更快更好地运行,达到实时(real-time)的目的。如果程序很大,分析起来就很困难。如果有个工具能够自动进行程序的性能分析,那就最好了。这里介绍一种Linux下程序的Profiling工具--

2015-04-30 15:36:04 1198

原创 vistual studio 2012 在本地安装 msdn2013

现在msdn默认都不是安装在本地磁盘上了,要上msdn社区上面去查,当网速比较慢的时候、或者浏览器比较慢的时候,比较费事。作为“老年”码农,还是希望恢复老的方式,就像经典的vistual studio 6.0及以后几个版本那样,将msdn及其索引存到本地,随时查询。现在在本机安装的是vs express for desktop(也就是vistual studio 2012)。至于最新的vs论坛

2015-04-26 23:07:44 1814

原创 【使用笔记】git在macos上的使用初步

我的基本需求:在macos上本地写的代码,期望备份到云端服务器上。本地代码有一定的目录结构1. 注册github账号到www.github.com上注册账号(用户名+email地址),并创建目录2. 将本地机器与github账相关联将本地机器与github账号关联之后,本地机器就可以同服务器同步代码了。github使用ssh协议。具体来说:到 https:/

2015-04-12 11:16:39 952

原创 【用Python玩Machine Learning】KNN * 测试

样本我就用的《machine learning in action》中提供的数据样例,据说是婚恋网站上各个候选人的特征,以及当前人对这些人的喜欢程度。一共1k条数据,前900条作为训练样本,后100条作为测试样本。数据格式如下:46893 3.562976 0.445386 didntLike8178 3.230482 1.331698 smallDoses55783 3.612548

2015-04-11 12:44:14 1022

原创 【用Python玩Machine Learning】KNN * 代码 * 二

继续之前的写。三、对单个样本进行分类。'''function: classify the input sample by voting from its K nearest neighborinput:1. the input feature vector2. the feature matrix3. the label list4. the value of kre

2015-04-11 12:36:59 912

原创 【用Python玩Machine Learning】KNN * 代码 * 一

KNN的是“k Nearest Neighbors”的简称,中文就是“最近邻分类器”。基本思路就是,对于未知样本,计算该样本和训练集合中每一个样本之间的距离,选择距离最近的k个样本,用这k个样本所对应的类别结果进行投票,最终多数票的类别就是该未知样本的分类结果。选择什么样的度量来衡量样本之间的距离是关键。一、从文本中读取样本的特征和分类结果。'''kNN: k Nearest N

2015-04-11 12:17:30 1284

原创 【用Python玩Machine Learning】KNN * 序

这段时间工作太忙,很久没学习了。这两天,工作之余,偶尔在家翻翻书,权且当做休息了。我一直是c/c++的忠实用户,尤其是c的粉丝——概念简洁、运行高效——计算机专业的人,不用c语言,不了解程序底层的运行机制和过程,那和那些外专业的只会调用接口、函数的同学有什么区别呢?不过,最近一年还是慢慢去了解、尝试python了。原因很简单,开发成本太低了。c/c++就像复杂的吸尘器、洗碗机,优点是高效,缺点

2015-04-11 11:49:01 1105

原创 【读书笔记】《推荐系统(recommender systems An introduction)》第十章至第十三章

第十章 在线消费决策这一张主要写消费者的心理,更贴近于心理学,而不是技术方面。1. 传统的决策模型是认为人们的兴趣始终如一,不会发生变化;不过现代研究表明,用户在决策过程中偏好并不稳定2. 人们会根据物品的展示环境做决策:同样的商品,放到不同环境下面展示,身价就不同3. 首位/新近效应:位于列表首位和末尾的物品,更容易被记住4. 框架效应:展现框架决定用户决策

2015-01-18 12:32:25 1115

原创 【读书笔记】《推荐系统(recommender systems An introduction)》第九章 针对协同过滤推荐系统的攻击

个人评价:很有意思的一个话题,我在实际工作中也遇到过,不过这本书写的一般,有点儿“掉书袋”,太学术化、太YY、前提假设条件太强。姑且看看做借鉴吧。通常推荐系统利用用户数据的时候,是假定用户是善良的、诚实的。而攻击,就只值认为设法影响系统的结果、性能。攻击的维度:1. 针对某个物品,抬高或者降低其评分;2. 针对特定的用户群;3. 针对某个系统,然系统推荐不准确,甚至系统崩溃

2015-01-17 17:49:53 1903

原创 【读书笔记】《推荐系统(recommender systems An introduction)》第八章 案例分析:移动互联网个性化游戏推荐

对于在线商店,主要关心两方面:1. 提升转化率(将不消费的用户转变为消费用户);2. 提升消费额(已经花钱的人,花更多的强)实验场所是移动互联网的一个网站,用户可以用移动设备来访问,并下载app(游戏和应用)。有些app免费,有些收费。作者利用这个实验环境对比了集中推荐算法的效果。对比了6种方法:1. 协同过滤;2. slope one;3. 基于内容的推荐;4. 混合推荐;5

2015-01-17 17:48:15 1370 2

原创 【读书笔记】《推荐系统(recommender systems An introduction)》第七章 评估推荐系统

基本思想:将数据分为训练集合和测试集合,用训练集合的数据训练模型,用测试集合的数据测试模型。训练集和测试集的划分,可以是按照时间的维度,也可以按照人群的维度。存在风险:对于某些方法可能有偏向性。用历史数据进行评价按照时间维度将数据分为训练集合测试集,N折交叉验证。还有直接用人工进行评价的。不过代价较大,不能上规模,在实际中用处不大。完。

2015-01-17 17:45:28 1058

原创 【读书笔记】《推荐系统(recommender systems An introduction)》第六章 推荐系统的解释

如何给推荐系统的结果给予解释?1. 基于约束的推荐系统:这种系统的商品都有各种属性,用户只知道个大概,但是不完全清楚各种属性,推荐系统在帮助用户一步步接近用户最终的期望。属性就是产生推荐理由的关键。本书中采用了一些推理方法来生成理由,挺玄乎的。我理解,直接告诉用户,我猜你最关心的是xx属性,根据这个属性,我来给你推荐xxx,这样就应该行了。2. 基于实例的推荐系统:产生的理

2015-01-17 17:44:24 1128

转载 【转载】年终总结 & 算法数据的思考 & 结尾彩蛋

原文地址:http://www.douban.com/note/472267231/?qq-pf-to=pcqq.group据说作者是88年出生的,却写得很老到——自古英雄出少年!============================= 正文 =================================从前东家离职已经一个多月的时间了,在这一个月,前前后后也和几

2014-12-30 23:28:17 1084

原创 【读书笔记】《推荐系统(recommender systems An introduction)》第五章 混合推荐方法

第五章 混合推荐方法推荐问题可以转换成效用函数,函数的输入为用户和物品,输出为用户和物品的效用——效用是指物品满足某种抽象目标的能力,如:满足用户某方面的需求、或者是满足零售转化率、等等任何一个推荐系统都是从众多物品中选取N个物品,使得这N个物品的效用总和最大1. 整体式混合设计从最底层的特征开始考虑整合1.1 特征混合方案如果有多种特征可以用,例如:用户浏

2014-12-14 00:44:33 1803

Learning Deep Architectures(slides) Bengio 2009

Learning Deep Architectures(slides) Bengio 2009

2013-06-16

Addison Wesley - Applied C++

Addison Wesley - Applied C++

2011-02-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除