自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

guohecang的博客

数据为王时代,让大数据释放大价值

  • 博客(113)
  • 资源 (1)
  • 收藏
  • 关注

转载 CTR预估中GBDT与LR融合方案

1、 背景      CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化

2017-03-14 10:49:39 1259

转载 GBDT(MART) 迭代决策树入门教程 | 简介

在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:              GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g

2017-03-13 21:36:34 991

转载 机器学习路线图(附资料)

也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯逛淘宝点了找相似之后货比三家;亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩,这些功能的核心算法就是机器学习领域的内容。

2017-03-13 14:20:22 6062

原创 机器学习规则:ML工程的最佳实践[译]

Martin Zinkevich本文档旨在帮助具有机器学习基础知识的人员从Google的机器学习中获得最佳实践的好处。 它提供了机器学习的风格,类似于Google C ++ Style Guide和其他实用程序设计的热门指南。 如果你在机器学习中学过一门课,或者在一个机器学习的模型上构建或工作,那么你有阅读本文档的必要背景。

2017-03-13 13:51:21 2856 1

转载 [Java]读写文件方法大全

读取文件1、按字节读取文件内容2、按字符读取文件内容3、按行读取文件内容4、随机读取文件内容public class ReadFromFile { /** * 以字节为单位读取文件,常用于读二进制文件,如图片、声音、影像等文件。 */ public static void readFileByBytes(String fileName)

2016-11-02 17:01:12 3308

转载 深入浅出 Map 的实现(HashMap、HashTable、LinkedHashMap、TreeMap)

1、基本介绍HashMap、TreeMap、HashTable、LinkedHashMap 共同实现了接口java.util.Map, 都是键值对形式,且map的key不允许重复2、详细介绍a、HashMap是一个最常用的Map实现方式,它根据键的HashCode 值存储数据,根据键可以直接获取它的值,具有很快的访问速度,但是HashMap是无序、线程不安全的,

2016-11-02 17:00:14 725

转载 LDA入门级学习笔记

LDA入门级学习笔记声明:1)该博文是多位博主以及科学家所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理

2016-10-31 16:29:31 1355

转载 EM算法学习笔记

EM算法学习笔记声明:1)该博文是多位博主以及书籍作者所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总

2016-10-31 16:28:41 1077

转载 OWL-QN算法

OWL-QN算法转自:http://www.cnblogs.com/vivounicorn/archive/2012/06/25/2561071.html一、BFGS算法      算法思想如下:           Step1   取初始点,初始正定矩阵,允许误差,令;           Step2   计算;           Step3   计算,

2016-10-31 16:27:32 875

转载 从最大似然到EM算法浅解

从最大似然到EM算法浅解转自:http://blog.csdn.net/zouxy09/article/details/8537620        机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?

2016-10-31 16:27:04 430

转载 无约束优化方法读书笔记—入门篇

优化方法读书笔记声明:1)该博文的绝大部分内容抄自课本《最优化理论与方法》,作者袁亚湘,孙文瑜2)该博文只是列出优化算法大体框架,没有深入去推导各种公式。2)本文仅供学术交流,非商用,有些部分本来就是直接从课本复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢。

2016-10-31 16:26:40 848

转载 生成模型与判别模型

生成模型与判别模型转自链接:@zouxy09链接:http://blog.csdn.NET/zouxy09       一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再错。在此谢过。 一、决策函数Y=f(X)或者条件概率分布P(Y|X)       监督学习的任务就是从数据中学习一个模型

2016-10-31 16:14:48 449

转载 深度学习读书笔记之RBM(限制波尔兹曼机)

深度学习读书笔记之RBM声明:1)看到其他博客如@zouxy09都有个声明,老衲也抄袭一下这个东西2)该博文是整理自网上很大牛和机器学习专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献。3)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联

2016-10-27 16:18:24 964

转载 深度学习读书笔记之AE(自动编码)

深度学习读书笔记之AE声明:1)该博文是整理自网上很大牛和机器学习专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献。2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,而且大部分内容都是直接抄NG的源博客的,如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结的时候难免出

2016-10-27 16:17:55 2194

转载 互联网广告系统综述八机器学习与数据

互联网广告系统综述八机器学习与数据声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整

2016-10-19 15:02:53 824

转载 互联网广告系统综述七特征

互联网广告系统综述七特征声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结的时

2016-10-19 15:02:21 1094

转载 互联网广告系统综述六模型

互联网广告系统综述六模型声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结的时

2016-10-19 15:01:40 1747

转载 互联网广告系统综述五系统架构

互联网广告系统综述五系统架构 声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整

2016-10-19 15:01:05 4242

转载 互联网广告系统综述四定向

互联网广告系统综述四定向声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结

2016-10-19 15:00:33 1285

转载 互联网广告系统综述三业务描述

互联网广告系统综述三业务描述声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结

2016-10-19 14:59:56 1123

转载 互联网广告系统综述二业务背景

互联网广告系统综述二业务背景声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结

2016-10-19 14:55:36 1190

转载 深度学习word2vec笔记之应用篇

深度学习word2vec笔记之应用篇声明:1)该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)

2016-10-19 14:54:53 868

转载 深度学习word2vec笔记之算法篇

深度学习word2vec笔记之算法篇声明:1)该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)

2016-10-19 14:54:05 870

转载 深度学习word2vec笔记之基础篇

深度学习word2vec笔记之基础篇声明:1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。

2016-10-19 14:52:34 1582

转载 ROC曲线与AUC计算

ROC曲线绘制与AUC计算声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总

2016-10-19 14:51:49 4319

转载 互联网广告综述之点击率特征工程

互联网广告综述之点击率特征工程声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅

2016-10-19 14:49:47 446

转载 广告点击率的贝叶斯平滑

广告点击率的贝叶斯平滑声明:1)该博文是Yahoo专家所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结的时候

2016-10-19 14:48:22 649 1

转载 互联网广告综述之点击率系统

互联网广告综述之点击率系统声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总结的

2016-10-19 14:47:08 790

转载 互联网广告系统综述一生态圈

互联网广告系统综述一生态圈声明:1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总

2016-10-19 14:45:59 1912

转载 在线学习算法FTRL

在线学习算法FTRL声明:1)该博文是Google专家所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。3)本人才疏学浅,整理总

2016-10-19 14:45:14 2607

转载 新的可视化帮助更好地了解Spark Streaming应用程序

日前,在Spark1.4.0中新推出了可视化功能,用以更好的了解Spark应用程序的行为。Spark贡献者Tathagata Das、Shixiong Zhu和Andrew Or又撰文重点介绍为理解Spark Streaming应用程序而引入的新可视化功能。

2016-10-09 17:17:34 1041

转载 通过可视化来了解你的Spark应用程序

在过去,Spark UI一直是用户应用程序调试的帮手。而在最新的Spark 1.4版本中,一个新的因素被注入到Spark UI——数据可视化。

2016-10-09 17:16:15 1634

转载 spark 应用程序性能优化|12 个优化方法

本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。

2016-10-09 17:06:16 6886

转载 Spark on Yarn遇到的几个问题及解决思路

Spark on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。

2016-10-09 17:05:15 10745

转载 美团推荐算法实践

解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语的组合(即query),然后将这些词或短语组合提交到相应的搜索引擎,再由搜索引擎在海量的信息库中检索出与query相关的信息返回给用户;另外一种是推荐,很多时候用户的意图并不是很明确,或者很难用清晰的语义表达,有时甚至连用户自己都不清楚自己的需求,这种情况下搜索就显得捉襟见肘了。尤其是近些年来,随着电子商务的兴起,用户并非一定是带着明确的购买意图去浏览,很多时候是去“逛”的,这种情景下解决信息过载,理解用户意

2016-09-22 12:33:15 942

转载 基于机器学习方法的POI品类推荐算法

在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。

2016-09-22 12:31:15 4679

转载 美团O2O排序解决方案——线下篇

针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征矩阵、监控系统、模型训练和效果评估等模块。

2016-09-17 22:58:21 407

转载 美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家,而搜索在其中起着非常重要的作用。随着业务的发展,美团的商家和团购数正在飞速增长。这一背景下,搜索排序的重要性显得更加突出:排序的优化能帮助用户更便捷地找到满足其需求的商家和团购,改进用户体验,提升转化效果。

2016-09-17 21:17:54 1457

转载 深入FFM原理与实践

FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。

2016-09-17 20:24:21 736

转载 Online Learning算法理论与实践

Online Learning是工业界比较常用的机器学习算法,在很多场景下都能有很好的效果。本文主要介绍Online Learning的基本原理和两种常用的Online Learning算法:FTRL(Follow The Regularized Leader)[1]和BPR(Bayesian Probit Regression)[2],以及Online Learning在美团移动端推荐重排序的应用。

2016-09-17 07:07:21 8576 1

java多线程之生产者与消费者

java多线程之生产者与消费者,可以利用该代码放到更多的应用中去。

2012-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除