我的灯还亮着-CSDN博客

原创阿里DIN源码之如何建模用户序列（1）：base方案

阿里这篇文章，说白了就是如何将用户的行为序列抽象出一个特征，这里我称之为行为emb，往常对用户的一组行为序列，都是平等对待，同权pooling，或者加时间衰减。这篇文章好就好在他深刻的分析了用户行为意图，即用户的每个行为和候选商品的相关性是不同的，以此为契机，利用一个计算相关性的模块（后来也叫attention），对序列行为加权pooling，得到想要的embedding。网上对DIN源码分享...

2020-03-05 21:33:43 1129

原创水塘抽样的原理及python实现

同步更新于知乎：https://zhuanlan.zhihu.com/p/107889958最近在做整理，偶尔看到公众号的一篇关于随机抽样的分享，这个算法面试中经常会问到，特此总结一下。网上关于这块解释并不清晰，主要参考如下，个人感觉写的比他更通俗易懂，哈哈。https://zhuanlan.zhihu.com/p/107793995解决什么问题主要用于解决大数据流中的随机抽样问题，即：...

2020-02-19 21:27:26 609

原创从入门DeepWalk到实践Node2vec

最近碎片时间看七个世界，一个星球，不亏是9.9分的纪录片啊，敬畏自然，敬畏生命。真想以后有时间多出去走走，不过还是要有眼前的苟且…… （写于凌晨00:26，哭）如果图挂了，请移步知乎：https://zhuanlan.zhihu.com/p/90783845参考博客和文献https://zhuanlan.zhihu.com/p/64756917https://zhuanlan.zhihu.com...

2019-11-08 00:42:24 1396

原创论文阅读—阿里Graph Embedding的大规模应用

本人知乎地址：https://zhuanlan.zhihu.com/p/83382019paper：Billion-scale Commodity Embedding for E-commerce Recommendation in Alibabahttps://arxiv.org/pdf/1803.02349.pdf花了一周时间，零零碎碎终于把阿里这篇文章研究了一下，也看了很多知乎大佬的讨...

2019-09-20 17:53:10 2379 3

原创《推荐系统实战》读书笔记——在隐式反馈系统中如何给商品打分

之前看过的一本《pratical recommender systems》的读书笔记，这本书讲了很多网上看不到的，很实际的工程方面的考虑，规则为主，算法为辅。现在网上铺天盖地都是高大上的排序模型，这些都是大公司打出知名度的东西，实际中有几个用到的？推荐成立之初就是规则，现在的算法工程师大多都太飘了，满口的算法模型，各种模型架构的优化，忘记了最初对业务规则的理解，脚踏实地，一直是老板对我说过的最多的...

2019-05-17 22:10:38 2100 3

转载美团如何缓解数据倾斜与shuffle调优

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发...

2019-03-13 11:29:46 1094 2

转载美团实践—spark任务调优以及spark job运行原理

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能...

2019-03-13 11:26:43 342

原创精读2018 KDD rec best paper—embedding在Airbnb的应用实践

Real-time Personalization using Embeddings for Search Ranking at Airbnb前一段看了这篇文章，由于公司也在用w2v做相似商品推荐，很有感触，发现之前用的数据集简直不忍直视，在此总结了一下个人对这篇文章的看法，分享出来，有不足之处还请指教和讨论。主要参考了两位大佬王喆和吴海波的知乎，少绕了很多弯路，深表感谢。文章用的模型...

2019-02-20 22:25:55 2467 1

原创 Deep Neural Networks for YouTube Recommendations 工程Tricks总结

Deep Neural Networks for YouTube Recommendations 2016 继项亮书后值得反复品味的推荐入门神文。首先奉上两位大佬的博客，也是主要参考的地方。其实这篇文章已经看过两三次了，一些地方总是看不懂，直到这两天王喆大佬在某乎提供了一个大家分享经验的平台后，很多地方都理解了，一些至今仍在工程中应用的东西，原来都能在这篇文章中找到。王喆沙韬伟其...

2018-12-18 11:40:42 720

原创精读&解析 Entire Space Multi-Task Model（ESMM）阿里2018年CVR预测

近期公司在CTR模型的基础上准备重写CVR模型，目前处于调研阶段，读了阿里的处理方法，特意记录下来，温故而知新。下面按照个人理解介绍这篇文章内容，主要思想借鉴一篇博客，文字寻源参考原paper<Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate>...

2018-11-07 21:07:01 14216 7

原创推荐系统——通用补全&冷启动逻辑调研

冷启动一直是各个公司的命门，上周调研了各相似业务公司的补全或者好的trick，总结如下，欢迎各位好友补充评论，可以深入交流有关推荐系统的各个方面。新用户的行为很有限，尽量通过有限的信息，来猜测用户的兴趣+热门推荐补全，一方面是为了解决冷启动问题，另一方面是为了补全或提高召回集的多样性。另外，还应该根据运营，产品的角度确定一些人为的规则，比如“近期的一些大型活动”，“主推商品”可以补全...

2018-11-05 20:48:44 705

转载大数据下的相似度计算方法——Uber实践基于局部敏感哈希LSH

近期在contented based召回模块寻找相似商品时牵扯到大量计算，内存和耗时都是不可接受的，于是查找了多篇文章，找到了spark的LSH方法，示例代码写的很简单，这里有一篇uber的实践，写得很详细，特转载，仅供个人查看，如有不妥，请联系我。https://cloud.tencent.com/developer/article/1035600在这篇文章中：为什么使用LSH？LSH 在...

2018-11-05 20:31:49 4571 3

转载机器学习之类别不平衡问题 —— ROC和PR曲线

写在前面：在CTR预估中，用户发生点击行为这类正样本显著少于负样本，那么用ROC来评价通常结果非常乐观，在网上调研了两天，对于不平衡问题，有多重评价方法，尤其是PR曲线最常用，无论是竞赛还是实际场景中，这篇文章总结的非常全面，转载到这。机器学习之类别不平衡问题 (1) —— 各种评估指标机器学习之类别不平衡问题 (2) —— ROC和PR曲线机器学习之类别不平衡问题 (3) —— 采样方...

2018-10-17 10:18:01 2310

原创转载任意网页内容到CSDN

进入“我的博客”，找到“管理博客”。博客的默认设置更改为markdown找到你想要转载的任何网页内容。右键页面内容找到“审查元素”（大部分浏览器都有，只是命名方式略有不同，以搜狗和转载CSDN为例：找到关键字“article_content”，鼠标放上去对应全文会出现蓝色表示已选中，右键copy-copy outerHTML回到自己的CSDN，新建博客，出现...

2018-10-02 16:56:57 234

转载各大厂CTR预估模型总结

各大厂CTR预估模型总结导语笔者对各大厂商CTR预估模型的优缺点进行对比，并结合自身的使用和理解，梳理出一条CTR预估模型的发展脉络，希望帮助到有需要的同学。0.&nbsp;&nbsp;提纲1. 背景2. LR 海量高纬离散特征 (广点通精排)3. GBDT 少量低纬连续特征 (Yahoo &amp;&nbsp;Bing)4. GBDT+LR&nbsp;(FaceBook)5. FM+DNN (...

2018-10-02 16:38:23 1709

原创白话总结《余弦相似度vs欧式距离&缺陷》

之前相似度计算很模糊，趁着休息总结一下，以便使用时更针对业务需要。余弦相似度公式中p和q是两个向量。余弦相似度需要对两个向量的长度做归一化，然后度量两个向量的方向，与向量的长度无关。也就是说，两个向量只要方向一致，无论长度、程度如何，都视作“相似”。即“余弦相似度对具体数值的绝对值大小不敏感”这会产生一个问题，如果A用户对两个商品打分是1,2，B是4,5。由于余弦相似度只关注方...

2018-10-02 12:00:53 13876 4

原创白话总结《特征工程之连续变离散》

目前业务所用模型都需要把连续的特征转化为离散值，特做总结如下：1. Bucket 分桶：把范围较广的连续值分桶分桶的个数一般由特征意义和经验人为设定，比如年龄可以根据小学，初中，高中，大学等分桶，此处以日期举例：优势：连续性特征拆分成一个四元素向量，那么模型现在可以学习四个单独的权重，与单个权重相比，离散的向量特征，由于只有一个元素置位 (1)，其他三个元素清零 (0)，...

2018-10-01 17:44:05 858

原创基于Spark MLlib.FPGrowth挖掘电商物品间的关联规则

本文是个人对分析商品间关联关系的一篇总结。不同于找相似商品，关联关系想要找到商品间有潜在购买关系，比如啤酒尿布，香烟和打火机，炒菜锅和炒勺等等。首先从Apriori开始讲起：关联规则简述此处大部分是对一篇英文博客的理解，原地址找不到了…Association rules analysis is a technique to uncover how items are assoc...

2018-09-15 11:21:05 1221

原创由aggregateByKey看到spark的性能调优

工作一个月，重心都放在spark上，最近多处理K-V结构，对aggregate函数有了一些理解，首先，这是一个高效的函数。首先要了解，spark的核心思想就是并行计算，对于Pari RDD（K-V数据结构），一个 key 的所有值不一定都在一个同一个 paritition 分区里，甚至是不一定在同一台机器里，但是它们必须共同被计算，那么在聚合的过程中，自然地能够想到是先本地聚合再发送数据做聚合...

2018-09-08 11:00:23 629 3

转载【转】利用泰勒公式推导梯度下降法

原作者: 红色石头|来自: AI有道梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来...

2018-08-25 10:27:09 4076

原创 C风格字符串和string类的操作——从实现atoi函数开始

atoi函数是实现将字符串转换为整形数，遇到第一个非数字字符即停止这里的关键就是溢出的判断，且不用考虑小数点。至于两种类型的字符串，一个是通过指针来遍历元素，一个是通过索引i来遍历元素，两个功能一样，大家可以做对比，以后就不会被指针搞得晕头转向了。搞定这个函数，其他的字符串操作有了思路也应该能实现了。int atoi_my(const char *str){ uns...

2017-10-26 11:15:34 537

转载 R语言的优劣势

作者：私言链接：https://www.zhihu.com/question/19611094/answer/26621919来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。就一个R和SAS精通程度几乎相同，在两种环境下都做过比较大（moderately big, ~xx Gb）的数据分析，与其他语言环境嵌合（SQL, Perl, etc...）使用过的个人...

2017-10-08 15:44:39 14775 2

原创用R语言用生存资料做基于radiomic（影像组学）的生存分析

最近写好了一篇肿瘤二区SCI，具体就不透露了，来跟大家分享一下经验，觉得好的可以留言哈。本文内不懂得可以留言我们一起讨论，很多词在前面的文章中已经写了。要想做基于影像组学的生存分析，肯定是离不开和医院的合作，因为你要拿数据啊，医院出数据，你提供算法，俩人共同第一作者……下面以预测某癌症手术后的复发为目的，按处理顺序来讲一下这个大概是要怎么做。（这里生存终点是指复发，生存时间是治疗开始到复发...

2017-07-27 16:05:35 9489 29

原创为了offer系列——二分查找（C++），附测试用例

（最近在改文章，今天看了一篇博客讲递归，总结的不错，虽然老了点。就更新个常考算法，偷个懒，原文在此）前提：表中元素是有序排列的（此处按照升序处理）思路：假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。重复以上过程，直...

2017-07-06 17:31:45 1671

原创为了offer系列——快速排序（C++），附测试用例

offer必备三大算法之一——快速排序平均时间复杂度：O(nlogn)，和归并排序一样。尽管最坏时间复杂度很差，但因为它的平均性能非常好，故常用于实际当中。稳定性：是一个不稳定的排序算法，不稳定发生在主元pivot和a[j]交换的时刻。基本步骤（算法导论分治思想的三步）如下：1.分解：将数组A[p,..,r]以一个主元pivot（常取最后一个元素A[r]）为界，划分为两个子数组（可能...

2017-06-23 10:25:22 2130 2

原创为了offer系列——归并排序（C++）

offer必备三大算法之一——归并排序平均时间复杂度：O(nlogn)稳定性：稳定分两步：递归（递归的调用排序函数，将原始数组递归的一分为二，分裂为n个单独的元素，单独即有序）——归并（合并两个已排序的序列）归并操作：将两个已经排序的序列合并成一个序列的操作。为了避免每一个基本步骤必须检查是否有数组为空，在每个数组末尾放置一个哨兵元素。这里我用 INF代表其值。归并的基本步骤如...

2017-06-20 09:13:59 374

原创 coursera无法观看视频解决方法

Coursera是国外的一款非常有名的公开课网站，值得大家一起学习，奈何“长城”太厚，经常被和谐，一些视频打不开，最近找到不用翻墙的方法，共享给大家。找到记事本，，鼠标右键，管理员身份打开。在记事本内，ctrl+o 打开hosts 文件（右下角选择所有文件才能找到hosts），路径是C:\Windows\System32\drivers\etc 在里面按照格式添加 52.84....

2017-05-11 20:46:03 46587 28

原创影像组学下(Radiomic)的生存分析基本概念及统计分析

旨在对生存分析有个直观认识（做什么，怎么做），每一步的详细的内容后续补充，不懂得百度英文资料。主要参考方积乾老师的“生物医学研究的统计方法”生存分析是将重点时间的出现与否和出现终点事件所经历的时间结合起来分析的一类统计学分析方法。可用于生存率估计，生存曲线比较，影响因素分析和生存预测。生存分析方法建立在对生存时间排序的基础上，精细的时间单位准确率较高（日>月>年）认真随访...

2017-05-05 15:12:44 5931 3

我的灯还亮着的博客