march_on-CSDN博客

原创活动选择问题（动态规划算法和贪心算法）

问题描述：有一个需要使用每个资源的n个活动组成的集合S= {a1，a2，···，an },资源每次只能由一个活动使用。每个活动a都有一个开始时间和结束时间，且 0动态规划：一、定义子集合Sij = { ak S ： f i 假设S中的活动已按照结束时间递增的顺序排列，则Sij具有如下的性质：1.当i 2.假设ak属于Sij，那么ak将把

2011-09-22 10:33:02 10165 2

原创 XGBoost: A Scalable Tree Boosting System

系统设计那里不是很明白。ABSTRACT提出xgboost，一个端到端的梯度提升算法的实现。具有如下特点：1.提出稀疏感知算法来处理稀疏数据2.加权分位点概要算法进行近似3.在缓存命中模式、数据压缩和分片上的创新目标函数第一部分是损失函数，用来拟合label，第二部分是正则项，用来防止过拟合。去掉正则项之后，目标函数就是传统的GBDT。GBDT 算法通过加性学习，每轮迭代学习一棵CART树来优化损失函数，并将新的树加入到模型中。对该损失函数进行泰勒二阶展开，如下其中，一阶梯度和二

2021-05-16 18:35:06 474

原创 Real-time Personalization using Embeddings for Search Ranking at Airbnb

ABSTRACT作者在本文讲述了airbnb如何对用户和房源进行embedding，并应用在搜索排序和相似房源推荐中进行实时个性化。在airbnb中搜索排序和相似房源推荐贡献了99%的转化。文中的embedding 模型专门针对airbnb的业务进行定制，并能捕捉用户的短期和长期兴趣。INTRODUCTION在airbnb，为房东和房客优化搜索结果，意味着给定带有地点和入住日期的查询，平台需...

2020-04-20 01:06:47 1121

原创 Practical Lessons from Predicting Clicks on Ads at Facebook

ABSTRACT文中提出的模型融合了决策树和逻辑回归，比单个方法效果好3%。之后探索了多个基础参数对预测效果的影响。最重要的事情是使用正确的特征：即那些捕捉到用户或者广告历史信息的特征比其他类型的特征更好。一旦有了正确的特征和模型（决策树和逻辑回归），其他因素发挥的作用很小（虽然小但是规模已一大还是会比较重要），为数据更新、学习率设置和数据采样选择最优的方法，也能稍微提升模型效果，但是远不...

2019-02-24 17:15:05 3106 1

原创 Entire Space Multi-Task Model: An E ective Approach for Estimating Post-Click Conversion Rate

ABSTRACT传统的CVR预估有一些问题，比如训练是在被点击的曝光上进行，而预估是在所有曝光上。这就是sample selection bias 问题。另外，还有一个数据稀疏问题，使得训练比较困难。文中作者从一个全新的角度对CVR建模，利用用户行为的顺序模式，曝光->点击->转化，进而提出了**Entire Space Multi-task Model (ESMM) ** 模型，并...

2019-01-19 18:00:38 763

原创 Wide & Deep Learning for Recommender Systems

ABSTRACT通过特征的向量积（cross-product）对特征交叉的记忆具有可解释性，而泛化又需要更多的特征工程。而DNN通过对稀疏特征学习低维稠密的embedding表示对未出现的特征组合具有良好的泛化性能。但是，当用户物品关系比较稀疏，维度又比较高时，DNN容易过度泛化，推荐一些不相干的物品。文中提出Wide&Deep 学习，同时训练wide 部分和dnn，将记忆性和泛化性结合...

2019-01-18 09:41:08 1007

原创 Deep Interest Network for Click-Through Rate Prediction

ABSTRACT现有CTR常用的DNN架构中将用户特征表示为一个固定长度的embedding向量。固定长度会导致网络很难从用户的历史行为中学习到用户的多种兴趣。文中提出了DIN网络来解决这个问题，该网络设计了一个局部激活单元来自适应地从和某个广告相关的历史行为中学习用户兴趣。这个表示向量会因广告而异，极大地提高了模型的表达能力。此外，作者开发了两种技术：mini-batch aware regu...

2019-01-17 10:41:29 3205 1

原创 Deep Neural Networks for YouTube Recommendations

Deep Neural Networks for YouTube Recommendations文章主要介绍了youtube的视频推荐系统。根据检索的两个阶段，文章分成两大块，第一步是候选集生成（candidate generation），第二步是基于深度学习的排序模型。同时，文中也介绍了在设计、迭代和维护如此大型的推荐系统时的一些经验。INTRODUCTIONyoutube视频推荐主要有...

2019-01-13 23:16:55 409

原创 parameter estimation for text analysis

p(θ|X)=p(X|θ)p(θ)p(X)p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)} 其中p(θ)p(\theta)称为先验，p(X|θ)p(X|\theta)称为似然，p(θ|X)p(\theta|X)称为后验,p(X)p(X)称为evidence ,又叫边际似然（marginal likelihood）。最大似然估计(MLE)是最大化似

2016-01-05 16:11:13 2066 1

原创 softmax regression 推导

P(y(i)=k|x(i);θ)=exp(θ(k)⊤x(i))∑Kj=1exp(θ(j)⊤x(i))P(y^{(i)} = k | x^{(i)} ; \theta) = \frac{\exp(\theta^{(k)\top} x^{(i)})}{\sum_{j=1}^K \exp(\theta^{(j)\top} x^{(i)}) }似然函数 L=∏i=1M∏k=1KP(y(i)=k|

2016-01-05 11:20:15 899

原创 redis-backgroud saving error

遇到这个错误可以参考这个连接You should check your redis.conf file to see the permissions in dir and dbfilename. If the file named in the dbfilename which is located in the path specified in the dir path exists and t

2015-12-17 17:15:26 2523

原创 awk gsub 批量替换

echo "d&g&#m#k=% " | awk -F" " '{print $0; gsub(/[&\t\n%#=]/,"", $0); print $0; }' -d&g&#m#k=% dgmkecho "d&g&#m#k=% " | awk -F" " '{print $0; gsub(/&|\t|\n|%|#|=/,"", $0); print $0; }' -

2015-12-10 16:45:10 7941

原创 red hat 安装 mongodb

刚开始参照官网（https://docs.mongodb.org/master/tutorial/install-mongodb-on-red-hat/）上的步骤来安装，但是总是访问不了，提示http连接超时，大概是被墙了，因为ping 这个域名也不通。后来打算从源码开始安装，从github下载源码之后又有python版本跟yum之间依赖的问题不好解决，服务器上的软件版本都太老了，一筹莫展之后发现

2015-11-30 10:40:23 3203

原创最大熵（一）

熵的定义 H(P)=−∑xP(x)logP(x)H(P)=-\sum_x P(x)logP(x) 熵的范围 0≤H(p)≤log|X||X|是X的取值个数。0\le H(p)\le log|X|\\|X|是X的取值个数。熵大于0很显然。下面证明后半部分0≤KL(p|u)=∑xp(x)logp(x)u(x)=∑xp(x)logp(x)−∑xp(x)logu(x)=−H(x)+log|X

2015-11-21 17:44:22 2882

原创安装pandas

首先，需要安装一些依赖库，比如numpy和scipy，python-dateutil，cython, python-dateutil又要用setuptools进行安装，所以我们需要安装setuptools和python-dateutil。下载setuptools，解压，切换到目录，执行 python setup.py install 即完成setuptools的安装，然后安装python-

2015-11-19 15:16:42 1352

原创高斯混合模型

所谓高斯混合模型就是一组高斯分布的和，可以表示如下：P(y|θ)=∑k=1Kαkϕ(y|θk)P(y|\theta)=\sum_{k=1}^{K}\alpha_k\phi(y|\theta_k)αk\alpha_k是第k个高斯分布的系数，大于0且∑kk=1αk=1\sum_{k=1}^k\alpha_k=1。ϕ(y|αk)\phi(y|\alpha_k)是第k个高斯分布:ϕ(y|αk)=1(√2

2015-11-09 00:02:02 873

原创 EM算法

下面是《统计学习方法》EM算法的笔记。 EM算法是一种针对含有隐变量的模型的参数估计方法，具体来说是极大似然估计和最大后验概率估计。该算法分为两步，第一步求期望，第二步对期望进行最大化。首先，我们定义Y是观测变量，Z是隐变量。其中Y又称为不完全数据，Y、Z在一起称为完全数据。第一步求的是下面这个函数的期望:Q(θ,θi)=EZ[logP(Y,Z|θ)|Y,θi]=∑zlogP(Y,Z|θ)P(Z|

2015-11-07 23:21:31 1004

原创 red hat 安装scrapy

首先安装依赖环境。有些需要root权限。 python2.7、pip、lxml和openssl。貌似我这里除了openssl什么都缺。所以依次安装python2.7、pip和lxml。python2.7和pip很好安装。不过要注意的是安装pip前要先安装python2.7，大概因为我的python2.4太旧了。安装lxml时遇到一些麻烦。根据上面的参考页面要首先安装libxml2和libxsl

2015-10-21 11:15:33 150

原创 LR推导

二分类逻辑回归：假设样本x，预测值y∈{1,0}y\in\{1,0\}。p(Y=1|x)=exp(wx+b)1+exp(wx+b)=π(x)p(Y=1|x)=\frac{exp(wx+b)}{1+exp(wx+b)} = \pi(x) p(Y=0|x)=11+exp(wx+b)=1−π(x)p(Y=0|x)=\frac{1}{1+exp(wx+b)}=1-\pi(x)损失函数： L=∏i

2015-10-14 22:39:25 6611

原创 Adaboost

Adaboost是集成学习中最常用的算法之一。该算法是损失函数为指数损失的前向分步加法模型。下面是这一结论的证明过程。10.3 Forward Stagewise Additive ModelingInitialize f0(x)f_0(x) = 02.For m =1 to M a Compute (βm,γm)=argminβ,γ∑i−1NL(yi,fm−1(xi)+βb(xi;γ

2015-10-14 10:29:37 1253

原创决策树

ID3最基础的决策树就是ID3了，它使用信息增益选择最优的分裂特征，一旦选出最优特征后，该特征的每个取值都会对应一个分支，所以ID3是一颗多叉树。ID3的优点是简单，缺点是无法处理连续型特征。在实现ID3的时候发现ID3 有一个问题，就是某些样本无法对其进行分类。比如下面这种情形：首先假设特征A，B，A的取值为front,mid, back,B的取值为low，high。假设我们先用特征B划分，所有

2015-10-14 09:55:35 894

原创朴素贝叶斯

朴素贝叶斯因为假设特征之间的独立性而得名“朴素”,经常用在文本分类之中。其实，常见的朴素贝叶斯有三个版本：应用于文本分类的多项式模型朴素贝叶斯和伯努利模型朴素贝叶斯和用于连续变量的高斯分布的朴素贝叶斯。首先，对于文本分类，我们假设文档长度为k，词汇表大小为M（即数据集中有M个不同的单词). 伯努利分布是指只有两个可能结果的单次实验，最典型的例子就是掷硬币。那么，将伯努利模型应用于文本上，就是进

2015-09-27 17:08:20 2630

原创对AUC的理解

auc是常见的对二类分类器的评价指标,其大小等于ROC曲线下的面积。ROC曲线的横坐标为false postive rate（fpr),纵坐标为true positive rate(tpr)， false postive rate的计算法公式: fpr=fpfp+tnfpr=\frac{fp}{fp+tn} 其中，fp表示false positive，即负例被分成正例的个数，tn表示tru

2015-09-23 23:18:42 2096

原创 easy ensemble 算法和balance cascade算法

看了一下easy ensemble 算法的matlab代码，发现之前的理解有问题从上面的伪代码可以看出，easy ensemble每次从多数类中抽样出和少数类数目差不多的样本，然后和少数类样本组合作为训练集。在这个训练集上学习一个adaboost分类器。最后预测的时候，是使用之前学习到的所有adaboost中的弱分类器（就是每颗决策树）的预测结果向量（每个树给的结果组成一个向量）和对应的权重向量

2015-09-22 17:03:32 22526 1

原创 smote算法

平时很多分类问题都会面对样本不均衡的问题，很多算法在这种情况下分类效果都不够理想。针对不均衡问题，一般有采样和代价敏感学习两种策略，采样的话又分为over-sampling和under-sampling。其中，smote算法算是over-sampling中比较常用的一种。smote算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上

2015-09-22 10:04:08 52278 13

原创 python 时间字符串格式转换

>>> a='2015-6-9'>>> datetimeObj = time.strptime(a, "%Y-%m-%d")>>> datetimeObj(2015, 6, 9, 0, 0, 0, 1, 160, -1)>>> time.strftime("%Y%m%d",datetimeObj)'20150609'

2015-06-11 17:21:22 5759

原创 numpy user guide 笔记

1.what’s numpynumpy的核心是ndarray 对象。numpy中的array和python中的序列（sequence）有如下不同：1. numpy中的array是固定大小的，python中的list是可以动态变化的。numpy中改变一个ndarray的大小会新建一个新的array并删除旧的数组。2. numpy数组的元素必须是同一数据类型。但是也有例外，数组中存放对象的话就不需要

2015-06-04 10:25:55 767

原创 split command in linux

split split is an useful command in linux to split files. I awlays use this command like thissplit -d a.txt -l 1000000 which split a.txt to output files of 1000 lines each and have numeric suffixes.

2015-05-28 15:33:49 702

原创 python import 模块

我的路径是这样的:a a1.pyb b1.py现在在b1.py中想使用a1模块的函数，所以需要在b1.py中导入a1模块，方法如下：首先在a目录下面创建一个__init__.py文件，可以为空，然后在b1.py中添加如下代码;import syssys.path.append(../a)import a1这样就可以了。其实还

2013-07-25 14:31:55 906

原创 git fetch 远程分支

打算把github上的一个分支取到本地，直接输入命令：git checkout origin/A结果出错：error: pathspec 'origin/feature_renrendai_tongji' did not match any file(s) known to git.看到http://stackoverflow.com/questions/598

2013-07-24 18:06:57 16029

原创 ubuntu12.04 配置mysql允许远程访问

首先，修改/etc/mysql目录下面的my.cnf文件，把其中的bind-address设置为你的ip,假设为192.168.0.240[bash]bind-address = 192.168.0.240[/bash]我的mysql 版本如下：[bash]mysql Ver 14.14 Distrib 5.5.31, for debian-linux-gnu (x86

2013-07-24 13:16:39 3255

转载开启win7 管理员账户

原文地址：http://soft.zol.com.cn/271/2718681.html在Win7中进行一些设置，或修改某些文件时，经常会弹出当前帐户没有操作权限的提示，即使已经是管理员账户也不行。事实上，出于安全方面的考虑，默认情况下Win7系统的系统管理员Administrator账户是处于禁用状态的，需要手动开启才能使用。开启它的方法很简单，按照下面的步骤来操作就可以。方法一

2013-06-06 09:40:47 1530

原创 win7 安装tex live2012

安装texlive2012花了几乎一天时间，把安装过程记录下来，备忘。刚开始从官网上下载的压缩包进行安装，压缩包总共才24M。解压缩后双击根目录下面的install-tl.bat脚本，这样就开始安装了，但是中间遇到了“perl 已经停止工作”的错误，参考这篇文章的解决办法，先是安装了Strawberry Perl，无效，又使用install-tl-advanced.bat安装，还是同样的

2013-06-06 09:23:43 2942

原创 java 除0

印象里，只要除以0，java应该会抛出异常，但是今天运行程序发现，除以一个double型的0时不会出现异常，结果是”infinity“。试验了一下，果然如此：代码很简单：double a= 0.0;int b=0;System.out.println(5/a);System.out.println(5/b);输出如下：InfinityException in threa

2013-06-01 19:03:36 8294

原创几个图像数据集

最近做图像检索实验，找了几个图像数据集，记录一下，免得后面找起来麻烦1.University of Washington image Datasethttp://www.cs.washington.edu/research/imagedatabase/2.IAPR TC-12http://imageclef.org/photodata3.NUS-WIDE

2013-05-24 15:53:13 10647 2

原创 win7 java命令行路径不一致解决方法

今天在服务器上运行java程序，结果一直有错误，然后检查一下jdk的安装情况，在命令行输入"java -version"发现输出的竟然是jdk1.7,而我在路径里面配置的是jdk1.6，所以应该输出jdk1.6才对。在网上查了一下，发现windows在执行命令时先在当前路径下查找，然后按照PATH里面的路径先后查找，因为jre在安装时会把java命令放到C:/windows/system32目录下

2013-05-24 10:48:36 3411

原创 matlab使用笔记

1.cd，load等命令使用变量时加上括号cd命令后面的路径如果有空格，需要用引号将路径括起来，否则会切换失败。2.从cell数组（元素全是字符串）中查找某个字符串，并返回字符串的下标 find(ismember(cellarray, "str1") == 1)3.判断矩阵a,b是否相等isequal(a,b)4.判断矩阵是否为对称阵isequal(a,a'

2013-05-22 10:39:28 1468

原创 tutorial

C++11下面是关于机器学习的tutorial，包括了很多经典算法。Statistical Data Mining TutorialsICCV Tutorial on Sparse Coding and Dictionary Learning for Image Analysis

2013-05-22 10:37:04 925

原创 paper

随手记下遇到的感觉不错的paper，随时更新1. Three things everyone should know to improve object retrieval2.Matrix Completion and Large-scale SVD Computations

2013-05-21 14:40:40 759

原创 java map接口

LinkedHashMap会保持插入时的顺序，而TreeMap会根据键（key）对元素进行排序，HashMap就很随意了。示例Map map= new LinkedHashMap();map.put(5, 6);map.put(3, 3);map.put(8, 1);for( Entry entry: map.entrySet() ){System.out.println(en

2013-05-20 15:01:03 940