- 博客(96)
- 资源 (6)
- 收藏
- 关注
原创 推荐系统中可能遇到的坑
对于一个新的算法模型来说,线上ab测试是需要一定的时间才能知道结果的,因此想要快速迭代模型,准确的、与线上表现一致的离线评估指标是不可或缺的。1.召回算法的离线评价问题。在做召回的过程中,没有一个合适的离线评价指标来评价召回的质量,大多数都是人为主观的判断,然后做abtest,看指标,更多的是运气成分。新用户的冷启动一直是推荐系统的一大问题,没有过多的数据,只能通过大量的规则和策略进行,或者使用额外的数据来进行补充。日志去重问题,日志中正例丢失分析和处理的问题,作弊流量清洗的问题,样本迁移学习的问题等等。
2022-10-13 13:59:34 2537 1
原创 开源小程序
https://github.com/brenner8023/iKeepGitHub - ljc-s/photoEdit: 微信小程序云开发,证件照小程序GitHub - livissnack/doniai-mini-photo: 智能证件照小程序GitHub - MarxJiao/your-beauty-value: 颜值测试小程序,使用小程序云函数和百度云 ai 接口开发https://github.com/goudan1030/dirnkwaterhttps://githu
2022-03-13 02:18:56 416
原创 孙陶然-36条军规
第四十一讲:慎用空降兵初创企业请职业经理人是死路一条低半格进入,是空降兵融入公司的窍门(待遇可以另谈)公司原有领导者对于空降兵应该扶上马送一程,主动设计一些方法,帮助空降兵建立起威信,被公司的老人接受,融入公司。第四十二讲:企业成功之后不要折腾折腾的表现:(拿理论上听起来很正确的东西,但是与企业的现实不符,强行执行时,对企业的正常运转产生了危害,所有的企业都需要进化,但进化一定是建立在现有的基础上逐步改良)请能人 他以前熟悉的管理方法是否和你的企业契合,是否能融入企业,是否能够
2022-02-20 16:36:40 1005
原创 暂存-孙陶然
第一讲:需要用十年去打造一个公司公司(做买卖):产生销售,获取利润成功企业的标准:行业领先,细分领域数一数二 可持续的增长 受人尊重创业的四个发展阶段,每个阶段需要两到三年时间:起步期:找到明确的产品方向,有大量的销售(核心是省钱) 成长期:单项冠军期(专注) 扩张期:(做出第二、第三个爆款产品,每个产品要有合适的领军人物) 成熟期:生态帝国时期(布局、买保险)要敢于花钱第二讲:创业的机会成本很高第三讲:打工和创业是两回事局部工作全局工作心态不一样
2021-09-19 16:18:27 369
原创 Transformer总结
Transformer整个网络结构由且仅由self-Attenion和Feed Forward Neural Network组成。(Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence aligned RNNs or convolution。)注意力机制(
2021-08-15 00:32:21 1447
原创 Java 基础
异常处理Java的异常Java内置了一套异常处理机制,总是使用异常来表示错误。异常是一种class,因此它本身带有类型信息。异常可以在任何地方抛出,但只需要在上层捕获,这样就和方法调用分离了:try { String s = processFile(“C:\\test.txt”); // ok:} catch (FileNotFoundException e) { // file not found:} catch (SecurityException e) {
2021-04-27 00:30:56 134
原创 排序学习
https://lumingdong.cn/learning-to-rank-in-recommendation-system.htmlhttps://lumingdong.cn/application-practice-of-embedding-in-recommendation-system.htmlhttps://lumingdong.cn/engineering-practice-of-embedding-in-recommendation-scenario.htmlhttps://lu
2020-12-25 13:39:47 178 1
原创 强化学习总结
https://www.jianshu.com/p/fae3736e0428https://blog.csdn.net/qq_39388410/article/details/94398534https://www.jianshu.com/p/7c949d649bd3https://www.jianshu.com/p/b9113332e33ehttps://www.cnblogs.com/Lee-yl/p/9648883.htmlhttps://baijiahao.baidu.com/s
2020-08-16 12:56:56 340
原创 Maven总结
Maven 是一个项目管理工具,它包含了一个项目对象模型 (POM:Project Object Model),一组标准集合,一个项目生命周期(Project Lifecycle),一个依赖管理系统(Dependency Management System),和用来运行定义在生命周期阶段(phase)中插件(plugin)目标 (goal)的逻辑。Maven 就可以解决能帮你构建工程,管理 jar 包,编译代码,还能帮你自动运行单元测试,打包,生成报表,甚至能帮你部署项目,生成 Web 站 点...
2020-06-19 09:44:38 285
原创 Git总结
什么是版本控制版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。 实现跨区域多人协同开发 追踪和记载一个或者多个文件的历史记录 组织和保护你的源代码和文档 统计工作量 并行开发、提高开发效率 跟踪记录整个软件的开发过程 减轻开发人员的负担,节省时间,同时降低人为错误 简单说就是用于管理多人协同开发项目的技术。没
2020-06-18 23:22:57 709 2
原创 GBDT+LR
一、介绍本文主要介绍Facebook提出的CTR预估模型LR(Logistic Regression)+GBDT。当时深度学习还没有应用到计算广告领域,Facebook提出利用GBDT的叶节点编号作为非线性特征的表示,或者说是组合特征的一种方式。LR+GBDT相比于单纯的LR或者GBDT带来了较大的性能提升,论文中给出数据为3%,这在CTR预估领域确实非常不错。除此之外,Faceboo...
2019-09-11 15:14:26 3535
原创 xDeepFM模型
xDeepFM是微软2018年发的一篇新论文,它是用来把二阶、三阶、四阶组合一层一层做出来,但无非它用的是类CNN的方式来做这个事的。这是第二个路线的两个代表。尽管这个符合模型发展趋势,我个人认为这种模型太复杂,真正部署上线成本比较高,不是优选方案。对深度CTR模型的个人看法:xDeepFM模型1、引言对于预测性的...
2019-09-11 14:56:59 1378
原创 Deep & Cross模型
Deep&Cross显式地做高阶特征组合。就是说设计几层神经网络结构,每一层代表其不同阶的组合,最下面是二阶组合,再套一层,三阶组合,四阶组合,一层一层往上套,这就叫显式地捕获高阶特征组合,Deep&Cross是最开始做这个的。Deep & Cross Network对于低阶的组合特征的构造,线性模型使用人工特征工程,FM使用隐向量的内积,FFM引入field的...
2019-09-11 14:56:01 2193
原创 DeepFM模型
DeepFM:在DeepFM提出之前,已有LR,FM,FFM,FNN,PNN(以及三种变体:IPNN,OPNN,PNN*),Wide&Deep模型,这些模型在CTR或者是推荐系统中被广泛使用。但是,这些模型普遍都存在两个问题:偏向于提取低阶或者高阶的组合特征,不能同时提取这两种类型的特征。 需要专业的领域知识人工做特征工程。DeepFM在Wide&Deep的基础上进行改...
2019-09-11 14:53:15 5052
原创 Wide & Deep模型
Wide&Deep的右边就是DNN部分,左边的FM Function用的是线性回归,其特征组合需要人去设计。Wide&Deep模型。它混合了一个线性模型(Wide part)和Deep模型(Deep part)。这两部分模型需要不同的输入,而Wide part部分的输入,依旧依赖人工特征工程。Wide&Deep模型推荐系统和类似的通用搜索排序问题共有的一大挑...
2019-09-11 14:52:12 15797
原创 TensorFlow2总结
Tensor数据类型list: [1,1.2,'hello'] ,内存占用大,处理速度慢 np.array,数据同类型,但不支持GPU和自动求导 tf.Tensor,为了弥补numpy的缺点,为深度学习而生,支持GPU与自动求导 tensor: scalar:标量,1.1,dim = 0 vector:向量,[1.1],[1.1,2.2,...],dim = 1 matrix:...
2019-07-25 18:49:13 1343
原创 kmeans
import numpy as npdef get_dist(vec1, vec2): # 两个向量之间的欧几里德距离 return np.sqrt(np.sum(np.power(vec1 - vec2, 2)))def rand_cent(dataSet, k): # 返回初始化得到的k个质心向量 n = np.shape(dataSet)...
2019-07-12 19:43:44 227
原创 机器学习中的评估指标与损失函数
分类指标模型评估准确率accuracy是指分类正确的样本数与总样本数之比,即。其缺点在于,当样本类别比例非常不均衡时,如正负样本比为1:9,全部预测为负就可以得到90%的准确率。为了解决这个问题,可以使用平均准确率(每个类别样本准确率的算术平均)。精确率和召回率多用于二分类,可结合混淆矩阵进行理解:TP和TN是预测正确的样本,FP和FN是预测错误的样本,TP+TN+FP+FN=...
2019-07-02 11:20:06 12522 1
原创 定价项目
项目背景:为保证二手手机的质量,转转对二手手机提供验机服务,用户将手机寄到验机中心,工作人员会对二手手机进行拆机验机,然后根据验机结果,提供一个这款手机可能售出的价格,这个价格有主要有三个用途:验机后给用户提供验机证明和一个参考定价,用户可以在网上自定义价格售卖; 用户委托公司在竞拍卖场进行竞拍,该价格乘以一个小于1的系数(如:0.9)得到竞拍的起拍价; 竞拍时VIP用户可以自定义起拍...
2019-07-01 22:48:57 1006
原创 面试常考算法题补充
二叉树先序遍历的非递归实现:def preOrder(root): if not root: return stack = [root] # 初始化一个栈 用于代替递归调用的系统栈 while stack: node = stack.pop() print(node.val) # 因为要先遍历左子树 所以要先将...
2019-06-27 09:38:58 330
原创 面经
算法面经+春秋招总结(含BAT TM W等)作者:泡了个泡链接:https://www.nowcoder.com/discuss/127357来源:牛客网本人真·末流985软件工程本硕,研究方向推荐系统(但是整个实验室也只有我自己在研究),JCR1区水刊论文一篇,对于机器学习也算是半路出家,从今年一月份才开始系统的学习。经历了惨痛的春招与秋招之后,也积攒了一些面经,希望能对大家...
2019-06-24 16:21:56 6495
原创 批量归一化(Batch Normalization)
对输入数据进行标准化处理的原因?使输入数据各个特征的分布相近:神经网络学习的本质就是学习数据的分布,如果训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低; 在使用小批量数据对神经网络进行训练时,若每批训练数据的分布各不相同,网络在每次迭代都去学习适应不同的分布,这会大大降低网络的训练速度;为什么要使用批量归一化?使用浅层模型时,随着模型训练的进行,当每层中参数更新时,靠近...
2019-06-23 12:00:34 34155 2
原创 常见的机器学习优化器
梯度下降最常见的三种变形是BGD,SGD,MBGD,区别是梯度下降时用多少数据来计算目标函数的梯度。批量梯度下降法(Batch Gradient Descent)更新参数时使用所有样本来进行更新。随机梯度下降法(Stochastic Gradient Descent)更新参数时使用一个样本来进行更新。(但平时提到的SGD是指的Mini-batch SGD)。小批量梯度下降法(M...
2019-06-23 11:36:39 1206
原创 CTR预估算法(深层模型)
CTR预估数据特点: 输入中包含类别型和连续型数据。类别型数据需要one-hot,连续型数据可以先离散化再one-hot,也可以直接保留原值 维度非常高 数据非常稀疏 特征按照Field分组 CTR预估重点在于学习组合特征。注意,组合特征包括二阶、三阶甚至更高阶的,阶数越高越复杂,越不容易学习。Google的论文研究得出结论:高阶和低阶的组合特征都非常重要,...
2019-06-22 17:45:19 1660 1
原创 Leetcode题解------C++语言实现
283. 移动零// 时间复杂度: O(n)// 空间复杂度: O(n)class Solution {public: // 通过引用的方式传入一个vector类型的数组 可以对其进行修改 void moveZeroes(vector<int>& nums) { vector<int> nonZeroE...
2019-06-14 08:34:20 629
原创 FFM及DeepFFM模型及其在推荐系统中的应用
大纲今天我们主要介绍一下,FFM模型和它的深度学习模型版本,以及我们在这个基础上改造的两个模型。首先,介绍大规模推荐系统的整个流程框架和其中一些比较核心的技术点。第二,介绍推荐系统的两大类Rank模型:传统模型和深度学习模型的发展历程和各自的特点。第三,介绍FFM模型的优缺点,针对缺点,提出一个改进的版本,即“双线性FFM模型”。另外,大致介绍,典型的深度学习模型的特点及使用场景。最后,介...
2019-06-09 00:17:43 3848
原创 FFM模型及其在推荐系统中的应用
用FM/FFM模型做召回意味着什么首先,第一个问题是:FM/FFM模型一般是作为典型的Ranking阶段的模型,怎么理解用它来做召回这件事情呢?向上图这么做推荐,就是用一个模型把召回和排序两个阶段的事情全做掉。这也是本文要探讨的另外一个要点。FM/FFM模型用在召回和Ranking这两个不同阶段,差别还是蛮大的。如果是在排序阶段使用FM/FFM或者其他模型,因为此时用户已知,要排序...
2019-06-09 00:15:12 1909 2
原创 FM模型及其在推荐系统中的应用
推荐模型或者推荐场景下的排序模型,您脑子里第一个念头冒出的模型是哪个或哪几个?如果你第一念头冒出来的仍然是SVD/矩阵分解啥的,那么明显你还停留在啃书本的阶段,实践经验不足;如果你第一念头是LR模型或者GBDT模型,这说明你是具备一定实践经验的算法工程师,但是知识更新不足。现在都9102年了,我们暂且把Wide&Deep/DeepFM这些模型抛开不提,因为在大规模场景下想要把深度推荐模...
2019-06-08 17:46:34 6612 5
原创 ctr项目
腾讯2017社交广告比赛https://jiayi797.github.io/2017/06/07/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-CVR-Tencent_CVR%E9%A2%84%E4%BC%B0%E5%88%9D%E8%B5%9B&%E5%A4%8D%E8%B5%9B%E6%80%9D%E8%B7%AF%...
2019-05-26 15:08:04 2130
原创 推荐暂存
协同过滤推荐算法总结 推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: ...
2019-05-18 13:06:53 376
原创 机器学习与深度学习模型上线总结
用PMML实现机器学习模型的跨平台上线 在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型标记语言(Predictive Model Mark...
2019-05-18 12:01:13 2468
原创 文本表示
导言文本分类是自然语言处理中研究最为广泛的任务之一,通过构建模型实现对文本内容进行自动分类,有很多应用场景,比如新闻文章主题分类,产品评论情感分类,检索中用户查询的意图分类等等。文本分类的大致流程:文本预处理,抽取文本特征,构造分类器。其中研究最多的就是文本特征抽取,更广义上说是文本表示。关于文本表示,研究者从不同的角度出发,提出大量的文本表示模型。本文重点梳理现有模型,大致分为三类,即基...
2019-05-18 11:32:00 1923
OfficeRegClean.zip
2019-06-15
美团机器学习实践
2018-12-21
机器学习实战_基于Scikit-Learn和TensorFlow_王静源
2018-12-06
C语言从入门到精通
2018-11-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人