Yasin_-CSDN博客

原创推荐系统中可能遇到的坑

对于一个新的算法模型来说，线上ab测试是需要一定的时间才能知道结果的，因此想要快速迭代模型，准确的、与线上表现一致的离线评估指标是不可或缺的。1.召回算法的离线评价问题。在做召回的过程中，没有一个合适的离线评价指标来评价召回的质量，大多数都是人为主观的判断，然后做abtest，看指标，更多的是运气成分。新用户的冷启动一直是推荐系统的一大问题，没有过多的数据，只能通过大量的规则和策略进行，或者使用额外的数据来进行补充。日志去重问题，日志中正例丢失分析和处理的问题，作弊流量清洗的问题，样本迁移学习的问题等等。

2022-10-13 13:59:34 2537 1

原创淘宝端上重排序

淘宝猜喜端上重排

2022-08-14 20:13:49 260

原创开源小程序

https://github.com/brenner8023/iKeepGitHub - ljc-s/photoEdit: 微信小程序云开发，证件照小程序GitHub - livissnack/doniai-mini-photo: 智能证件照小程序GitHub - MarxJiao/your-beauty-value: 颜值测试小程序，使用小程序云函数和百度云 ai 接口开发https://github.com/goudan1030/dirnkwaterhttps://githu

2022-03-13 02:18:56 416

原创孙陶然-36条军规

第四十一讲：慎用空降兵初创企业请职业经理人是死路一条低半格进入，是空降兵融入公司的窍门（待遇可以另谈）公司原有领导者对于空降兵应该扶上马送一程，主动设计一些方法，帮助空降兵建立起威信，被公司的老人接受，融入公司。第四十二讲：企业成功之后不要折腾折腾的表现：（拿理论上听起来很正确的东西，但是与企业的现实不符，强行执行时，对企业的正常运转产生了危害，所有的企业都需要进化，但进化一定是建立在现有的基础上逐步改良）请能人他以前熟悉的管理方法是否和你的企业契合，是否能融入企业，是否能够

2022-02-20 16:36:40 1005

原创干嘉伟演讲

何为运营：运营的六大常见病：何为科学运营：科学运营三步法：

2022-02-19 12:13:47 8084

原创暂存-孙陶然

第一讲：需要用十年去打造一个公司公司（做买卖）：产生销售，获取利润成功企业的标准：行业领先，细分领域数一数二可持续的增长受人尊重创业的四个发展阶段，每个阶段需要两到三年时间：起步期：找到明确的产品方向，有大量的销售（核心是省钱）成长期：单项冠军期（专注）扩张期：（做出第二、第三个爆款产品，每个产品要有合适的领军人物）成熟期：生态帝国时期（布局、买保险）要敢于花钱第二讲：创业的机会成本很高第三讲：打工和创业是两回事局部工作全局工作心态不一样

2021-09-19 16:18:27 369

原创 Transformer总结

Transformer整个网络结构由且仅由self-Attenion和Feed Forward Neural Network组成。(Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence aligned RNNs or convolution。)注意力机制（

2021-08-15 00:32:21 1447

原创 JAVA多线程

get方法获得线程运行之后的结果，如果线程还没有运行结束，那么get方法会在这里死等...

2021-07-25 00:49:40 147

原创 Java集合

（多态）父接口指向子类对象：如果报错，执行完之后，后边的代码会继续执行。重点：运行结果：

2021-05-15 16:47:45 155

原创 Java 基础

异常处理Java的异常Java内置了一套异常处理机制，总是使用异常来表示错误。异常是一种class，因此它本身带有类型信息。异常可以在任何地方抛出，但只需要在上层捕获，这样就和方法调用分离了：try { String s = processFile(“C:\\test.txt”); // ok:} catch (FileNotFoundException e) { // file not found:} catch (SecurityException e) {

2021-04-27 00:30:56 134

原创 Java知识点

。

2021-01-22 12:45:26 274

原创深度学习推荐系统实战总结

https://time.geekbang.org/column/article/294382

2021-01-22 12:44:05 4843

原创特征挖掘总结

用户、商品、上下文

2021-01-12 18:09:53 345

原创 Spring之IOC容器

IOC

2021-01-10 17:36:18 147

原创排序学习

https://lumingdong.cn/learning-to-rank-in-recommendation-system.htmlhttps://lumingdong.cn/application-practice-of-embedding-in-recommendation-system.htmlhttps://lumingdong.cn/engineering-practice-of-embedding-in-recommendation-scenario.htmlhttps://lu

2020-12-25 13:39:47 178 1

原创强化学习总结

https://www.jianshu.com/p/fae3736e0428https://blog.csdn.net/qq_39388410/article/details/94398534https://www.jianshu.com/p/7c949d649bd3https://www.jianshu.com/p/b9113332e33ehttps://www.cnblogs.com/Lee-yl/p/9648883.htmlhttps://baijiahao.baidu.com/s

2020-08-16 12:56:56 340

原创 Maven总结

Maven 是一个项目管理工具，它包含了一个项目对象模型 (POM:Project Object Model)，一组标准集合，一个项目生命周期(Project Lifecycle)，一个依赖管理系统(Dependency Management System)，和用来运行定义在生命周期阶段(phase)中插件(plugin)目标 (goal)的逻辑。Maven 就可以解决能帮你构建工程，管理 jar 包，编译代码，还能帮你自动运行单元测试，打包，生成报表，甚至能帮你部署项目，生成 Web 站点...

2020-06-19 09:44:38 285

原创 Git总结

什么是版本控制版本控制（Revision control）是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史，方便查看更改历史记录，备份以便恢复以前的版本的软件工程技术。实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和文档统计工作量并行开发、提高开发效率跟踪记录整个软件的开发过程减轻开发人员的负担，节省时间，同时降低人为错误简单说就是用于管理多人协同开发项目的技术。没

2020-06-18 23:22:57 709 2

原创 GBDT+LR

一、介绍本文主要介绍Facebook提出的CTR预估模型LR(Logistic Regression)+GBDT。当时深度学习还没有应用到计算广告领域，Facebook提出利用GBDT的叶节点编号作为非线性特征的表示，或者说是组合特征的一种方式。LR+GBDT相比于单纯的LR或者GBDT带来了较大的性能提升，论文中给出数据为3%，这在CTR预估领域确实非常不错。除此之外，Faceboo...

2019-09-11 15:14:26 3535

原创 xDeepFM模型

xDeepFM是微软2018年发的一篇新论文，它是用来把二阶、三阶、四阶组合一层一层做出来，但无非它用的是类CNN的方式来做这个事的。这是第二个路线的两个代表。尽管这个符合模型发展趋势，我个人认为这种模型太复杂，真正部署上线成本比较高，不是优选方案。对深度CTR模型的个人看法：xDeepFM模型1、引言对于预测性的...

2019-09-11 14:56:59 1378

原创 Deep & Cross模型

Deep&Cross显式地做高阶特征组合。就是说设计几层神经网络结构，每一层代表其不同阶的组合，最下面是二阶组合，再套一层，三阶组合，四阶组合，一层一层往上套，这就叫显式地捕获高阶特征组合，Deep&Cross是最开始做这个的。Deep & Cross Network对于低阶的组合特征的构造，线性模型使用人工特征工程，FM使用隐向量的内积，FFM引入field的...

2019-09-11 14:56:01 2193

原创 DeepFM模型

DeepFM：在DeepFM提出之前，已有LR，FM，FFM，FNN，PNN（以及三种变体：IPNN,OPNN,PNN*）,Wide&Deep模型，这些模型在CTR或者是推荐系统中被广泛使用。但是，这些模型普遍都存在两个问题：偏向于提取低阶或者高阶的组合特征，不能同时提取这两种类型的特征。需要专业的领域知识人工做特征工程。DeepFM在Wide&Deep的基础上进行改...

2019-09-11 14:53:15 5052

原创 Wide & Deep模型

Wide&Deep的右边就是DNN部分，左边的FM Function用的是线性回归，其特征组合需要人去设计。Wide&Deep模型。它混合了一个线性模型（Wide part）和Deep模型(Deep part)。这两部分模型需要不同的输入，而Wide part部分的输入，依旧依赖人工特征工程。Wide&Deep模型推荐系统和类似的通用搜索排序问题共有的一大挑...

2019-09-11 14:52:12 15797

原创 TensorFlow2总结

Tensor数据类型list: [1,1.2,'hello'] ，内存占用大，处理速度慢 np.array，数据同类型，但不支持GPU和自动求导 tf.Tensor，为了弥补numpy的缺点，为深度学习而生，支持GPU与自动求导 tensor： scalar：标量，1.1，dim = 0 vector：向量，[1.1],[1.1,2.2,...]，dim = 1 matrix:...

2019-07-25 18:49:13 1343

原创 kmeans

import numpy as npdef get_dist(vec1, vec2): # 两个向量之间的欧几里德距离 return np.sqrt(np.sum(np.power(vec1 - vec2, 2)))def rand_cent(dataSet, k): # 返回初始化得到的k个质心向量 n = np.shape(dataSet)...

2019-07-12 19:43:44 227

原创机器学习中的评估指标与损失函数

分类指标模型评估准确率accuracy是指分类正确的样本数与总样本数之比，即。其缺点在于，当样本类别比例非常不均衡时，如正负样本比为1:9，全部预测为负就可以得到90%的准确率。为了解决这个问题，可以使用平均准确率（每个类别样本准确率的算术平均）。精确率和召回率多用于二分类，可结合混淆矩阵进行理解：TP和TN是预测正确的样本，FP和FN是预测错误的样本，TP+TN+FP+FN=...

2019-07-02 11:20:06 12522 1

原创定价项目

项目背景：为保证二手手机的质量，转转对二手手机提供验机服务，用户将手机寄到验机中心，工作人员会对二手手机进行拆机验机，然后根据验机结果，提供一个这款手机可能售出的价格，这个价格有主要有三个用途：验机后给用户提供验机证明和一个参考定价，用户可以在网上自定义价格售卖；用户委托公司在竞拍卖场进行竞拍，该价格乘以一个小于1的系数（如：0.9）得到竞拍的起拍价；竞拍时VIP用户可以自定义起拍...

2019-07-01 22:48:57 1006

原创面试常考算法题补充

二叉树先序遍历的非递归实现：def preOrder(root): if not root: return stack = [root] # 初始化一个栈用于代替递归调用的系统栈 while stack: node = stack.pop() print(node.val) # 因为要先遍历左子树所以要先将...

2019-06-27 09:38:58 330

原创面经

算法面经+春秋招总结（含BAT TM W等）作者：泡了个泡链接：https://www.nowcoder.com/discuss/127357来源：牛客网本人真·末流985软件工程本硕，研究方向推荐系统（但是整个实验室也只有我自己在研究），JCR1区水刊论文一篇，对于机器学习也算是半路出家，从今年一月份才开始系统的学习。经历了惨痛的春招与秋招之后，也积攒了一些面经，希望能对大家...

2019-06-24 16:21:56 6495

原创批量归一化(Batch Normalization)

对输入数据进行标准化处理的原因？使输入数据各个特征的分布相近：神经网络学习的本质就是学习数据的分布，如果训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；在使用小批量数据对神经网络进行训练时，若每批训练数据的分布各不相同，网络在每次迭代都去学习适应不同的分布，这会大大降低网络的训练速度；为什么要使用批量归一化？使用浅层模型时，随着模型训练的进行，当每层中参数更新时，靠近...

2019-06-23 12:00:34 34155 2

原创常见的机器学习优化器

梯度下降最常见的三种变形是BGD，SGD，MBGD，区别是梯度下降时用多少数据来计算目标函数的梯度。批量梯度下降法（Batch Gradient Descent）更新参数时使用所有样本来进行更新。随机梯度下降法（Stochastic Gradient Descent）更新参数时使用一个样本来进行更新。（但平时提到的SGD是指的Mini-batch SGD）。小批量梯度下降法（M...

2019-06-23 11:36:39 1206

原创 CTR预估算法（深层模型）

CTR预估数据特点：输入中包含类别型和连续型数据。类别型数据需要one-hot,连续型数据可以先离散化再one-hot，也可以直接保留原值维度非常高数据非常稀疏特征按照Field分组 CTR预估重点在于学习组合特征。注意，组合特征包括二阶、三阶甚至更高阶的，阶数越高越复杂，越不容易学习。Google的论文研究得出结论：高阶和低阶的组合特征都非常重要，...

2019-06-22 17:45:19 1660 1

原创 Leetcode题解------C++语言实现

283. 移动零// 时间复杂度: O(n)// 空间复杂度: O(n)class Solution {public: // 通过引用的方式传入一个vector类型的数组可以对其进行修改 void moveZeroes(vector<int>& nums) { vector<int> nonZeroE...

2019-06-14 08:34:20 629

原创 FFM及DeepFFM模型及其在推荐系统中的应用

大纲今天我们主要介绍一下，FFM模型和它的深度学习模型版本，以及我们在这个基础上改造的两个模型。首先，介绍大规模推荐系统的整个流程框架和其中一些比较核心的技术点。第二，介绍推荐系统的两大类Rank模型：传统模型和深度学习模型的发展历程和各自的特点。第三，介绍FFM模型的优缺点，针对缺点，提出一个改进的版本，即“双线性FFM模型”。另外，大致介绍，典型的深度学习模型的特点及使用场景。最后，介...

2019-06-09 00:17:43 3848

原创 FFM模型及其在推荐系统中的应用

用FM/FFM模型做召回意味着什么首先，第一个问题是：FM/FFM模型一般是作为典型的Ranking阶段的模型，怎么理解用它来做召回这件事情呢？向上图这么做推荐，就是用一个模型把召回和排序两个阶段的事情全做掉。这也是本文要探讨的另外一个要点。FM/FFM模型用在召回和Ranking这两个不同阶段，差别还是蛮大的。如果是在排序阶段使用FM/FFM或者其他模型，因为此时用户已知，要排序...

2019-06-09 00:15:12 1909 2

原创 FM模型及其在推荐系统中的应用

推荐模型或者推荐场景下的排序模型，您脑子里第一个念头冒出的模型是哪个或哪几个？如果你第一念头冒出来的仍然是SVD／矩阵分解啥的，那么明显你还停留在啃书本的阶段，实践经验不足；如果你第一念头是LR模型或者GBDT模型，这说明你是具备一定实践经验的算法工程师，但是知识更新不足。现在都9102年了，我们暂且把Wide&Deep/DeepFM这些模型抛开不提，因为在大规模场景下想要把深度推荐模...

2019-06-08 17:46:34 6612 5

原创 ctr项目

腾讯2017社交广告比赛https://jiayi797.github.io/2017/06/07/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-CVR-Tencent_CVR%E9%A2%84%E4%BC%B0%E5%88%9D%E8%B5%9B&%E5%A4%8D%E8%B5%9B%E6%80%9D%E8%B7%AF%...

2019-05-26 15:08:04 2130

原创推荐暂存

协同过滤推荐算法总结　　　　推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述　　　　推荐算法是非常古老的，在机器学习还没有兴起的时候就有需求和应用了。概括来说，可以分为以下5种：　　　...

2019-05-18 13:06:53 376

原创机器学习与深度学习模型上线总结

用PMML实现机器学习模型的跨平台上线　　　　在机器学习用于产品的时候，我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型，但是有时候其他的产品和项目想把这个模型集成进去，但是这些产品很多只支持某些特定的生产环境比如Java，为了上一个机器学习模型去大动干戈修改环境配置很不划算，此时我们就可以考虑用预测模型标记语言(Predictive Model Mark...

2019-05-18 12:01:13 2468

原创文本表示

导言文本分类是自然语言处理中研究最为广泛的任务之一，通过构建模型实现对文本内容进行自动分类，有很多应用场景，比如新闻文章主题分类，产品评论情感分类，检索中用户查询的意图分类等等。文本分类的大致流程：文本预处理，抽取文本特征，构造分类器。其中研究最多的就是文本特征抽取，更广义上说是文本表示。关于文本表示，研究者从不同的角度出发，提出大量的文本表示模型。本文重点梳理现有模型，大致分为三类，即基...

2019-05-18 11:32:00 1923

OfficeRegClean.zip

OfficeRegClean清理小工具，可以完美解决安装office2019/2013/2010/2007 64位版本时出现”无法安装64位版本的Office，因为在您的PC上找到了以下32位程序“的问题。

2019-06-15

美团机器学习实践

人工智能技术正以一种超快的速度深刻地改变着我们的生活，引导了第四次工业革命。美团作为国内O2O领域领先的服务平台，结合自身的业务场景和数据，积极进行了人工智能领域的应用探索。在美团的搜索、推荐、计算广告、风控、图像处理等领域，相关的人工智能技术得到广泛的应用。本书包括通用流程、数据挖掘、搜索和推荐、计算广告、深度学习以及算法工程6大部分内容，全面介绍了美团在多个重要方面对机器学习的应用。本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过本书，有经验的算法工程师可以了解美团在这方面的做法，在校大学生可以学习机器学习算法如何在具体的业务场景中落地。

2018-12-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

OfficeRegClean.zip

美团机器学习实践

机器学习实战_基于Scikit-Learn和TensorFlow_王静源

C语言从入门到精通

Keras中文文档

统计学习方法

空空如也