自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 推荐算法岗位面经

目录一、leetcode题二、概率智力题三、算法原理题四、项目问题五、开放性问题六、问面试官的问题七、其他自身相关问题一、leetcode题先升后降得数组,二分法查找; 用随机小数,等概率得返回最大值,转化为二进制映射; 股票买卖时机; 围棋实现; 返回全排列; 树的中序遍历; 找到topK,最大堆排序; 快速排序:递归和非递归的方式; 逆转链表; 三数之和和目标值的最近值; 矩阵的路径、最长递增路径; 连续数组的最大值; 最长公共子序列、最长递增

2021-11-05 15:39:28 546

原创 负采样方式

一、随机负采样二、曝光未点击三、混合负采样四、重要性采样五、有偏采样六、NCE采样参考:[mixed negative sampling] Mixed Negative Sampling for Learning Two-tower Neural Networks in Recommendations(2020) [Youtube] Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recomme

2021-10-27 17:55:17 1856 2

原创 数据预处理方法综述

一、标准化1、定义:对样本集的每个特征列减去该特征列均值进行中心化,再除以标准差进行缩放。2、作用:为了避免某一个动态范围过大的特征列对计算结果造成影响,同时还可以提升模型精度。3、代码实现:importnumpyasnpfromsklearnimportpreprocessingasppd=np.array([[1.,-5.,8.],[2.,-3.,0.],[0.,-1.,1.]])d_scaled=pp.scale(d)#...

2021-10-21 14:35:17 383 1

原创 推荐系统 & 神经网络常用代码实现

目录一、attention模块二、三层全连接网络三、Swing四、FM五、手写Kmeans六、word2vec 编解码层一、attention模块def attention(queries, keys, keys_length): ''' queries: [B, H] keys: [B, T, H] keys_length: [B] ''' queries_hidden_units = queri

2021-10-21 11:23:05 1156

原创 聚类方法综述

一、K-means聚类1、算法原理:2、优点:3、问题:4、参数说明:5、核心代码:二、层次聚类1、算法原理:2、优点:3、问题:4、参数说明:5、核心代码:三、密度聚类1、算法原理:2、优点:3、问题:4、参数说明:5、核心代码:参考:【1】聚类分析:k-means和层次聚类 - 简书【2】常用聚类算法 - 知乎【3】...

2021-10-21 10:25:46 930

原创 特征选择方法

目录一、特征选择的目的二、特征选择的方法三、特征相关性的计算方法四、对过多特征的数据的处理方法一、特征选择的目的1、简化模型,去除冗余和不相关的特征会降低学习任务的难度,模型可解释性更强;2、改善性能,节省空间和计算开销;3、降低过拟合风险,减轻维数灾难;二、特征选择的方法1、过滤法:先对数据集进行特征选择,其过程与后续学习器无关,即设计一些统计量来过滤特征,并不考虑后续学习器问题。如方差选择、卡方检验、互信息;优点:不依赖于任何机器学习方法,不需要交叉验证,

2021-10-12 15:34:29 136

原创 Tensorflow框架与常用函数

一、Tensorflow框架二、Tensorflow常用函数三、与Pytorch对比四、其他框架PaddlePaddleCaffe

2021-10-06 01:08:46 265

原创 推荐系统——过滤与去重策略

BloomFilter

2021-10-05 12:04:17 965

原创 广告推荐、视频推荐、电商推荐的异同

一、视频推荐二、电商推荐三、广告推荐

2021-10-05 10:55:08 565 1

原创 推荐系统——排序算法综述

常见排序算法有:

2021-10-05 09:40:11 1787 1

原创 推荐系统——数据库技术栈

一、HBase二、Hive三、Hadoop四、SQL

2021-10-04 11:47:32 1435

原创 推荐系统——引擎技术栈

目前平台所采用的引擎策略有:

2021-10-04 11:05:27 325

原创 推荐系统——召回策略中的融合

一、多路召回的融合策略二、长短混推三、多模态数据的融合利用

2021-10-03 09:47:38 1567 1

原创 热门物品的推荐策略

目前针对热门视频的推荐策略有:一、新热视频流量爬坡二、过热打压

2021-10-03 09:43:59 200

原创 PUGC作者维度的推荐策略

目前作者维度的推荐策略主要有:一、作者倒排二、优质pugc作者筛选,加入协同过滤的评分中三、作为物品特征/用户特征,用于模型训练四、作者维度的兴趣探索

2021-10-03 09:39:19 168

原创 物品冷启动策略

目前采用的物品冷启动策略,也即新视频召回策略有:特征交叉模型召回新视频新热视频流量爬坡关注作者倒排look alike模型标题textsimword2vec模型

2021-10-02 23:13:18 252

原创 用户冷启动策略

用户冷启动目前采用的召回策略主要有:短视频:实时协同embedding召回离线实体词画像:kis、实时标签、类别倒排长视频L2S冷启动_kis搜索默认列表冷启动_长推短兴趣探索VRS片花用户搜索源站作者ctrpgc协同冷过 / 热过用户:实时协同离线协同长视频L2S兴趣探索(标签+作者)pgc协同运营配置:VRS片花、暑期剧长视频:长视频搜索长视频内容分发用户固有特征召回长视频运营热点短视频k

2021-10-02 23:01:46 1730

原创 DUL模型详解——代码+原理——Data Uncertainty Learning

一、背景二、原理三、模型结构四、核心代码五、效果和优缺点参考:【1】旷视研究院提出数据不确定性算法 DUL,优化人脸识别性能 - 知乎【2】【ICCV2019】probabilistic face embeddings 概率人脸嵌入_木盏-CSDN博客【3】http://openaccess.thecvf.com/content_ICCV_2019/papers/Shi_Probabilistic_Face_Embeddings_ICCV_2019_p

2021-09-28 12:00:18 1061 1

原创 推荐系统树模型

一、传统树模型二、二叉搜索树BST三、深度树模型1、TDM2、TEM参考:

2021-09-26 15:14:10 657

原创 流量分发机制

一、背景二、原理三、实现四、效果参考:【1】短视频的流量分发机制 - 知乎【2】电商平台商家流量分配机制算法 - 知乎

2021-09-26 15:11:33 1511

原创 数据增强方法

一、文本数据增强方法随机drop和shuffle drop:对于标题和描述中的字或词,随机的进行删除,用空格代替。另一种是 shuffle, 即打乱词序。 对于"如何评价 2017 知乎看山杯机器学习比赛?" 这个问题,使用 drop 对词层面进行处理之后,可能变成"如何 2017 看山杯机器学习 “. 如果使用 shuffle 进行处理,数据就 可能变成"2017 机器学习?如何比赛知乎评价看山杯”。 数据 增强对于提升训练数据量,抑制模型过拟合等十分有效.code:https://githu

2021-09-26 14:10:56 231

原创 文本分类算法

一、词袋模型二、机器学习分类器三、FastText四、TextCNN五、TextRNN六、Bert

2021-09-26 09:38:12 149

原创 推荐系统整体架构

推荐系统总体架构图:核心为特征数据和算法引擎两部分。1、特征数据分为离线特征和实时特征;离线数据通常通过一些分布式数据库来实现数据部署,例如ES和MongoDB;实时数据通过流式计算相关计算,例如通过Kafka的流平台,使用Spark Streaming、Flink、Storm来进行流式计算,考虑到实时性和吞吐量,存储方式可以直接使用Redis这类缓存存储来实现;2、算法引擎(1)召回从海量数据中快速拿到数百量级的数据,需要具备高并发和快召回的特点;(2)

2021-09-26 09:37:45 91

原创 神经网络梯度、反向传播相关问题

1、梯度消失的原因由于反向传播机制,若损失函数梯度小于1,就会发生梯度消失;反之则会发生梯度爆炸;两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。...

2021-09-26 00:07:31 605

原创 wide & deep系模型

1、wide &deep2、deep crossing3、DCN4、DCN v2

2021-09-25 09:30:41 275

原创 推荐系统——通用召回模版

推荐算法发展至今,从协同到FM /word2vec embedding,再到用各种图结构、树结构、序列结构去对数据建模,再到当前大热的多兴趣模型、attention机制,目前市面上可以找到的算法已经非常多了,但很多算法之间其实差别并不大,基本上可以用几个发展脉络将这繁多的算法串联起来,从而用一套通用的模板,将推荐系统的所有算法囊括起来。本文将从推荐系统数据生成开始,到生成召回结果的全过程,逐个模块进行分解,梳理出推荐算法的整个流程。实际上各种推荐模型也就是这些模块选择了不同方法的组合而已。希望能从宏观角度对

2021-09-16 16:35:36 122

原创 21种可用于拟合数据的分布函数及其互似然分数的推导过程

2021-09-16 16:31:33 481

原创 协同过滤及其优化

1.itemCF2.userCF3.PDN

2021-09-16 12:09:33 444

原创 机器过审服务的实现

在视频推荐系统中,用户上传的视频一般都会先通过审核,然后再由运营精编,之后才是过召回排序等算法模型。由于每天上传视频的数量巨大,全由人工进行审核会耗费大量人力,且人工审核的标准容易浮动,由此催生出机器审核的需求。针对视频常见的不推荐原因,我实现了以下几类视频的过滤,准确率均在88%以上:视频不推荐原因:视频马赛克、视频模糊、视频四黑边、视频ppt;封面不推荐原因:封面马赛克、封面模糊、封面四黑边;标题不推荐原因:标题不通顺、标题特殊字符;所用到的算法有:1、CNN;2、S

2021-09-01 10:17:39 106 2

原创 算法题——剑指offer

1、二进制中1的个数### 题目描述输入一个整数,输出该数二进制表示中1的个数。其中负数用补码表示。### 思路如果n!=0,n的二进制中至少有一个1- 如果1在最低位,n-1 & n得到的数正好将这个1,变成0- 如果1不在最低位,n-1 & n得到的数正好将这个1,变成0因此我们判断n-1 & n能够循环运行的次数就可以判断二进制中有多少个1了。在python中需要使用c_int()函数不然负数不会变成0.from ctypes import

2021-08-16 16:50:58 103

原创 推荐系统算法常见问题

参考:【1】https://blog.csdn.net/weixin_38664232/article/details/89948373【2】https://blog.csdn.net/weixin_38664232/article/details/89975716【3】https://blog.csdn.net/zhongqiqianga/article/details/102760951【4】https://zhuanlan.zhihu.com/p/82105066【...

2021-08-16 10:48:07 712

原创 Attention——Transformer——Bert——FineTuning——Prompt

一、Attention机制1、计算attention公式 以及为什么要➗dk二、Transformer模型1、transformer encoder/decoder2、transformer encoder 与 GRU区别三、Bert模型四、Fine-Tuning微调五、Prompt

2021-08-11 16:08:29 1014 1

原创 机器学习算法——手推公式

1.LR

2021-08-09 15:08:07 622

原创 推荐系统工程实践经验

一、工程实现1、如何ABtest2、如何冷启动3、推荐系统的整体架构:召回-粗排-精排-重排4、如何快速召回,embedding + 局部敏感哈希5、给定业务场景,根据用户什么属性做推荐二、实践经验参考:【1】https://zhuanlan.zhihu.com/p/23847246...

2021-08-06 11:56:32 360 1

原创 youtubeDNN及其优化

1.youtubeDNN2.双塔模型

2021-08-03 15:30:09 684 2

原创 传统机器学习算法

LR:原理、优势、局限性 SVM:算法原理、KKT条件的意义、拉格朗日对偶问题、损失函数 GBDT:算法原理、损失函数、树如何分裂 XGB对比传统GBDT的优点、二阶泰勒展开的是啥、正则项是啥 LightGBM对比传统GBDT的优点 XGB如何输出分类树的结果 XGB如何调参 min_child_weight 干嘛的 随机森林和XBG区别...

2021-08-03 15:09:01 1958

原创 机器学习优化算法

1.批量梯度下降 BGD在每一次迭代时使用所有样本来进行梯度的更新优点:  (1)一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行。  (2)由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优。缺点:  (1)当样本数目mm很大时,每迭代一步都需要对所有样本计算,训练过程会很慢。2.随机梯度下降 SGD每次迭代使用一个样本来对参数进行更新。使得训练速度加快。优点:  (1)由于不是在全部...

2021-08-02 20:02:28 463

原创 深度学习推荐系统演化过程

1.协同过滤2.embedding召回3.多兴趣召回4.Graph embedding5.长短期序列建模6.深度树TDM模型参考:【1】https://www.infoq.cn/article/0gMqHYrh0gUrukaP92U1【2】

2021-07-28 15:03:29 226 1

原创 word2vec及其优化

1.word2vec2.item2vec3.topic2vec4.wav2vec

2021-07-28 14:56:12 1538 1

原创 向量相似度度量及近邻检索方法

1.Faiss实现方法:工程效果:样例代码:2.vearch3.hnsw4.KD Tree、Ball Tree5.jira6.Proxima7.milvus

2021-07-28 14:20:42 976

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除