码一码码码-CSDN博客

原创推荐算法岗位面经

目录一、leetcode题二、概率智力题三、算法原理题四、项目问题五、开放性问题六、问面试官的问题七、其他自身相关问题一、leetcode题先升后降得数组，二分法查找；用随机小数，等概率得返回最大值，转化为二进制映射；股票买卖时机；围棋实现；返回全排列；树的中序遍历；找到topK，最大堆排序；快速排序：递归和非递归的方式；逆转链表；三数之和和目标值的最近值；矩阵的路径、最长递增路径；连续数组的最大值；最长公共子序列、最长递增

2021-11-05 15:39:28 546

原创负采样方式

一、随机负采样二、曝光未点击三、混合负采样四、重要性采样五、有偏采样六、NCE采样参考：[mixed negative sampling] Mixed Negative Sampling for Learning Two-tower Neural Networks in Recommendations（2020） [Youtube] Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recomme

2021-10-27 17:55:17 1856 2

原创数据预处理方法综述

一、标准化1、定义：对样本集的每个特征列减去该特征列均值进行中心化，再除以标准差进行缩放。2、作用：为了避免某一个动态范围过大的特征列对计算结果造成影响，同时还可以提升模型精度。3、代码实现：importnumpyasnpfromsklearnimportpreprocessingasppd=np.array([[1.,-5.,8.],[2.,-3.,0.],[0.,-1.,1.]])d_scaled=pp.scale(d)#...

2021-10-21 14:35:17 383 1

原创推荐系统 & 神经网络常用代码实现

目录一、attention模块二、三层全连接网络三、Swing四、FM五、手写Kmeans六、word2vec 编解码层一、attention模块def attention(queries, keys, keys_length): ''' queries: [B, H] keys: [B, T, H] keys_length: [B] ''' queries_hidden_units = queri

2021-10-21 11:23:05 1156

原创聚类方法综述

一、K-means聚类1、算法原理：2、优点：3、问题：4、参数说明：5、核心代码：二、层次聚类1、算法原理：2、优点：3、问题：4、参数说明：5、核心代码：三、密度聚类1、算法原理：2、优点：3、问题：4、参数说明：5、核心代码：参考：【1】聚类分析：k-means和层次聚类 - 简书【2】常用聚类算法 - 知乎【3】...

2021-10-21 10:25:46 930

原创特征选择方法

目录一、特征选择的目的二、特征选择的方法三、特征相关性的计算方法四、对过多特征的数据的处理方法一、特征选择的目的1、简化模型，去除冗余和不相关的特征会降低学习任务的难度，模型可解释性更强；2、改善性能，节省空间和计算开销；3、降低过拟合风险，减轻维数灾难；二、特征选择的方法1、过滤法：先对数据集进行特征选择，其过程与后续学习器无关，即设计一些统计量来过滤特征，并不考虑后续学习器问题。如方差选择、卡方检验、互信息；优点：不依赖于任何机器学习方法，不需要交叉验证，

2021-10-12 15:34:29 136

原创 Tensorflow框架与常用函数

一、Tensorflow框架二、Tensorflow常用函数三、与Pytorch对比四、其他框架PaddlePaddleCaffe

2021-10-06 01:08:46 265

原创推荐系统——过滤与去重策略

BloomFilter

2021-10-05 12:04:17 965

原创广告推荐、视频推荐、电商推荐的异同

一、视频推荐二、电商推荐三、广告推荐

2021-10-05 10:55:08 565 1

原创推荐系统——排序算法综述

常见排序算法有：

2021-10-05 09:40:11 1787 1

原创推荐系统——数据库技术栈

一、HBase二、Hive三、Hadoop四、SQL

2021-10-04 11:47:32 1435

原创推荐系统——引擎技术栈

目前平台所采用的引擎策略有：

2021-10-04 11:05:27 325

原创推荐系统——召回策略中的融合

一、多路召回的融合策略二、长短混推三、多模态数据的融合利用

2021-10-03 09:47:38 1567 1

原创热门物品的推荐策略

目前针对热门视频的推荐策略有：一、新热视频流量爬坡二、过热打压

2021-10-03 09:43:59 200

原创 PUGC作者维度的推荐策略

目前作者维度的推荐策略主要有：一、作者倒排二、优质pugc作者筛选，加入协同过滤的评分中三、作为物品特征/用户特征，用于模型训练四、作者维度的兴趣探索

2021-10-03 09:39:19 168

原创物品冷启动策略

目前采用的物品冷启动策略，也即新视频召回策略有：特征交叉模型召回新视频新热视频流量爬坡关注作者倒排look alike模型标题textsimword2vec模型

2021-10-02 23:13:18 252

原创用户冷启动策略

用户冷启动目前采用的召回策略主要有：短视频：实时协同embedding召回离线实体词画像：kis、实时标签、类别倒排长视频L2S冷启动_kis搜索默认列表冷启动_长推短兴趣探索VRS片花用户搜索源站作者ctrpgc协同冷过 / 热过用户：实时协同离线协同长视频L2S兴趣探索（标签+作者）pgc协同运营配置：VRS片花、暑期剧长视频：长视频搜索长视频内容分发用户固有特征召回长视频运营热点短视频k

2021-10-02 23:01:46 1730

原创 DUL模型详解——代码+原理——Data Uncertainty Learning

一、背景二、原理三、模型结构四、核心代码五、效果和优缺点参考：【1】旷视研究院提出数据不确定性算法 DUL，优化人脸识别性能 - 知乎【2】【ICCV2019】probabilistic face embeddings 概率人脸嵌入_木盏-CSDN博客【3】http://openaccess.thecvf.com/content_ICCV_2019/papers/Shi_Probabilistic_Face_Embeddings_ICCV_2019_p

2021-09-28 12:00:18 1061 1

原创推荐系统树模型

一、传统树模型二、二叉搜索树BST三、深度树模型1、TDM2、TEM参考：

2021-09-26 15:14:10 657

原创流量分发机制

一、背景二、原理三、实现四、效果参考：【1】短视频的流量分发机制 - 知乎【2】电商平台商家流量分配机制算法 - 知乎

2021-09-26 15:11:33 1511

原创数据增强方法

一、文本数据增强方法随机drop和shuffle drop：对于标题和描述中的字或词,随机的进行删除,用空格代替。另一种是 shuffle, 即打乱词序。对于"如何评价 2017 知乎看山杯机器学习比赛?" 这个问题,使用 drop 对词层面进行处理之后,可能变成"如何 2017 看山杯机器学习 “. 如果使用 shuffle 进行处理,数据就可能变成"2017 机器学习?如何比赛知乎评价看山杯”。数据增强对于提升训练数据量,抑制模型过拟合等十分有效.code：https://githu

2021-09-26 14:10:56 231

原创文本分类算法

一、词袋模型二、机器学习分类器三、FastText四、TextCNN五、TextRNN六、Bert

2021-09-26 09:38:12 149

原创推荐系统整体架构

推荐系统总体架构图：核心为特征数据和算法引擎两部分。1、特征数据分为离线特征和实时特征；离线数据通常通过一些分布式数据库来实现数据部署，例如ES和MongoDB；实时数据通过流式计算相关计算，例如通过Kafka的流平台，使用Spark Streaming、Flink、Storm来进行流式计算，考虑到实时性和吞吐量，存储方式可以直接使用Redis这类缓存存储来实现；2、算法引擎（1）召回从海量数据中快速拿到数百量级的数据，需要具备高并发和快召回的特点；（2）

2021-09-26 09:37:45 91

原创神经网络梯度、反向传播相关问题

1、梯度消失的原因由于反向传播机制，若损失函数梯度小于1，就会发生梯度消失；反之则会发生梯度爆炸；两种情况下梯度消失经常出现，一是在深层网络中，二是采用了不合适的损失函数，比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。...

2021-09-26 00:07:31 605

原创 wide & deep系模型

1、wide &deep2、deep crossing3、DCN4、DCN v2

2021-09-25 09:30:41 275

原创推荐系统——通用召回模版

推荐算法发展至今，从协同到FM /word2vec embedding，再到用各种图结构、树结构、序列结构去对数据建模，再到当前大热的多兴趣模型、attention机制，目前市面上可以找到的算法已经非常多了，但很多算法之间其实差别并不大，基本上可以用几个发展脉络将这繁多的算法串联起来，从而用一套通用的模板，将推荐系统的所有算法囊括起来。本文将从推荐系统数据生成开始，到生成召回结果的全过程，逐个模块进行分解，梳理出推荐算法的整个流程。实际上各种推荐模型也就是这些模块选择了不同方法的组合而已。希望能从宏观角度对

2021-09-16 16:35:36 122

空空如也

空空如也