自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(205)
  • 收藏
  • 关注

原创 PLE详解

在做多目标建模的时候,摆在我们面前的主要在于各个任务的损失函数如何权衡baseline最简单的做法就是人工经验给每个任务分配一个权重系数,也就是其中n代表任务个数优点:简单,易懂缺点:对人工经验要求较高,需要多次人工尝试调参才能达到最佳效果这样做主要有这么几个问题不同任务的Loss差异非常大,如果某个任务的Loss比其他几个任务的Loss大一个量级,其实多任务学习就演变成单任务学习不同任务的梯度变化不同,有些任务参数更新快,有些任务参数更新慢。

2023-04-11 20:15:47 1428

原创 双塔模型实践

本文是我和双塔模型死磕了6个月之后的心得体会。如前文所述,双塔分离,既是保障线上快速serving、以适应召回+粗排场景的优点,也是不能使用交叉特征与结构、导致两侧信息交叉过晚、制约模型表达能力的最大缺点。user&item两侧信息交叉得太晚,等到最终能够通过dot或cosine交叉的时候,user & item embedding已经高度浓缩,一些细粒度的信息已经在塔中被损耗,永远失去了与对侧信息交叉的机会。为了克服这一缺点,业界同仁设计出许多改进方案。

2023-04-11 20:01:05 1193

原创 MMOE——多任务学习模型

近年来,深度神经网络模型已成功应用于许多现实世界的大规模应用,如推荐系统。这样的推荐系统通常需要同时优化多个目标。例如,在向用户推荐电影时,我们可能希望用户不仅购买并观看电影,还希望他们在观看后喜欢上电影,这样他们就会回来看更多的电影。也就是说,我们可以创建模型来同时预测用户的购买和他们的评级。

2023-04-05 17:05:59 1150

原创 0-1背包的四种解法

有句老话说得好,学会了0-1背包就学会了算法。本篇博客就来盘点一下0-1背包的4中常见解法。动态规划法既然要用动态规划法解0-1背包问题,就要能满足动态规划的两个特性:具有重叠子问题。具有最优子结构性。这两点应该很容易就可以看出,这里就不做过多赘述了。直接来看关键,之前说过,动态规划的本质就是填表,而解动态规划问题的关键是找出动态转移方程,一旦找出动态转移方程,就可以用方程把整个表都填满了。这里直接给出动态转移方程V(i, j)表示在前i(1≤i≤n)个物品中能够装入容量为j(1≤j≤C

2021-11-27 22:11:26 12900 3

原创 买房看风水

人人都希望挑得一所风水好的房子来居住,但却不知应该如何选择。各位在购楼时,应该先在房屋周围巡视一番,看看附近的环境是否有缺陷。首先,应该注意风势。倘若发觉房屋附近风大,十分急劲,那便不宜选购了,因为即使那房屋真的有旺气凝聚,也会被疾风吹散。其次,阳光充足。阳宅风水最讲究阳光、空气,所以选择房屋居住,非但要空气清爽,而且还要阳光充足,若是阳光不足的房屋,便往往阴气过重,会导致家宅不宁,实在不宜居住。再次,中心受污不宜。这是指房屋的中部不宜用作厕所,否则便有如人的心脏堆积废物,那便自然是凶多吉少了。

2024-04-06 09:40:09 829

原创 住宅装饰与风水

我们常说:眼睛是心灵之窗。屋子的窗户就如同人类的眼睛一般,在家中扮演着不可或缺的角色。空气与阳光是人类赖以维持生命的要素,是活力与生气之源,如果长期呼吸不到新鲜的空气或处于光线幽暗的环境之中,则容易生病或精神不济,所以说空气和光线影响居住的品质,如果天花板太低,四处封闭无窗、空气不流通、光线幽暗、室内潮湿,不论方位再好,也难以企求平安健康。能够给予平安健康的住宅,一定是空气光线充足的住宅,所以屋子一定要装设窗子,而窗户的设计并非越大越好,必须以保证屋内空气的对流为重点考虑因素。也就是说装设的窗户要能够使得新

2024-04-05 19:19:25 830

原创 诗词的格律

从格律上看,诗可分为古体诗和近体诗。古体诗又称古诗或古风;近体诗又称今体诗。从字数上看,有四言诗,五言诗,七言诗.唐代以后,四言诗很少见了,所以一般诗集只分为五言、七言两类。

2024-04-03 14:26:15 120

原创 厨房、饭厅、厕所的注意事项

厕所常关,或厕所门口挂珠帘来解化,若厕所常关,则厕所内的秽气应以抽风机或另有小窗以排除。厕所与浴室犹如人的腹、肠、胃,也代表着健康,清洁、卫生、漂亮、整洁的厕所与浴室象征着人的元气充溢,所以宅院的厕所与浴室在设计上要顺与盈。而现代瓦斯炉,根本没有灶口,只有往上烧,如果不以智慧去思考判断,继续拿古法来使用,则是大错特错。厕所的位置在居家风水中,是十分重要的,若是将房屋的平面九等分,位于正中那一块为家中“中宫”,居家厕所的位置不能在“中宫”上,即所谓的“厕占中宫”,对家中的财运与家人身体都不好。

2024-04-01 17:01:41 278

原创 老人房、儿童房、书房的注意事项

人的衰老是一种长期的自然过程。这一过程贯穿人的一生。由于衰老是不可避免的,因此我们只能寻找各种方法来延缓衰老的过程,使人体在进入老龄后仍能保留年轻机体所特有的生理机能。现代风水最注重气,因为气不仅密切关系着人的吉凶祸福、智能发挥、事业成败、财运机缘,而且关系着每个人的家庭幸福、身体健康。有些人长寿,有些人早逝;有的国家人口平均寿命较高,而有些较低,造成这种差距的原因很多,风水环境是其中重要的原因之一。老人房应以清幽守静为主。

2024-03-28 08:07:09 459

原创 卧室的注意事项

人的一生有一半是在卧室里度过的,所以卧室是家庭的主室、中枢。其设计主导思想是:卧室应是男女主人爱情的春天,所以主调应该舒适宁静、和平,利于休息。选择居室以环境宁静为原则。睡眠时不受干扰,身心安宁健康,从而婚姻家庭幸福,子女有缘,家运大畅。

2024-03-26 10:57:38 657

原创 客厅的注意事项

客厅是全家人聚会、公共活动的中心,是与外界交流的场所。它决定着家庭关系和社会关系,决定着事业的拓展。它的设计主导思想是和、福。一般公寓住家也兼为起居室来用。故对内是家人休闲聚会之处,甚至居全宅活动的中心;对外更具备了接待客人的功能。因此,客厅整体格局宜清雅和平稳,并具有活力。

2024-03-25 13:44:10 369

原创 大门的选取

门,是个体家庭与外界社会的区隔,也是家庭的脸面。家庭的个性、智慧、经历、前程追求都会反映在脸面上。门是一间居宅进出的场所,也是纳气的地方,极为重要,许多吉凶祸福都在此决定。因此,前人在总结门对房屋风水的重要性时说:千金大门四两屋。中国风水古籍对大门的方位、形状、颜色、尺寸有着严格的规定。

2024-03-24 20:11:54 688

原创 MP中的常用注解

TableId:专门给主键使用进行映射。

2023-06-08 16:47:42 289

原创 myBatis-plus之CRUD

根据 Wrapper 条件,查询全部记录。根据 Wrapper 条件,查询全部记录(并翻页)根据 entity 条件,查询全部记录(并翻页)根据 whereEntity 条件,更新记录。根据 Wrapper 条件,查询全部记录。根据 Wrapper 条件,查询总记录数。根据 columnMap 条件,删除记录。根据 entity 条件,查询一条记录。根据 entity 条件,查询全部记录。查询(根据 columnMap 条件)根据 entity 条件,删除记录。查询(根据ID 批量查询)

2023-06-07 17:22:13 798

原创 MyBatis

注:我出的答:虽然 MyBatis 解析 xml 映射文件是按照顺序解析的,但是,被引用的 B 标签依然可以定义在任何地方,MyBatis 都可以正确识别。原理是,MyBatis 解析 A 标签,发现 A 标签引用了 B 标签,但是 B 标签尚未解析到,尚不存在,此时,MyBatis 会将 A 标签标记为未解析状态,然后继续解析余下的标签,包含 B 标签,待所有标签解析完毕,MyBatis 会重新解析那些被标记为未解析的标签,此时再解析 A 标签时,B 标签已经存在,A 标签也就可以正常解析完成了。

2023-05-22 21:12:54 438

原创 springMVC

MVC 是模型(Model)、视图(View)、控制器(Controller)的简写,其核心思想是通过将业务逻辑、数据、显示分离来组织代码。网上有很多人说 MVC 不是设计模式,只是软件设计规范,我个人更倾向于 MVC 同样是众多设计模式中的一种。Spring MVC 是当前最优秀的 MVC 框架。相比于 Struts2 , Spring MVC 使用更加简单和方便,开发效率更高,并且 Spring MVC 运行速度更快。

2023-05-21 19:15:24 633

原创 JAVA IO 模型详解

I/O(Input/Outpu) 即输入/输出 。从计算机结构的视角来看的话, I/O 描述了计算机系统与外部设备之间通信的过程。从应用程序的视角来看的话,我们的应用程序对操作系统的内核发起 IO 调用(系统调用),操作系统负责的内核执行具体的 IO 操作。也就是说,我们的应用程序实际上只是发起了 IO 操作的调用而已,具体 IO 的执行是由操作系统的内核来完成的。当应用程序发起 I/O 调用后,会经历两个步骤:(1)内核等待 I/O 设备准备好数据(2)内核将数据从内核空间拷贝到用户空间。BIO

2023-04-28 09:39:15 949

原创 JAVA基础

Java 中有 8 种基本数据类型,分别为:6 种数字类型: 4 种整数型:byte、short、int、long2 种浮点型:float、double1 种字符类型:char1 种布尔型:boolean。

2023-04-26 21:32:21 1130 1

原创 注意力机制在推荐模型中的应用——DIN

DIN 模型的应用场景是阿里最典型的电商广告推荐, DIN 模型本质上是一个点击率预估模型。

2023-04-05 16:43:27 339

原创 交互式推荐在美团的实现

交互式推荐是一种互动式实时推荐产品模块,主要通过理解用户需求、以互动的方式进行推荐。交互式推荐由Youtube在2018年提出,主要用于解决推荐系统的延迟和与用户互动偏弱的问题。从2021年下半年开始,美团外卖推荐技术团队在外卖首页Feed上持续进行探索,2022上半年完成全量。具体流程:用户从首页Feed进入商家详情页并退出之后,动态地插入新的推荐内容到用户推荐列表中。其主要优势是根据用户的实时需求动态插入卡片进行反馈,进而增强用户的使用体验。

2023-03-27 14:26:55 636

原创 GraphSAGE论文精读

我们提出了一个通用的框架,称为GraphSAGE(样本和聚合),用于归纳节点嵌入。与基于矩阵分解的嵌入方法不同,我们利用节点特征(例如,文本属性、节点概要信息、节点度)来学习一个将不可见节点泛化的嵌入函数。通过在学习算法中引入节点特征,我们同时学习了每个节点的邻域的拓扑结构以及节点特征在邻域中的分布情况。虽然我们关注特征丰富的图(例如,具有文本属性的引文数据,具有功能/分子标记的生物数据),但我们的方法也可以利用所有图中出现的结构特征(例如,节点度)。因此,我们的算法也可以应用于没有节点特征的图。

2023-03-21 10:44:03 403

原创 Tensorflow常用API

import 相关模块,如 import tensorflow as tf。

2023-02-21 20:24:43 470

原创 GBDT+LR

仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。FFM特征交叉能力有限:虽然 FFM 模型采用引入特征域的方式增强了模型的特征交叉能力,只能做二阶的特征交叉,如果继续提高特征交叉的维度,会不可避免地产生组合爆炸和计算复杂度过高的问题。表达能力不强, 无法进行特征交叉, 特征筛选等一系列“高级“操作(这些工作都得人工来干, 这样就需要一定的经验, 否则会走一些弯路), 因此可能造成信息的损失。

2023-02-13 13:09:00 302

原创 LS-PLM

LS-PLM是阿里巴巴曾经的主流推荐模型 “大规模分段线性模型”(Large Scale Piece-wise Linear Model,以下 简称LS-PLM)。早在2012年,它就是阿里巴巴主流的推荐模型,并在深度学习模型提出之前长时间应用于阿里巴巴的各类广告场景。

2022-12-12 20:03:54 365

原创 协同过滤CF

UserCF的核心思想是人以群分,现在我们得到了用户的向量表示,那么计算用户i和用户j的相似度问题,就是计算用户向量i和用户向量y之间的相似度,两个向量之间常用的相似度计算方法有余弦相似度、皮尔逊相关系数、欧氏距离等。以上介绍的协同过滤算法基于用户相似度进行推荐,因此也被称为基于用户的协同过滤(UserCF ),它符合人们直觉上的“兴趣相似的朋友喜欢的物品, 也喜欢”的思想,但从技术的角度,它也存在一些缺点,主要包括以下两点。对相似物品集合中的物品,利用相似度分值进行排序,生成最终的推荐列表。

2022-12-12 18:04:33 389

原创 Linux常用命令总结

(1)用户目录:位于/home/user,称之为用户工作目录;(2)ls:是英文单词list的简写,其功能为列出目录的内容;ls -a 列出隐藏文件,文件中以开头的均为隐藏文件,如:~/.bashrcls -l 列出文件的详细信息ls -R 连同子目录中的内容起列出​(3)cd:change dir 改变当前所在路径,使用“cd”命令跳转到相应目录。使用时要确认后面的目标目录是否存在。比如:cd file1;cd file1/file2;cd …(返回上一级目录);cd(返回根目录)(4)whi

2022-12-05 11:04:26 456

原创 TF-IDF详解

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很

2022-12-05 10:34:56 698

原创 SPARK数据分析

重点回顾今天这一讲,我们主要围绕数据的生命周期,学习了 Spark SQL 在不同数据阶段支持的处理算子,如下图所示图中涉及的算子很多,尽管大部分我们都举例讲过了,但要在短时间之内一下子掌握这么多内容,确实强人所难。不过,你不用担心,今天这一讲,最主要的目的,还是想让你对 Spark SQL 支持的算子有一个整体的把握。至于每个算子具体是用来做什么的,在日后的开发工作中,你可以反复地翻看这一讲,结合实践慢慢地加深印象,这样学习更高效。我也强烈建议你空闲时把官网的。

2022-11-28 20:18:08 1973

原创 如何入门spark

第一步,我们需要掌握 Spark 常用的开发 API 与开发算子。毕竟,通过这些 API 与开发算子,我们才能启动并驱使 Spark 的分布式计算引擎。接着,我们必须要深入理解它的工作原理。第三步,我们需要了解并熟悉 Spark 不同的计算子框架(Spark SQL、Spark MLlib 和 Structured Streaming),来应对不同的数据应用场景,比如数据分析、机器学习和流计算。

2022-11-28 16:30:06 1137

原创 使用SPARK进行特征工程

在机器学习领域,有一条尽人皆知的“潜规则”:Garbage in,garbage out。它的意思是说,当我们喂给模型的数据是“垃圾”的时候,模型“吐出”的预测结果也是“垃圾”。垃圾是一句玩笑话,实际上,它指的是不完善的特征工程。特征工程不完善的成因有很多,比如数据质量参差不齐、特征字段区分度不高,还有特征选择不到位、不合理,等等。作为初学者,我们必须要牢记一点:特征工程制约着模型效果,它决定了模型效果的上限,也就是“天花板”。而模型调优,仅仅是在不停地逼近这个“天花板”而已。因此,提升模型效果的第一步,就

2022-11-28 15:56:45 1734

原创 回溯框架总结

其实回溯算法和我们常说的 DFS 算法非常类似,本质上就是一种暴力穷举算法。回溯算法和 DFS 算法的细微差别是:回溯算法是在遍历「树枝」,DFS 算法是在遍历「节点」,本文就是简单提一下,等你看到后文图论算法基础 时就能深刻理解这句话的含义了。废话不多说,直接上回溯算法框架,解决一个回溯问题,实际上就是一个决策树的遍历过程,站在回溯树的一个节点上,你只需要思考 3 个问题:1、路径:也就是已经做出的选择。2、选择列表:也就是你当前可以做的选择。

2022-11-26 21:04:26 693

原创 动态规划做题总结

动态规划的本质是填表,自底向上的完成DP数组的构建。难点在于DP数组的定义以及状态转移方程的构建。

2022-11-19 19:14:52 83

原创 三种常见的特征选择方法

特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。

2022-11-15 15:07:53 6528

原创 Spark、Filnk简单介绍

作为业界主流的大数据处理利器,Spark 的地位毋庸置疑。所以,今天我先带你了解一下 Spark 的特点,再一起来看怎么用 Spark 处理推荐系统的特征。Spark 是一个分布式计算平台。所谓分布式,指的是计算节点之间不共享内存,需要通过网络通信的方式交换数据。Spark 最典型的应用方式就是建立在大量廉价的计算节点上,这些节点可以是廉价主机,也可以是虚拟的 Docker 容器。理解了 Spark 的基本概念,我们来看看它的架构。

2022-11-12 16:11:05 893

原创 推荐系统的数据流

动辄TB乃至PB级別的训练数据,让推荐系统的数据流必须和大数据处理与存储的基础设施紧密结合,才能完成推荐系统的高效训练和在线预估。大数据平台的发展经历了从批处理到流计算再到全面融合进化的阶段。架构模式的不断发展带来的是数据处理实时性和灵活性的大幅提升。按照发展的先后顺序,大数据平台主要有批处理、流计算、Lambda. Kappa 4种架构模式。

2022-11-12 14:49:52 933

原创 BERT论文精读

我们引入了一种新的语言表示模型BERT,它使用了来自Transformer的双向编码器。与最近的语言表示模型不同,Bert的设计目的是结合左右双向的信息,使用预训练模型来生成文本的深度双向表示。预训练的Bert模型可以通过一个额外的输出层进行优化,从而为广泛的任务(如问题回答和语言推理)创建最先进的模型,而无需对特定于任务的体系结构进行实质性修改。它在11个自然语言处理任务上获得了最新的结果。

2022-11-07 10:27:09 488

原创 Transformer论文精读

主要的序列转换模型是基于复杂的递归或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的网络结构Transformer,它完全基于注意力机制,完全省去了重复和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上是优越的,同时具有更高的并行性,需要更少的训练时间。

2022-11-07 09:53:32 532

原创 dataframe常用API(python)

数据收集到驱动器中进行计算,就不是分布式并行计算了,而是串行计算,会更慢,所以,除了常看小数据,一般吧建议使用。map方法可以对dataframe数据集中的数据进行逐个操作,他与flatMap的不同之处在于,flatMap是将数据集中的数据作为一个整体去处理,之后再对其中的数据做计算,map则是直接对数据集中的数据做单独处理。这里的重复项指的是两行的数据完全相同。filter方法是一个常用的方法,用条件来过滤数据集,如果想选择某列中大于或小于某数的数据,就可以使用filter方法。

2022-10-18 21:24:24 878

原创 DataFrame简介

DataFrame实质上是存储在不同节点计算机中的一张关系型数据表。分布式存储最大的好处是:可以让数据在不同的工作节点上并行存储,以便在需要数据的时候并行运算。

2022-10-14 16:12:32 2495

原创 十二、集成学习

目前集成学习可以分成Boosting和Bagging两大流派。

2022-10-09 11:25:25 446

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除