自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(147)
  • 收藏
  • 关注

原创 python知网爬虫论文pdf下载+立即可用(动态爬虫)

python实现动态爬虫知网论文,搜索+自动翻页+下载收集数据利器

2024-03-09 19:18:10 893

原创 gumbel-softmax如何实现离散分布可微+torch代码+原理+证明

gumbel-softmax 的原理和数学证明与torch代码实现

2024-03-09 14:05:47 1014

原创 EBR开山之作:Embedding-based Retrieval in Facebook Search

推荐场景中的召回方法,主要针对embedding-based retireval方法的学习总结。

2024-02-22 20:03:27 823

原创 彻底看懂二分查找:三种情况+三个注意点

二分查找关键总结,深入浅出

2024-02-22 12:16:03 1014

原创 leetcode 202 快乐数

(2)这里受某位大佬的思路指导,在本题中并没有限制空间,但是如果这个循环非常大的时候就会出现oom的情况。参考快慢指针解链表循环,其实快慢指针可以应用于所有的循环判断,用O(1)的空间复杂度实现对循环的判断。(1)循环的判断,可以采用hash表的方法,当结果出现过同时不为1的时候说明已经循环了,return false。然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。如果这个过程 结果为 1,那么这个数就是快乐数。

2023-12-03 20:34:30 183

原创 leetcode 201 数字范围按位与

给你两个整数 left 和 right ,表示区间 [left, right] ,返回此区间内所有数字 按位与 的结果(包含 left、right 端点)。(2)在区间left到right中,因为是连续的整数,所以一定在left和right的后面的n位上均存在0,根据(1)可知后面的n位按位&的结果都是0.现在就可以看代码部分了,其中shift表示的就是n。(1)假设区间中有w个数字,那么n个数字在第k位只要有一个数字不是1那么按位&的结果一定是0。本题是一个在思维上的方法,不涉及数据结构和具体的算法。

2023-12-03 20:27:48 134

原创 MIMNCell超详细分解 论文看不懂点这里就对了!

简介最近的一个工作需要用到MIMNCell,但是原本的论文其实一篇比较工业化的论文,里面对于离线部分的MIMN可以说完全没有解释,我一步一步的将官方的实现在这里做一些分享。官方paper在这里:传送门MIMNCell的主要模块首先MIMNCell我认为是 RNN结构的一种改进。当然其中增加了很多的模块,但是输入仍然是一个时序序列。其中主要包括:ControllerMemory ReadMemory WriteMIU部分,其中重要的是理解MIU部分维护的S矩阵基本的工作流程是:co

2021-08-22 12:27:55 314

原创 推荐系统论文 Handling Information Loss of Graph Neural Networks for Session-based Recommendation

文章目录简介MotivationModelExperiments简介这是一篇关于图的推荐论文,论文的创新点非常简单,但是非常精准。解决的办法也并不复杂,我个人非常喜欢这种用简单的方法解决一个比较关键的问题的论文。也是我师兄的一个分享,这里我增加一些我个人的理解,在这里做一个分享。Motivation这一部分其实我认为是这篇论文的精华。从上图可以看出,对于长序列,我们将序列转换为上面一张图。然后在GNN的过程中,一般GNN的层数是3层左右,那么也就是说只能传递3跳的信息。这样对于一个长序列来说,

2021-08-05 15:34:32 383

原创 推荐系统论文 MRIF: Multi-resolution Interest Fusion for Recommendation

文章目录简介MotivationModelInterest Extraction LayerInterest Aggregation LayerExperiments简介这里分享一篇SIGIR 2020的一篇short paper,是序列推荐问题的一个解决方法,其中有一些值得参考的思路和思想。而且是阿里的文章。Motivation着重解决两个问题:用户兴趣是动态的,并且随着时间的推移而演变;用户的兴趣有不同的分辨率,或者精确地说是时间范围,比如长期偏好和短期偏好Model整个模型的结构

2021-07-07 17:37:42 308 2

原创 推荐系统论文 Hierarchical Leaping Networks

文章目录简介formulation问题Main WorkLeap Recurrent Unitpreference gateLeap GatePreference ManagerPrediction and TrainingExperiments简介这里分享一篇关于推荐系统的论文,主要的方向是对于序列推荐的兴趣分解的一种建模方法。我主要将我认为论文中重要的部分进行分享,如果大家对于这篇论文很感兴趣可以把你的邮箱评论给我,我把原文发你。SIGIR 2020formulation这里定义一下这

2021-04-27 15:06:45 257

原创 977 有序数组的平方

文章目录简介解法1解法2简介我将参考leetcode中的部分题解和网上资料,自己将自己的刷题思路和过程进行总结。可能有一些自己的思路,但是大多数还是参考其他网友的想法。如果对您有帮助我备感荣幸~解法1将每个item平方然后排序。注意,sort需要:#include<algorithm>using namespace std;时间复杂度:遍历的部分需要n,sort需要nlogn,一共是O(nlogn)空间复杂度:res需要n,sort需要logn的栈空间进行排序解

2021-04-05 10:55:26 144

原创 推荐系统论文Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation

文章目录简介MotivationInvasive VS Non-InvasiveProblem StatementModelNOVA-BertExperiments简介AAAI 2021Motivation在序列推荐中,Bert已经被用来进行处理序列数据,而其中最核心的机制就是自注意力mechanism。Bert模型又一个限制就是只能考虑一种tokens的输入但是在推荐场景中,还有很多其他的信息,除了点击历史,还有durating,past_days等等本文将关注如何将多种类

2021-03-19 19:00:34 1412 2

原创 tensorflow1.14在keras2.2.5实现LayerNormalization

简介看这篇blog的朋友请首先检查一下tf版本和你的keras版本,还有你的keras写法,我用的是tf.keras这种写法。不知道有没有人遇到这种问题:我想用在keras中用layerNorm,因为我的代码实现是tf.keras的这种写法,所以导致keras_layer_normalization这个包并不能很好的使用。然后我尝试了tf.contrib.layer.layer_norm,报错。解决方法这里给出一个比较方便的解决方法,当然也许比较低级,如果有大佬还请赐教。这里我的方法比较简单,对

2021-03-19 17:19:45 2526 1

原创 mac jupyter找不到conda环境

文章目录简介问题描述解决简介mac上我首先安装的是anaconda,所以使用的jupyter是在anaconda中自带的,如果有同学是自己下载的jupyter环境这里我没有实验过下面的方法是否work。问题描述启动jupyter之后可以找到conda的base环境和python3环境:但是当我们常见一个新的conda env的时候jupyer并不能找到这个新的环境。解决首先我尝试了重启jupyter,无效。这里给出我的解决方法:conda activate 你的新环境名然后在新环境中输

2021-03-15 17:23:13 674 1

原创 推荐系统论文 Learning Intents behind Interactions with Knowledge Graph for Recommendation

文章目录简介IntroductionMain contributionsModelModel predictionModel optimizationExperiments简介WWW 2021非常新的论文,而且作者是国内非常有名的组。我主要分享一些我认为比较重要的干货,如果同学想很详细的了解的话还请从网上下载或者评论里面发给我邮箱。Introduction当前的基于图卷积的方法主要存在以下两个方面的drawbacks:user intents对于用户意图的研究在现有方法中鲜有提到,没

2021-03-10 18:11:32 3806 35

原创 推荐系统论文 DeepMCP

文章目录DeepMCPAbstractModelExamplePrediction SubnetMatching SubnetCorrelation SubnetTraining ProcedureDeepMCPAbstract经典的CTR模型关注的是feature-CTR之间的关系(权重)。DeepMCP模型在此基础之上又额外考虑了● feature-feature● user-ad● ad-ad这三种关系。Model整个模型包括三个部分matching subnet用来匹配u

2021-03-07 11:38:51 361

原创 推荐系统论文 HeterogeneousGraph Augmented Multi-Scenario Sharing Recommendation with Tree-Guided

文章目录简介Sharing RecommendationProblemsMTL传统框架ModelTree-guided Expert NetworksMulti-view Heterogeneous Graph AugmentationOptimizationDatasetPerformance简介Heterogeneous Graph Augmented Multi-Scenario Sharing Recommendation with Tree-Guided Expert Networks是发表

2021-03-01 17:16:10 751 4

原创 pytorch使用预训练好的gensim词嵌入模型

文章目录简介官方词嵌入模型pytorch 加载gensim Word2Vec简介其实我自己对于embedding的原理和结构都比较熟悉了,同时也使用过很多次了,但是在一次需要用到预训练好的开源Word2Vec的时候我竟然发现自己不知道怎么将.bin文件的权重加载到nn.Embedding上。很简单和基础的操作如果没有自己亲手做过的话确实感觉很生疏,并且在真正实现的过程中会出现一些问题:nn.Embedding加载gensim word2vec模型预训练模型中的词表和自己数据的词表的融合去除多余

2021-01-28 15:14:15 2793 1

原创 推荐系统论文 Context-aware Graph Embedding for Session-based News Recommendation

Context-aware Graph Embedding for Session-based News RecommendationRecSys 2020Focus on session-based news recommendationAbstractExisting methods ignore the semantic-level structural information among news articles and do not explore external knowl

2020-12-06 22:45:33 771 1

原创 推荐系统论文 Fine-grained Interest Matching for Neural News Recommendation

Fine-grained Interest Matching for Neural News RecommendationACL 2020Main IdeaInstead of aggregating user’s all historical browsed news into a unified vector, we hierarchically construct multi-level representations for each news via stackeddilated c

2020-12-06 22:42:17 233

原创 推荐系统论文 Fine-grained Interest Matching for Neural News Recommendation

文章目录Fine-grained Interest Matching for Neural News RecommendationMain IdeaModelFrameworknews representation moduleCross Interaction ModulepredictorDataset我的论文笔记一般讲的都是干货,把我认为最有价值的部分提炼出来,当然也希望能帮助到大家。大家共勉Fine-grained Interest Matching for Neural News Recom

2020-11-24 14:42:56 321

原创 Deep Cross中的cross Layer详解(数学公式+代码+实现细节)

文章目录简介DCN中的Cross Layer操作流程数学原理Torch实现简介再推荐模型中,对于特征feat interaction的探索占据了相当一部分的工作。这也说明对于CTR问题来说,feature Interaction的探索是判断最终用户click的重要一环。除了FM和FFM等因子分解机模型之外,还有Cross Layer的出现也是非常具有代表性的特征交互模型。这里从DCN模型入手,然后单独将cross layer抽离出来,然后对于他的数学原理还有代码实现细节都进行比较深入的探索。DC

2020-10-29 20:35:31 1231

原创 标签平滑 label smoothing

文章目录简介什么是label smoothinglabel smoothing作用torch实现label smoothing简介label smoothing其实是机器学习和深度学习上比较常用的一个小 trick。这里简单做一些记录。什么是label smoothing什么是标签平滑呢?这里举一个例子:面对一个多分类问题假设我们的当前对于xi的ground truth 是[0, 0, 0, 1]说明对于xi来说他属于第四类,但是一般来说我们输出的会是经过softmax激活的一个概率向

2020-10-27 16:17:51 2565 3

原创 推荐系统论文 ATBRG SIGIR2020

文章目录简介Current MethodMain WorkATBRGGraph construction partModel PartExperiments简介从题目上看,自适应目标行为关系图神经网络来提高推荐系统的表现。自适应:区别于在整个KG上进行random sampling或者盲目使用neighbors,需要自适应地针对用户行为与目标item在KG上保存有效信息目标行为关系图:一针对每一个user-item的子图,捕捉它们的相互作用Current Method这里说的是KG和R

2020-10-23 11:36:42 360

原创 信息检索导论第十八章笔记(英文)

Matrix decompositions and latent semantic indexingterm-document matrix: an M * N matrix C, each of whose rows represents a term and each of whose columns represents a document in the collection.develop a class of operations from linear algebra, known as

2020-10-07 13:25:15 337

原创 推荐系统论文AutoFIS KDD2020

文章目录Title简介Core problemCurrent MethodThinking(1)Thinking(2)Two-StageMain WorkFactorization ModelsSearch StageNAS DARTScoupling problemGRDA Optimizerretrain -stageExperimentsTitle简介来自华为Ark Lab和上交合作的一篇专注于CTR问题中factorization Models的特征选择问题。本文提出了Auto feat

2020-10-02 11:17:09 454

原创 新闻推荐论文 Graph Neural News Recommendation with Unsupervised Preference Disentanglement

文章目录简介作者Core problemCurrent methodMain workAssumptionArchitectureNews Content Information ExtractorGNUDPreference RegularizerTraining LossNoteExperiments Res简介我将不定期带来推荐方面的论文研读。我会比较直入主题,讲论文中的主要部分和精华进行提炼和总结,希望大家能有所收获。作者来自石川老师的团队,国内比较有名的新闻推荐团队。这篇论文发表在A

2020-09-28 19:46:31 921

原创 信息检索导论第十七章笔记(英文)

文章目录Hierarchical clusteringAbstractHierarchical agglomerative clusteringSingle-link and complete-link clusteringTime complexityGroup-average agglomerative clusteringCentroid clusteringOptimality of hierarchical agglomerative clusteringCluster labelingImple

2020-09-26 16:57:56 423

原创 信息检索导论第十六章笔记(英文)

文章目录Flat clusteringAbstractClustering in information retrivalSearch result clusteringScatter gatherProblem statementEvaluation of clusteringK-MeansModel-based clusteringFlat clusteringAbstractClusterClustering algorithms group a set of documents into

2020-09-23 10:24:48 582

原创 信息检索导论第十四章笔记(英文)

文章目录Vector space classificationAbstractDocument representations and measures of relatedness in vector spacesRocchio classificationK nearest neighborLinear versus nonlinear classifierClassification with more than two classesThe bias-variance tradeoffVector

2020-09-21 10:06:31 847

原创 推荐系统(一) GBDT+LR拉开特征工程模型化的序幕

文章目录简介2004GBDT+LR缺点实现GBDT+LR 历史地位简介GBDT的原理分析和LR的公式推导已经不需要我再去再添拙笔,这里我将用一个推荐系统系列来从推荐系统发展的角度来看这些在推荐系统不算长久的发展史上重要的或者是具有代表性的经典算法。其中包括了2000年初的系统过滤,矩阵分解等,还有面向CTR问题的LR为发展起点的FM,FFM,GBDT+LR等,当然后面还会有深度网络的大行其道。且容我不断整理,慢慢落笔。2004就是在这一年,FaceBook提出了GBDT+LR这个模型。有的人认为

2020-09-17 00:55:13 1020 3

原创 信息检索导论第十三章笔记(英文)

文章目录Text classification and Naive NayesAbstractThe text classification problemNaive Bayes text classificationThe Bernoulli modelProperties of Naive BayesA variant of the multinomial modelFeature selectionMutual informationχ^2 Feature selectionFrequency-bas

2020-09-16 23:44:05 614

原创 信息检索导论第十二章笔记(英文)

文章目录Language models for information retrievalAbstractLanguage ModelTypes of language modelsMultinomial distributions over wordsThe query likelihood modelEstimating the query generation probabilityLanguage modeling versus other approachesin information retr

2020-09-11 12:30:17 523

原创 信息检索导论第十一章笔记(英文)

文章目录Probabilistic information retrievalAbstractBasic probability theoryPRP0/1 loss caseretrieval costsBIMProbability estimates in theoryProbability estimates in practiceProbabilistic approaches to relevance feedbackMajor AssumptionsTree-structured depende

2020-09-08 22:37:22 520

原创 gensim使用word2vec处理时序数据

文章目录简介处理流程数据预处理使用gensim生成w2vpickle存储读取w2v简介word2vec大多数人知道是NLP一种预处理编码技术,但是我个人通过数据竞赛和推荐系统方面的学习发现word2vec在竞赛和推荐等场景使用也非常多。如果你想做NLP的w2v,其实我比较推荐使用sklearn中自带的库,因为使用gensim本身对输入有一些处理,比如:gensim会自动去掉停用词,也就是说gensim不能得到停用词的embgensim也不对I这种单个字母的生成emb等等(我有点记不清了,但是确

2020-09-04 14:53:43 954

原创 Word2Vec图文详解+代码分析

文章目录简介原理代码分析最后简介“i do not love coding”,对于这样一句话,计算机是看不懂的,也不能直接进行输入,所以我们需要对他进行编码,让计算机能够看懂。那么可能我们会第一时间想到onehot,是的经过onehot之后计算机确实可以进行处理了,但是会存在下面这个问题:假设我们现在的语料库只有这五个单词,那么vocab_size = 5下面这张图请大家忽略一些nlp上面的预处理问题,我为了给大家说明白所以举的例子比较直白,另外coding和like是我故意换的位置,我怕和pos

2020-09-04 12:04:09 1098 1

原创 feature column浅析和pytorch实现

文章目录简介feature columntorch实现有哪几类特征各个类依赖关系git地址简介一提到feature column我相信大部分人都想到的是tf中的类。但是我自己一直好奇为什么pytorch没有一个官方的feature column类,导致每次使用还需要自己写预处理的逻辑。所以我也实现了一个简单的torch feature col。当然了,我写的比较简单,处理一般的比赛数据或者小数据还是可以的,不过这样也对他的功能和机理有了比较清楚的了解。feature column为什么需要有fea

2020-09-01 22:05:36 1303

原创 打包上传自己的Pypi 亲身填坑 绝对可用

文章目录简介注册安装setuptoolssetup.py其他安装twine上传坑简介首先我对于pypi其实并没有特别的见解,也用的不是很熟练,但是我经历了一次非常痛苦的上传过程。主要是版本、格式、python更新过快等问题。其他的博客说的其实很多如何去上传打包,但是要不是过时了,要不就是写的不是很浅显。所以如果你就是想尽快上传成功一个自己的pypi包,那么你来对了,继续看下去吧,绝对没有浪费你的时间。这次我是想上传一个用pytorch写的feature column,我就用这个当做这次的示例。

2020-09-01 14:09:19 722 2

原创 信息检索导论第十章笔记(英文)

XML RetrievalAbstractThere are fundamental differences between IR and database systems in terms of retrieval model, data structures, and query language.In the chapter, we look at how ranked retrieval methods can be adapted to structured documents to ad

2020-08-31 13:28:29 1066

原创 信息检索导论第九章笔记(英文)

文章目录Relevance feedback and query expansionAbstractRelevance feedback and pseudo relevance feedbackProbabilistic relevance feedbackWhen does relevant feedback workEvaluation of relevance of feedback strategiesPseudo relevance feedbackIndirect relevance feed

2020-08-14 15:48:28 764

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除