我爱写报告-CSDN博客

原创【整理】博客中的论文笔记汇总

漏洞挖掘Neural Network-based Graph Embedding for Cross-Platform Binary Code Similarity Detection （待补充）固件漏洞挖掘，利用程序控制流图和图嵌入方法Vulnerability Extrapolation: Assisted Discovery of Vulnerabilities using Machi...

2019-02-24 00:06:57 1642 2

翻译 Improving Language Understanding by Generative Pre-Training

自然语言理解支持了包括文本蕴含、问答、语义相似评估、文本分类在内的多种任务。尽管大规模未标注的文本训练集是充足的，但这些特殊领域的有标注的数据是缺乏的，导致一些领域的任务没有办法充分训练。我们证明了这些任务可以通过在大规模未标注文本数据集上进行生成式的pre-train，然后再对每个任务进行单独的fine-tune来取得较大的性能提升。与之前工作不同的是，我们在fine-tuning阶段利用任务感知的输入transformation来达到在对模型结构改变很少的前提下也能进行有效迁移。

2023-10-22 00:12:49 121

翻译 xFraud: Explainable Fraud Transaction Detection

xFraud

2022-08-15 00:16:54 354 1

翻译 Semi-Supervised Classification with Graph Convolutional Networks

解决的问题我们提出了一个稳定的方法来半监督地学习图结构的数据，这种方法基于一种卷积网络的变体，是将卷积网络直接作用在图上。我们是基于对一种谱图卷积的一阶近似选择的这种卷积结构。我们的模型能够学到既可以编码局部的图结构也可以编码节点特征的隐藏层表示。在引文网络和知识图谱数据集上进行的一系列实验表明，我们的方法跟类似方法相比有显著的提升。问题形式化本文考虑的是对图上的节点进行分类，而图中只有一小部分节点有标签。这类问题可以被形式化为基于图的半监督学习，其中标签信息通过一些显式的基于图的正则来进行平滑，例如

2022-05-20 19:44:14 420

翻译 Personalized Approximate Pareto-Efficient Recommendation

真实推荐系统中通常会有不同的学习目标和评估标准，例如准确度、多样性或新颖度。因此多目标推荐正在被广泛使用和探索。最近帕累托最优模型被应用到了多目标推荐系统中，然而现有方法全部都是对所有样本共享一套目标权重。为了抓住用户在目标级别的偏好，并在帕累托最优系统中加入个性化，我们提出了PAPERec框架，设计了一个基于KKT条件标量化的近似帕累托最优学习，其中每个用户对每个目标有个性化的权重。我们还提出了一个面向帕累托的强化学习模块来为每个用户寻找合适的个性化目标权重，以所有目标梯度的加权和为奖励。我们在实际推荐系

2022-04-28 18:09:46 208

翻译 Deep Session Interest Network for Click-Through Rate Prediction

解决的问题CTR预估在广告和推荐系统中都扮演者重要角色。在CTR预估中，如何从用户的行为序列中抽取出动态变化的用户兴趣是一大课题。然而现有的方法都忽视了用户行为序列的一大特性：用户行为序列是由多个session组成的，而每个session由行为的时间进行划分。我们发现用户在同一session内的行为是高度同质化的，而不同session间的行为是异质的。基于上述观察我们提出了Deep Session Interest Network (DSIN) 模型来利用用户行为序列的多个session。我们首先从每个s

2022-04-26 18:03:15 313

翻译 self-supervised learning for large-scale item recommendations

解决的问题长尾item的用户反馈数据稀疏是推荐系统中长期存在的一个问题。近期受到CV和NLP领域在自监督学习任务上进展的启发，我们提出了一个针对大规模item推荐的自监督学习(SSL)框架。框架主要通过更好地学习item特征之间的潜在联系来解决label稀疏的问题。特别地，SSL既优化了item表征，又优化了线上服务，从而提升了模型的泛化能力。除此之外，我们还在框架中提出一种新颖的利用特征交互来进行数据增强的方法。我们通过两个真实的数据集和一个线上真实的app-to-app推荐场景来评估我们的模型，实验结

2021-11-01 14:00:41 1865 3

翻译 Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems

解决的问题解决推荐系统中的召回问题，标准的方法就是通过采样进行极大似然估计。然而真实的推荐系统通常存在严重的曝光偏差，而极大似然估计从长期来讲会加重曝光偏差，而不合适的采样和特征选取会使得item表示学习效果打折扣。本文提出了CLRec，一种对比学习范式，来解决召回阶段的曝光偏差。问题形式化推荐系统的召回阶段范式为学习一个用户行为encoder fθ(x)∈Rdf_\theta(x) \in R^dfθ(x)∈Rd和一个item encoder gθ(y)∈Rdg_\theta(y) \in R^d

2021-08-27 01:04:26 914

翻译 Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Pr

解决的问题基于记忆网络的MIMN通过对算法和服务架构的共同设计成为了state-of-the-art方法。MIMN是工业界第一个能够为超过1000条用户行为建模的方法，然而在用户行为更多的情况下MIMN便不能精确把握用户兴趣了。本文提出了一种新的范式Search-based Interest Model (SIM)，SIM通过两个级联的搜索单元来抽取用户兴趣：General Search Unit (GSU)从原始的任意长度的行为序列中进行搜索，从而抽取出与候选item相关的子序列；Exact Searc

2021-08-18 01:07:20 446

原创 flink流式作业入门

最近换项目，交接了乌乌泱泱的一大片flink作业。时间紧任务重，于是扒各种资料连猜带蒙入了个门。在这里记录一些粗浅的经验。以下全部内容均为flink scala版的streaming任务相关，如有错误（大概率有）欢迎大佬们指正。跑通第一个flink streaming作业环境和版本：ubuntu 18.04java 1.8flink-scalaIDEA...

2021-08-16 01:21:56 331

翻译 CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction

feature co-action特征间的联合效应。例如一个点击历史中有泳衣的女性用户很有可能会点击推荐给她的泳镜，因为“泳衣”和“泳镜”之间是有联系的。特征co-action可以对于一系列原始特征子图进行建模。如果子图中只有两个特征，那么特征co-action等价于为两个特征ID的边建模。以往研究工作对于feature co-action的建模方法可以分为以下三类：基于聚合的方法研究如何将用户的历史行为序列聚合起来用到ctr预估中。...

2021-06-17 20:26:36 855

原创 tfrecord相关

给自己留档，因为永远记不住用法。python读tfrecord文件python读取tfrecord文件有很多种姿势，但大体过程类似：# 定义feature字典，字典key必须在tfrecord中存在，反之则不要求def parse(example): features = { 'id': tf.FixedLenFeature(1, dtype=tf.string), 'label': tf.FixLenFeature(1, dtype=tf.float32), 'fea

2021-06-15 23:17:42 143

原创 tensorflow AUC & streaming_auc

对AUC和它计算方法的解释可以看这位大佬的文章：https://www.cnblogs.com/peizhe123/p/5081559.html，本文主要讲tensorflow中计算AUC的API实现。tf.contrib.metrics.streaming_auc & tf.metrics.auc在tf1.x中有两个计算AUC的API: tf.contrib.metrics.streaming_auc和tf.metrics.auc，在使用tf.contrib.metrics.streaming

2021-04-07 20:20:50 1145

翻译 Progressive Layered Extraction: A Novel Multi-TaskLearning Model for Personalized Recommendations

解决的问题多任务学习在推荐场景中已经得到了广泛的应用。然而多任务模型常常会受到负迁移的影响而性能变差。为解决这一问题，本文提出了Progressive Layered Extraction (PLE)，它将共享组件和每个任务独有的组件分隔开，并引入了一种先进的路由机制来深层的语义抽取分离出来。跷跷板现象在多任务学习中负迁移是很常见的现象，这一现象在相关性不强的任务间尤为显著。对于有着复杂关联性的多任务学习，我们还观察到了跷跷板现象：在全部任务中超越单任务模型是非常困难的。我们将会通过腾讯的视频推荐系统

2021-03-15 20:18:37 944 4

翻译 Recommending What Video to Watch Next: A Multitask Ranking System

本文是一个大型多目标推荐系统的实践。我们尝试了诸如MMoE等许多soft-parameter sharing技术，此外我们还通过wide&deep的方式引入了selection biases。场景我们的应用场景是视频的next watch场景的排序阶段。设计并实现一个真实场景中的大规模实时视频推荐系统会面临如下挑战：我们的优化目标经常是存在冲突的。例如我们不仅想要为用户推荐他们可能观看的视频，还想要推荐他们可能评分很高并进行分享的视频。系统中通常会存在隐式偏见(bias)，例如用户会点击并

2021-03-09 20:19:14 627

翻译 Modeling Task Relationships in Multi-task Learning withMulti-gate Mixture-of-Experts

背景多目标深度学习系统越来越多被运用在了大规模真实推荐系统中。然而目前常用的多目标模型通常对数据分布和任务间的关系过于敏感。因此在单个任务目标和多个任务的关系之间的tradeoff就变得很重要。本文提出了MMoE，一个能够显式学习到任务间关系的多任务模型。MMoE模型在多个任务间共享expert子模型，并且有一个门控网络来优化每个任务。为在相关程度不同的任务上验证我们的模型，我们首先将它应用在了一个由我们自己控制相关程度的人工数据集上，发现在相关程度不强的任务上它的表现优于baseline模型。然后我们

2021-03-01 02:02:29 291

翻译 GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction

解决的问题当前CTR预估模型中一般都有embedding和MLP组件，我们提出一个新的GateNet模型，通过引入特征embedding门来学习特征级别的潜在信息，而hidden gate帮助模型更好地习得高阶交互特征。

2021-01-12 00:35:40 1109

翻译 Learning to Rank: From Pairwise Approach to Listwise Approach

解决的问题关于排序已经有很多方法提出了，它们的共同点就是将object对当做学习的实例，我们把它们叫做pairwise的方法。Pairwise方法有诸多优点，但它们忽略了一个事实——排序是一个在object列表上进行预测的任务。本文认为排序应该以一个list的object作为实例。listwise方法在本节我们以文档召回为例简短介绍一下learning to rank，再着重介绍listwise方法。下面我们用上标来代表query的index，下标表示doc的index。在训练过程中，给出一个集合的

2020-12-29 15:17:32 986

翻译 Deep Interest Network for Click-Through Rate Prediction

解决的问题以往的CTR预估模型遵从一个常规套路：大规模的稀疏的输入特征首先被映射为低维度的embedding向量，然后通过某种方式转换成一组固定长度的向量，拼接在一起，然后喂给全连接层来学习特征间的非线性关系。与普通的逻辑回归模型相比，这种方法能够省去大量的特征工程。然而用户兴趣具有多样性，用一个低维度向量来表示用户可能会变成表达用户兴趣的瓶颈。另一方面，在预测某一特定广告的CTR时，没有必要把用户的全部兴趣压缩在一个向量中，因为用户兴趣中只有一部分能够影响到他对这条广告的行为。基于以上的分析，我们提出

2020-10-27 17:01:39 218

翻译 Latent Cross: Making Use of Context in Recurrent Recommender Systems

WSDM’18, Google, Inc.解决的问题本文主要研究了如何有效率地处理推荐系统中的上下文信息（时间、地点、场景…）。首先我们对前馈网络利用上下文信息的传统方法进行了分析，并证明了这种方法在特征交叉方面是低效率的。秉持着这样的观点，我们设计了一个state-of-the-art的RNN推荐系统。...

2020-10-14 00:46:29 235

翻译 Learning and Transferring IDs Representation in E-commerce

解决的问题本文提出了一种基于embedding的框架来学习ID的表示，通过学习item ID的序列和ID间结构上的联系，所有种类的ID都可以表示为同一低维语义空间上的向量。然后这些ID表示就可以被利用来解决以下四个场景的问题：度量item间的相似度有过用户行为的物品和新物品间的迁移不同领域间的迁移不同任务间的迁移学习ID表示用户交互序列的skip-gramtbc...

2020-10-09 01:00:19 104

翻译 Multi-Interest Network with Dynamic Routing for Recommendation at Tmall

场景&解决的问题本文提出的方法解决了天猫主页的个性化推荐（占天猫流量的约50%）中的召回部分。在天猫的个性化推荐场景中，无论是召回还是排序阶段，最重要的都是为用户兴趣建模。然而建模用户兴趣存在问题：一个用户可能对多种物品感兴趣。现有的推荐算法采取过多种方法来对用户兴趣建模。基于协同过滤的方法用用户历史行为或隐性因子来表示用户兴趣，这种方法的局限性在于稀疏性和计算困难。深度学习方法通常将用户兴趣表示为一个低维度的embedding，然而这种方法中，embedding的维度可能会成为表达用户各种

2020-09-09 00:08:19 1685

翻译 Embedding-based Retrieval in Facebook Search

解决的主要问题搜索中的语义匹配问题——找到那些与qeury文本不精确匹配，却能够满足用户搜索意图的结果EBR—— embedding based retrieval，基于embedding的检索text-user-context embedding主要工作Facebook搜索的基于embedding的检索系统模型：unified embedding——query文本，用户和上下文组成模型的一侧，另一侧由document组成，从搜索日志中获得训练样本，并利用一个recall metric作为

2020-08-02 01:28:22 2188

翻译 tf.train.Saver

Saver类用于保存和重载变量到checkpoint。Checkpoint是一系列有特定格式的二进制文件，这些文件会把变量名和tensor值映射起来。Saver能够通过一个给定的计数器自动给checkpoint文件排序，这使得我们能够在训练一个模型时，在不同的step下保存多个checkpoint。同时Saver还能够自动管理checkpoint，例如我们可以通过Saver来只保存最近N个ch...

2020-04-30 19:40:43 296

翻译 Deep Neural Networks for YouTube Recommendations

问题YouTube推荐在以下三个方面有极大的挑战性：规模大新的item多噪声由于稀疏性和一些无法观测的外部因素，YouTube的历史用户行为是十分难以预测的，而与内容相关的元数据也不能定义一个规整的结构。我们的算法需要足够健壮以应对我们训练数据的这些特性。系统架构系统中有两个网络，分别用于召回（candidate generation）和排序。召回网络从用户行为历史中拿到ev...

2020-02-27 19:27:12 1432

翻译 Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations

Introduction推荐系统常被视作召回+排序的两阶段系统。本文的重点就在于为一个有百万量级item的个性化推荐构建一个召回系统。给出一个{user, context, item}的三元组，召回模型通常的解决方法是：1）分别学习{user, context}和{item}的表示，2）利用一个简单的打分函数（例如点积）来为query生成候选item。context通常是有动态性质的变量，例如...

2020-02-26 22:23:56 4849

翻译 Sequence to Sequence Learning with Neural Networks

Sequence to Sequence Learning with Neural NetworksIlya Sutskever et al. Google. 2014Sequence to sequenceDNN的一个显著问题在于只能应用到输入和输出都能表示为固定维度的向量的问题中。这是一个显著的缺陷，因为很多重要的问题中，输入和输出都需要被描述为预先不知道长度的序列。本文提出了直接用一...

2020-01-27 19:51:51 304

翻译 node2vec: Scalable Feature Learning for Networks

问题定义给出一个图G=(V,E)G = (V, E)G=(V,E)，令f:V−>Rdf: V -> \Bbb{R}^df:V−>Rd为节点和向量表示(feature representation)间的映射，d为我们向量表示的维度。对图中的每个节点u∈Vu \in Vu∈V，定义Ns(u)N_s(u)Ns(u)为通过采样策略SSS得到的节点u的邻居节点。我们将skip-gra...

2020-01-20 15:40:57 268

翻译 DeepWalk: Online Learning of Social Representations

Bryan Perozzi et. al. 2014问题定义考虑对社交网络中每个成员进行分类的问题。令G=(V,E)G=(V, E)G=(V,E)，其中V为网络节点，E为边。给出一个不完全标注的社交网络 GL=(V,E,X,Y)G_L = (V, E, X, Y)GL=(V,E,X,Y)，其中X∈R∣V∣×SX\in\Bbb R^{|V|\times S}X∈R∣V∣×S，其中S为特征空间大...

2020-01-16 21:57:27 477

翻译 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingJacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina ToutanovaGoogle AI Language语言模型预训练在很多NLP项目中都被证明有效。比如句子级别的任务如自然语言推理...

2019-07-10 15:15:18 673

翻译 Convolutional Neural Networks for Sentence Classification

Convolutional Neural Networks for Sentence ClassificationYoon KimNew York University模型结构我们利用一层卷积神经网络和事先训练好的词向量进行句子分类，取得了很好的效果。而通过微调来学习针对特定任务的词向量提高了原有的效果。最后，我们描述了对模型结构的一个简单的改动，使得预训练和特定任务的词向量通过不同通道被...

2019-07-04 20:55:58 652

原创 python黑科技记录

给自己留档，记录一些方便的用法fromkeys()用来构建词典，输入一个list或tuple型的seq和一个value，输出就是以seq中各元素为键，以value为值的一个词典，多用于dict的初始化，例如：>>> a = [1,2,3,4]>>> b = {}.fromkeys(a)>>> b得到结果：{1: None, 2:...

2019-07-02 17:51:47 237

原创栖霞牌王是怎样炼成的——利用django实现网页版千秋戏(1)

千秋戏是单机游戏《古剑奇谭》中的一个小卡牌游戏。最近突然有兴趣把它实现成网页版，所以就想尝试着用python的web框架django实现出来。然而以前完全没接触过前后端的东西，所以开几篇博客记录一下过程中用到的知识，主要是给自己留档。这东西肯定存在着很多问题，还有赤果果的侵权啊什么的，所以网址和代码就不放出来了，我实现出来你们也玩不到，略略略。django项目创建首先安装django，ubun...

2019-05-18 18:15:05 2182

原创 ubuntu16.04 docker安装与使用

最近被人疯狂安利docker，所以虽然还没有什么需求但是也试试水（安装读了一下官网的文档，按我目前粗浅的理解就是装一个docker引擎，然后在docker hub上拉镜像，然后本地运行。在安装docker之前16.04的用户需要安装依赖linux-image-extra-virtual：sudo apt-get install linux-image-extra-virtual然后需要...

2019-05-07 22:11:29 569

翻译 Are Deep Neural Networks the Best Choice for Modeling Source Code?

题目： Are Deep Neural Networks the Best Choice for Modeling Source Code?作者： Vincent J. Hellendoorn, Premkumar Devanbu单位： Computer Science Dept, UC Davis出版： FSE/ESEC, 2017解决的问题最近，利用自然语言处理的方法来对软件的自然重...

2019-03-14 15:48:39 440 1

翻译 Rendezvous: A Search Engine for Binary Code

题目： Rendezvous: A Search Engine for Binary Code作者： Wei Ming Khoo, Alan Mycroft, Ross Anderson单位： University of Cambridge出版： MSR, 2013简介代码重用是软件工程中的常见做法。搜索Github [1]上的短语“基于”，截至2013年2月，共有269,789次匹配。...

2019-03-14 15:45:44 349

翻译 Personalized Defect Prediction

题目： Personalized Defect Prediction作者： Tian Jiang, Lin Tan, Sunghun Kim单位： University of Waterloo, Hong Kong University of Science and Technology出版： ASE, 2013解决的问题：personalized change classificatio...

2019-03-14 15:23:09 702

原创 Struct2vec

研究内容针对代码数值特征转化为图嵌入的方法研究图嵌入是近期新兴的对图进行表示的方法。程序控制流图和调用图的本质都是图，因此可以利用图嵌入方法将控制流图和调用图转换为能够表征其属性的定长向量，然后利用这种定长向量进行相似程序的挖掘或漏洞分类。利用图嵌入方法处理程序控制流图的基本思想如下：对一个控制流图中的每个基本块抽取函数调用个数，指令数等数值特征，组成定长的特征向量；遍历控制流图，将从其他基...

2019-01-25 19:17:05 4682 7

翻译 Subclass Discriminant Analysis

题目： Subclass Discriminant Analysis作者： Manli Zhu, Aleix M. Martinez单位： IEEE出版： IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE通过各类判别分析来抽取特征是计算机视觉领域的常用方法。判别分析的最大优点在于它能够自动抽取一个低维的特征表示，而...

2019-01-04 19:01:24 913

转载 HIVE的6种join用法

给自己留档，基本是从这个博客抄来的。例子：两个表格表A：idname1张三2李四3王五表B：idage120229430join内关联，只返回两个表中关联上的结果select a.id, a.name, b.age from a join b on a.id = b.id得到结果：a....

2018-12-20 12:53:25 1138

空空如也

空空如也