自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (3)
  • 问答 (5)
  • 收藏
  • 关注

原创 ROC/AUC

转自https://zhuanlan.zhihu.com/p/349366045 -- 写的非常好摘录其中的一些描述ROC曲线用FPR和TPR分别作横纵坐标,AUC为ROC曲线下面积FPR表示,在所有的恶性肿瘤中,被预测成良性的比例。称为伪阳性率。伪阳性率告诉我们,随机拿一个恶性的肿瘤样本,有多大概率会将其预测成良性肿瘤。显然我们会希望FPR越小越好。TPR表示,在所有良性肿瘤中,被预测为良性的比例。称为真阳性率。真阳性率告诉我们,随机拿一个良性的肿瘤样本时,有多大的概率...

2021-08-29 18:07:22 254

原创 Word2Vec

原理入门:https://zhuanlan.zhihu.com/p/26306795进阶:https://zhuanlan.zhihu.com/p/114538417 详细介绍层次softmax与negative sampling

2021-08-29 16:24:29 151

原创 机器学习-前向神经网络

《百面机器学习》读书笔记神经网络中的激活函数引用书中的一段话“真实情况中, 我们往往会遇到线性不可分问题(如XOR异或函数) , 需要非线性变换对数据的分布进行重新映射。 对于深度神经网络, 我们在每一层线性变换后叠加一个非线性激活函数, 以避免多层网络等效于单层线性函数, 从而获得更强大的学习与拟合能力。”Sigmoid / Tanh / ReLU(主流的中间层激活函数)Sigmoid及Tanh在变量值很大或者很小时,会出现梯度消失的现象。ReLU具备非饱和性及单侧抑制能力。.

2021-08-22 18:18:14 225

原创 机器学习-优化算法

《百面机器学习》读书笔记损失(目标)函数二分类问题Loss0-1损失(非凸,难以优化)--> hingle损失(fy=1时不可导,无法用梯度下降优化)--> logistic损失(任意点都惩罚)--> 交叉熵损失回归问题Loss平方损失、绝对值损失优化算法梯度下降法(GD)遍历所有的样本,求梯度然后更新参数,计算量大随机梯度下降法(SGD)利用单个样本的损失求梯度,然后更新参数,方差大,不稳定小批量梯度下降法(BSGD)遍...

2021-08-22 17:33:04 111

原创 机器学习-无监督算法

《百面机器学习》读书笔记无监督包括两类学习方法:数据聚类 与 特征变量关联。聚类算法通过多次迭代寻找数据的最优分割,特征变量关联利用相关性分析方法得到变量间的关系。Kmeans Kmeans++相对于Kmeans的改进:除了第一个初始聚类中心随机选取外,其他初始聚类中心的选择离现有聚类中心越远越好ISODATA相对于Kmeans而言,无需确定聚类中心个数,通过动态的拆分类别或聚合类别达到聚类的目的。因此ISODATA需要设定参数来指导类...

2021-08-22 16:41:14 1116

原创 机器学习-模型评估

《百面机器学习》读书笔记模型评估分为离线评估与在线评估离线评估分类问题准确率Acc(在正负样本不均衡,且少数样本更重要时失效)精确率Precision:分类正确的正样本个数/分类器判定为正样本的样本个数;TopN@Precision:对于排序问题,将范围限定在前N个,认为前N个是模型判定的正样本召回率Recall: 分类正确的正样本个数/真实的正样本个数;TopN@Recall:对于排序问题,将范围限定在前N个,认为前N个是模型判定的正样本PR曲线F1-Sc...

2021-08-22 15:39:52 130

原创 机器学习-特征工程

《百面机器学习》读书笔记对于一个机器学习问题,数据和特征决定结果的上限,模型和算法的选择和优化是逼近这个上限。特征工程:去除原始数据中的杂质和冗余,设计更高效的特征来刻画求解的问题和模型之间的关系。结构化数据 -- 数值类型、类别类型数值类型归一化:线性函数归一化、零均值归一化(基于梯度下降优化的模型能够更快收敛)类别特征编码:独热编码、序号编码、二进制编码。组合特征:一般出现在类别特征编码的交叉组合,形成二阶及高阶特征(参数过多,使用矩阵分解求解)非结构化数据 -- 文本、.

2021-08-22 15:04:08 87

原创 整理和记录

根据自己的理解,对书中的要点进行整理,形成自己的推荐系统架构理解及知识体系,欢迎指正。

2021-08-01 17:22:49 93

原创 推荐系统的评估

推荐系统的评估分为两部分:离线评估和线上评估。离线评估由于不涉及到工程部署和线上流量切分等工作,因此实施起来比较方便。离线评估的做法就是将样本划分为训练集和测试集,用训练集训练模型,用测试集评估模型效果。常用的方法是handout,交叉验证,自助法(bootstrap),是机器学习中的基本概念,这里就不展开。离线评估指标需要设计多个指标从不同的维度评价推荐系统:把推荐当做一个点击率预估的问题,常用的有准确率、精确率、召回率、F1、logloss、RMSE等;把推荐当做一个排序问题,常用的有P

2021-07-29 17:33:35 473

原创 推荐系统的模型离线训练和线上部署

推荐系统的离线训练大数据平台提供了训练数据,推荐系统需要将这些保存在HDFS的数据输入到模型中,进行离线训练。由于训练数据量级非常大,普通单机无法承受这种计算压力,因此,业界主流的模型训练方法为分布式并行训练方法。书中提到,当前三种主流的分布式并行训练方案分别为:Spark, Tensorflow, Parameter Server(PS).1. SparkSpark中提供了一套强大的机器学习库Spark MLlib,支持常用的机器学习模型。用书中简练的一句话概括Spark的计算过程,Stage

2021-07-28 19:30:43 2331

原创 推荐系统的数据流

由于推荐系统经常需要面临动辄TB甚至更大量级的数据,因此大数据平台成为了推荐系统中不可或缺的一部分,同时,大数据处理平台的性能也紧紧关系到整个推荐系统的性能。当前大数据平台有四种架构:1. 批处理以MapReduce, Spark为典型代表,待数据落盘(HDFS)后,进行批量计算。适合离线处理大批量数据,耗时小时到天不等2. 流处理以flink,spark streaming为典型代表,“时间窗口”是其关键概念,流处理方式会对时间窗口内的数据进行计算,同时支持join操作,耗时分钟级。

2021-07-28 17:02:55 585

原创 推荐系统之冷启动

任何推荐系统都要经历数据从无到有,从简单到丰富的过程。在某个特定场景下,对一个新用户而言,如何推荐其可能喜欢的物品,对于一个新物品而言,如何找到其受众,在推荐系统中被称为冷启动问题。书中提到,“冷启动”分为三种:1. 用户冷启动2. 物品冷启动3. 系统冷启动主流的冷启动方案1. 基于规则的冷启动基于人工制定的某些规则来实现冷启动过程。例如对新用户推荐“热门”、“最新”,对某个地方的用户推荐编排好的内容,对新物品采用相似推荐的方法。2. 丰富冷启动过程中可获得的用户特征和物品特征丰富模型

2021-07-28 16:04:26 301

原创 推荐系统之实时性

推荐系统的实时性1. 更快捕获/更新用户特征 -- 特征实时性2. 更快发现数据趋势 -- 模型实时性特征实时性(实时性由强到弱)1. 客户端实时特征(秒级,实时)发生在客户端session,实时计算用户特征,可达秒级2. 流处理平台(分钟级,近实时)典型的流处理平台像flink、spark streaming,均具备处理某个时间窗口内的数据流的能力,能够统计用户点击行为等特征,并写入redis,可达分钟级3. 分布式批处理平台(小时/天级,非实时)分布式批处理平台(spark,

2021-07-28 15:40:53 909

原创 推荐系统之召回策略

推荐系统的召回过程,书中是这样定义的:利用少量的特征和简单的模型和规则进行候选集的快速筛选,降低精排阶段的时间开销。多路召回主流的召回方式,即,使用不同的策略、特征、简单模型分别召回一部分候选集后综合到一起形成召回的候选集。基于Embedding的召回方式:Embedding生成+局部敏感哈希最近邻计算例如,使用Graph Embedding,将多路召回策略以side information的形式融合到最终的Embedding向量,实现多路召回在一个Embedding向量中的统一。这里也存在

2021-07-28 12:11:08 371

原创 推荐系统之特征选取与特征处理

王喆《深度学习推荐系统》中提到,推荐系统特征工程原则尽可能的让特征工程抽取出一组特征,能够保留推荐环境及用户行为过程中的所有有用信息,尽量摒弃冗余信息。推荐系统中的常用特征1. 用户行为数据 -- 隐式行为(点击、收藏)、显式行为(点赞、点踩)对用户发生过行为的物品:multi-hot 或者 Embedding加权平均2. 用户关系数据 -- 隐式(互相点赞)、显式(好友)a. 利用好友关系作为一路召回b. graph Embeddingc. 为用户添加好友属性特征d. 社会化推荐3

2021-07-28 11:47:49 969

原创 推荐系统之Embedding

熟悉深度学习的同学一定对Embedding不陌生,由于神经网络通常输入的是高维稀疏向量,Embedding层可以起到降维、防止参数爆炸的同时,也可以实现稀疏向量稠密化,便于上层网络处理。然而,Embedding的作用远远不止这些,文中提到,Embedding是深度学习中的基础核心操作。Embedding经历的三大过程:处理序列样本、处理图样本、处理异构的多特征样本Embedding的优势:综合信息能力强、易于线上部署书中提到,Embedding表示的含义:向量可以表达相应对象的某些特征,同时,向

2021-07-27 17:45:56 876

原创 推荐系统的技术架构

推荐系统从技术架构的层面来讲,分为两大部分:数据部分和模型部分。数据部分完成的工作主要集中在数据收集、数据清洗与处理上,采用实时与离线的方式对用户、物品、场景三类数据数据处理与清洗,并以特定的格式提供给推荐系统中的使用方(文中提到的有三个:模型训练、模型预测、商业智能),可见数据的重要性,数据处理流程如果出现了问题,后面的工作可能均无法正常开展。 tips: 实时与离线数据处理架构即为当前常用的lambda架构。模型部分完成的工作分别是:模型训练、模型评估、模型部署及模型在线推断。“模型”这里,

2021-07-26 20:54:55 480

原创 推荐系统在互联网公司中的角色

于用户而言:推荐系统主要应用于解决信息过载,用户无法快速找到个人偏好的场景于公司而言:挖掘海量数据,提升商业指标,解决“增长”的问题文中提到,一个良性的商业模式,用户体验与商业指标应该是自洽的,例如:天猫首页的千人千面推荐和支付转化率Youtube视频观看时长因此,推荐系统要解决的基础问题即为人与信息的关系,并达成某种既定目标。具体而言,人指的是用户信息,被推荐对象指的是物品信息。另外,由于用户与物品的交互一定是发生在某个场景下的,所以也存在第三类信息,即场景信息或者上下文信息。从实现的角

2021-07-26 17:13:21 177

原创 Siamese Network 孪生网络简介

0. 写在前面“匹配”这类任务有着很广泛的应用场景,例如NLP中的文本匹配,推荐领域的物品召回等任务。由此,学术界和工业界提出了很多不同的方法和模型来解决匹配问题,并致力于效果提升。本篇文章介绍一种经典的网络模型Siamese Network(孪生神经网络),该模型能够处理但不局限于“匹配”问题,下面一起来看下。个人心得:Siamese Network中,两个输入共享编码层(嵌入层);通过调整Siamese Network的特征变换层及损失函数,能够使其适用于不同的任务。Wikipedia:

2021-01-23 19:36:35 712

原创 文本匹配模型TextMatching

0. 写在前面本次分享一篇NLP文本匹配的经典文章,主要思路是借鉴图像识别的思路来解决NLP文本匹配问题,毕竟计算机视觉技术的发展在当时异常迅猛。个人心得:文本匹配问题可转化为二分类问题,输出概率则为相似度将图像识别的思路应用于文本匹配任务中,利用卷积抽取文本特征论文地址:https://arxiv.org/pdf/1602.06359.pdf1. 背景文本匹配广泛用于搜索引擎、问答系统、信息流相关文章推荐等场景中,目的是为了在文本库中找出与目标文本类似或相关的文本。本文即将介绍的Tex

2021-01-23 19:35:38 619

原创 fastText简介与实践

0. 写在前面在fastText问世以前,线性模型在文本分类任务中占据了主要地位,如果选用了正确的特征,往往能取得不错的效果。但是,其模型简单成为线性模型发展的瓶颈。神经网络具备高阶特征拟合能力,适用于各类复杂场景。fastText就是一种将DNN应用于文本分类的经典工作,并且在当时取得了SOTA的效果。个人心得:字符级n-gram,将单词拆分为子字符串,并分别训练embedding后叠加得到单词embedding。能够学习到单词词形,并且可以处理未登录词的embeddingfastText可用于

2021-01-23 19:30:56 380 1

转载 【转】Python对中文字符的处理(utf-8/ gbk/ unicode)

转自:https://blog.csdn.net/chixujohnny/article/details/51782826现在在做分词的时候会处理大量有关中文字符的处理,经常输出乱码,老大让我暂时不考虑字符编码,但是为了看着爽不得不研究一下。分词系统:NLPIR因为不同的编译环境默认的汉字编码可能不一样,我的环境是OSX10.11 + Pycharm + python2.7文件第一行永远默认# coding: utf-8数据集我用的是“tc-corpus-trai...

2020-12-21 20:31:33 846

原创 推荐系统FM系列文章(四)-- AFM模型

0. 写在前面前面我们介绍了FM系列的三大模型,包括FM模型,DeepFM以及NFM。DeepFM与NFM模型都对FM做了不同程度的优化,重点都是结合神经网络实现对特征的高阶组合。今天我们来介绍将attention机制应用于FM模型的AFM模型(Attentional Factorization Machine)。个人心得:特征组合的重要性会随预测目标的改变而发生变化attention机制用于学习特征交叉前的不同权重论文地址:https://www.ijcai.org/Proceedings

2020-12-20 12:16:02 685 1

原创 推荐系统FM系列文章(三)-- NFM模型

0. 写在前面继上次介绍了DeepFM模型后,本文我们介绍将FM模型思想结合神经网络的又一工作 – NFM(Neural Factorization Machine),一起来看看NFM相比于FM模型及DeepFM模型有哪些不同之处以及优化点。个人心得:bi-interaction pooling layer,一种element-wise product的特征交叉层论文地址:https://arxiv.org/pdf/1708.05027.pdf1. 背景DeepFM将神经网络成功引入了FM

2020-12-19 20:46:08 703 1

原创 推荐系统FM系列文章(二)-- DeepFM模型

0. 写在前面前面我们介绍了FM模型的实现要点,也提到了其在推荐领域内的影响力。本篇,我们就来说说一种结合神经网络和FM的推荐模型–DeepFM,其他相关思路的模型将在后面的文章中陆续介绍。个人心得:结合MLP的高阶特征组合能力及FM的低阶特征交叉能力FM模型的DNN架构表示模型的并行结构设计论文地址:https://arxiv.org/pdf/1703.04247.pdf论文代码:https://github.com/ChenglongChen/tensorflow-DeepFM1

2020-12-16 23:27:21 419 1

原创 推荐系统FM系列文章(一)-- FM模型

0. 写在前面推荐系统相关从业人员肯定对FM(Factorization Machines)模型不会感到陌生,工业界及学术界在FM的基础上也提出了一系列优化模型,这些模型至今仍广泛应用于各类场景。本篇文章将带领大家重温FM模型,一探其中原理。个人心得:相比于LR,FM引入了二阶特征组合通过矩阵分解引入隐向量的方式来估计特征参数,解决特征稀疏问题,同时大大减少参数数目相比于MF(Matrix Factorization),FM能够引入用户特征、物品特征以外的其他特征,应用范围更广论文地址:h

2020-12-11 23:15:53 1343

原创 推荐场景下的ID类特征处理方式

在处理实际的机器学习问题的过程当中,常常会遇到id类特征的情况,例如推荐场景内的用户id,用户性别,商品id等。这里,将平时使用和学习到的常见解决思路进行一个总结。1. OneHot这种方式是最常见的id类特征处理方式,这种情况下,id类特征可枚举,每种取值情况占一位取1,其他位取0。例如性别分为男、女、未知。那么“男”表示为[1,0,0]。2. Multi-OneHot除了上述情况外,一种变量还可能同时具备有多种取值的情况。例如,在电商场景下,一个用户可能在历史行为中与多个商品发生交互,此时,描述

2020-12-03 23:27:50 2001

原创 基于用户兴趣的商品推荐算法--DIN论文解读

0. 写在前面前面我们分别讲了alibaba在电商推荐场景下的两大工作,分别是DIEN和DSIN。 其实,这两个模型均基于最初的模型DIN(Deep Interest Network)发展优化而来。这次,我们就来看看DIN相比于其他模型而言,到底有哪些优化点。个人心得:用户的历史行为与每个候选物品的相关性权重不是一定的,可以用attention来建模激活函数的优化–适应数据分布的激活函数DICE论文地址:https://arxiv.org/abs/1706.06978论文代码:https

2020-12-02 22:29:01 1256

原创 基于用户session兴趣的商品推荐算法-DSIN论文解读

0. 写在前面接着上一篇《DIEN论文解读》来讲讲alibaba最近的一个成果–DSIN(Deep Session Interest Network)深度兴趣会话网络。DSIN是DIEN的升级版,不仅对用户序列进行了更加细致的划分,并且进一步优化了网络架构层数,提高了模型对用户兴趣的表达能力。个人心得:用户的行为序列可以用一个个session序列表示,session内的用户兴趣变化不大;self-attention用于提取一个session内的用户兴趣论文地址:https://arxiv.o

2020-12-02 00:23:04 521

原创 捕捉用户兴趣演化--DIEN论文解读

0. 说在前面这篇论文距发表已经有一段时间了,但作为引入用户时序信息中提取用户兴趣的经典思路,在一些技术细节上还是有必要学习借鉴下。个人心得:用户行为可视为序列特征(相对于DIN的改进)GRU / LSTM隐变量 - 通过用户行为洞悉背后的兴趣Attention - 捕捉不同时间点的用户兴趣与当前推荐物品的相关性,得到用户对该推荐物品的最近兴趣原文地址:https://arxiv.org/pdf/1809.03672.pdf原文代码:https://github.com/mouna99

2020-11-30 23:15:18 882

转载 推荐系统中的特征工程

关于推荐系统中的特征工程在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型,想入手实际问题的小朋友又不知道怎么提取feature来建模型。我就用个性化推荐系统做个例子,简单说说特征工程在实际的问题里是怎么做。定义特征工程 Feature Engine...

2019-08-11 09:49:20 316

原创 ubuntu14.04+GTX1050+Anaconda2+tensorflow r1.1源码安装(GPU)【默认CUDA,CUDNN已安装好】

用了一晚上,试了tensorflow的两种安装方法1.使用Anaconda2的conda建立envs直接安装gpu版的tf。出现的问题是作minst测试时出现了 error == cudaSuccess (30 vs 0) 的错误,网上也无法找到解决方案,估计是conda对gpu版的tf采取的默认设置,一些关于本机电脑的gpu相关配置没有设置好(本人猜测,如有博友知晓原因,请指教,感激不尽),根据...

2018-05-15 11:31:48 659

原创 VS2013+caffe(微软分支版)+GPU(GTX1050)开发环境配置

直接上干货吧。笔记本配置:Lenovo拯救者R720,8G,128G+1T,GTX10501.安装CUDA8.0【需要的朋友私信我,百度云盘分享】下载软件后就可以开始安装了,由于本子默认显卡驱动高于CUDA8.0中的版本,所以会出现以下不兼容提示                     此时,点击继续即可,注意:在后面的【选项】中,需要选择“自定义”而不是“精简”,在“自定义安装”中只选择CUDA...

2018-05-06 01:26:21 681

转载 win10+ubuntu14.04 双系统安装

     首先感谢@liujingyiscien 在百度贴吧写的两篇帖子,这次系统安装主要参考该内容,也可以说是转载他写的内容。进入正题。     最近购置了一台新电脑(Lenovo拯救者R720),配置:i7-7700,GTX1050,8G,128G+1T,默认系统是win10。    由于工作原因,需要安装Linux。选择安装双系统,Linux版本是ubuntu14.04。现把安装过程记录下来...

2018-05-06 00:01:22 1859

转载 VS2013+OpenCV2.4.10永久配置

VS2013+OpenCV2.4.x 永久配置

2017-08-08 15:34:26 803

转载 多层神经网络BP算法权值更新过程

bp神经网络权值更新图示

2017-07-31 17:28:07 2803 2

转载 神经网络浅讲:从神经元到深度学习

深度学习白话文叙述,通俗易懂

2017-07-27 16:57:22 1019

原创 【总结】学习车牌识别matlab源码

“matlab车牌识别”源代码学习总结,主要内容为源代码思路介绍和总结。

2017-07-16 19:50:18 5892 3

转载 仿射变换

本文转自:http://www.cnblogs.com/ghj1976/p/5199086.html详细介绍了介绍仿射变换的原理、分类和变换过程

2017-07-14 18:19:28 1741

机器视觉测量技术

机器视觉测量技术,详细讲解了图像处理、机器视觉领域中的测量与获取的方法。

2017-02-25

图像匹配+图像配准+图像校正 学习资料doc

图像匹配+图像配准+图像校正 学习资料

2017-02-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除