hionechance-CSDN博客

原创 ROC/AUC

转自https://zhuanlan.zhihu.com/p/349366045 -- 写的非常好摘录其中的一些描述ROC曲线用FPR和TPR分别作横纵坐标，AUC为ROC曲线下面积FPR表示，在所有的恶性肿瘤中，被预测成良性的比例。称为伪阳性率。伪阳性率告诉我们，随机拿一个恶性的肿瘤样本，有多大概率会将其预测成良性肿瘤。显然我们会希望FPR越小越好。TPR表示，在所有良性肿瘤中，被预测为良性的比例。称为真阳性率。真阳性率告诉我们，随机拿一个良性的肿瘤样本时，有多大的概率...

2021-08-29 18:07:22 254

原创 Word2Vec

原理入门：https://zhuanlan.zhihu.com/p/26306795进阶：https://zhuanlan.zhihu.com/p/114538417 详细介绍层次softmax与negative sampling

2021-08-29 16:24:29 151

原创机器学习-前向神经网络

《百面机器学习》读书笔记神经网络中的激活函数引用书中的一段话“真实情况中，我们往往会遇到线性不可分问题（如XOR异或函数），需要非线性变换对数据的分布进行重新映射。对于深度神经网络，我们在每一层线性变换后叠加一个非线性激活函数，以避免多层网络等效于单层线性函数，从而获得更强大的学习与拟合能力。”Sigmoid / Tanh / ReLU（主流的中间层激活函数）Sigmoid及Tanh在变量值很大或者很小时，会出现梯度消失的现象。ReLU具备非饱和性及单侧抑制能力。.

2021-08-22 18:18:14 225

原创机器学习-优化算法

《百面机器学习》读书笔记损失（目标）函数二分类问题Loss0-1损失（非凸，难以优化）--> hingle损失（fy=1时不可导，无法用梯度下降优化）--> logistic损失（任意点都惩罚）--> 交叉熵损失回归问题Loss平方损失、绝对值损失优化算法梯度下降法（GD）遍历所有的样本，求梯度然后更新参数，计算量大随机梯度下降法（SGD）利用单个样本的损失求梯度，然后更新参数，方差大，不稳定小批量梯度下降法（BSGD）遍...

2021-08-22 17:33:04 111

原创机器学习-无监督算法

《百面机器学习》读书笔记无监督包括两类学习方法：数据聚类与特征变量关联。聚类算法通过多次迭代寻找数据的最优分割，特征变量关联利用相关性分析方法得到变量间的关系。Kmeans Kmeans++相对于Kmeans的改进：除了第一个初始聚类中心随机选取外，其他初始聚类中心的选择离现有聚类中心越远越好ISODATA相对于Kmeans而言，无需确定聚类中心个数，通过动态的拆分类别或聚合类别达到聚类的目的。因此ISODATA需要设定参数来指导类...

2021-08-22 16:41:14 1116

原创机器学习-模型评估

《百面机器学习》读书笔记模型评估分为离线评估与在线评估离线评估分类问题准确率Acc（在正负样本不均衡，且少数样本更重要时失效）精确率Precision：分类正确的正样本个数/分类器判定为正样本的样本个数；TopN@Precision：对于排序问题，将范围限定在前N个，认为前N个是模型判定的正样本召回率Recall：分类正确的正样本个数/真实的正样本个数；TopN@Recall：对于排序问题，将范围限定在前N个，认为前N个是模型判定的正样本PR曲线F1-Sc...

2021-08-22 15:39:52 130

原创机器学习-特征工程

《百面机器学习》读书笔记对于一个机器学习问题，数据和特征决定结果的上限，模型和算法的选择和优化是逼近这个上限。特征工程：去除原始数据中的杂质和冗余，设计更高效的特征来刻画求解的问题和模型之间的关系。结构化数据 -- 数值类型、类别类型数值类型归一化：线性函数归一化、零均值归一化（基于梯度下降优化的模型能够更快收敛）类别特征编码：独热编码、序号编码、二进制编码。组合特征：一般出现在类别特征编码的交叉组合，形成二阶及高阶特征（参数过多，使用矩阵分解求解）非结构化数据 -- 文本、.

2021-08-22 15:04:08 87

原创整理和记录

根据自己的理解，对书中的要点进行整理，形成自己的推荐系统架构理解及知识体系，欢迎指正。

2021-08-01 17:22:49 93

原创推荐系统的评估

推荐系统的评估分为两部分：离线评估和线上评估。离线评估由于不涉及到工程部署和线上流量切分等工作，因此实施起来比较方便。离线评估的做法就是将样本划分为训练集和测试集，用训练集训练模型，用测试集评估模型效果。常用的方法是handout，交叉验证，自助法（bootstrap），是机器学习中的基本概念，这里就不展开。离线评估指标需要设计多个指标从不同的维度评价推荐系统：把推荐当做一个点击率预估的问题，常用的有准确率、精确率、召回率、F1、logloss、RMSE等；把推荐当做一个排序问题，常用的有P

2021-07-29 17:33:35 473

原创推荐系统的模型离线训练和线上部署

推荐系统的离线训练大数据平台提供了训练数据，推荐系统需要将这些保存在HDFS的数据输入到模型中，进行离线训练。由于训练数据量级非常大，普通单机无法承受这种计算压力，因此，业界主流的模型训练方法为分布式并行训练方法。书中提到，当前三种主流的分布式并行训练方案分别为：Spark, Tensorflow, Parameter Server(PS).1. SparkSpark中提供了一套强大的机器学习库Spark MLlib，支持常用的机器学习模型。用书中简练的一句话概括Spark的计算过程，Stage

2021-07-28 19:30:43 2331

原创推荐系统的数据流

由于推荐系统经常需要面临动辄TB甚至更大量级的数据，因此大数据平台成为了推荐系统中不可或缺的一部分，同时，大数据处理平台的性能也紧紧关系到整个推荐系统的性能。当前大数据平台有四种架构：1. 批处理以MapReduce, Spark为典型代表，待数据落盘（HDFS）后，进行批量计算。适合离线处理大批量数据，耗时小时到天不等2. 流处理以flink，spark streaming为典型代表，“时间窗口”是其关键概念，流处理方式会对时间窗口内的数据进行计算，同时支持join操作，耗时分钟级。

2021-07-28 17:02:55 585

原创推荐系统之冷启动

任何推荐系统都要经历数据从无到有，从简单到丰富的过程。在某个特定场景下，对一个新用户而言，如何推荐其可能喜欢的物品，对于一个新物品而言，如何找到其受众，在推荐系统中被称为冷启动问题。书中提到，“冷启动”分为三种：1. 用户冷启动2. 物品冷启动3. 系统冷启动主流的冷启动方案1. 基于规则的冷启动基于人工制定的某些规则来实现冷启动过程。例如对新用户推荐“热门”、“最新”，对某个地方的用户推荐编排好的内容，对新物品采用相似推荐的方法。2. 丰富冷启动过程中可获得的用户特征和物品特征丰富模型

2021-07-28 16:04:26 301

原创推荐系统之实时性

推荐系统的实时性1. 更快捕获/更新用户特征 -- 特征实时性2. 更快发现数据趋势 -- 模型实时性特征实时性（实时性由强到弱）1. 客户端实时特征（秒级，实时）发生在客户端session，实时计算用户特征，可达秒级2. 流处理平台（分钟级，近实时）典型的流处理平台像flink、spark streaming，均具备处理某个时间窗口内的数据流的能力，能够统计用户点击行为等特征，并写入redis，可达分钟级3. 分布式批处理平台（小时/天级，非实时）分布式批处理平台（spark,

2021-07-28 15:40:53 909

原创推荐系统之召回策略

推荐系统的召回过程，书中是这样定义的：利用少量的特征和简单的模型和规则进行候选集的快速筛选，降低精排阶段的时间开销。多路召回主流的召回方式，即，使用不同的策略、特征、简单模型分别召回一部分候选集后综合到一起形成召回的候选集。基于Embedding的召回方式：Embedding生成+局部敏感哈希最近邻计算例如，使用Graph Embedding，将多路召回策略以side information的形式融合到最终的Embedding向量，实现多路召回在一个Embedding向量中的统一。这里也存在

2021-07-28 12:11:08 371

原创推荐系统之特征选取与特征处理

王喆《深度学习推荐系统》中提到，推荐系统特征工程原则尽可能的让特征工程抽取出一组特征，能够保留推荐环境及用户行为过程中的所有有用信息，尽量摒弃冗余信息。推荐系统中的常用特征1. 用户行为数据 -- 隐式行为（点击、收藏）、显式行为（点赞、点踩）对用户发生过行为的物品：multi-hot 或者 Embedding加权平均2. 用户关系数据 -- 隐式（互相点赞）、显式（好友）a. 利用好友关系作为一路召回b. graph Embeddingc. 为用户添加好友属性特征d. 社会化推荐3

2021-07-28 11:47:49 969

原创推荐系统之Embedding

熟悉深度学习的同学一定对Embedding不陌生，由于神经网络通常输入的是高维稀疏向量，Embedding层可以起到降维、防止参数爆炸的同时，也可以实现稀疏向量稠密化，便于上层网络处理。然而，Embedding的作用远远不止这些，文中提到，Embedding是深度学习中的基础核心操作。Embedding经历的三大过程：处理序列样本、处理图样本、处理异构的多特征样本Embedding的优势：综合信息能力强、易于线上部署书中提到，Embedding表示的含义：向量可以表达相应对象的某些特征，同时，向

2021-07-27 17:45:56 876

原创推荐系统的技术架构

推荐系统从技术架构的层面来讲，分为两大部分：数据部分和模型部分。数据部分完成的工作主要集中在数据收集、数据清洗与处理上，采用实时与离线的方式对用户、物品、场景三类数据数据处理与清洗，并以特定的格式提供给推荐系统中的使用方（文中提到的有三个：模型训练、模型预测、商业智能），可见数据的重要性，数据处理流程如果出现了问题，后面的工作可能均无法正常开展。 tips: 实时与离线数据处理架构即为当前常用的lambda架构。模型部分完成的工作分别是：模型训练、模型评估、模型部署及模型在线推断。“模型”这里，

2021-07-26 20:54:55 480

原创推荐系统在互联网公司中的角色

于用户而言：推荐系统主要应用于解决信息过载，用户无法快速找到个人偏好的场景于公司而言：挖掘海量数据，提升商业指标，解决“增长”的问题文中提到，一个良性的商业模式，用户体验与商业指标应该是自洽的，例如：天猫首页的千人千面推荐和支付转化率Youtube视频观看时长因此，推荐系统要解决的基础问题即为人与信息的关系，并达成某种既定目标。具体而言，人指的是用户信息，被推荐对象指的是物品信息。另外，由于用户与物品的交互一定是发生在某个场景下的，所以也存在第三类信息，即场景信息或者上下文信息。从实现的角

2021-07-26 17:13:21 177

原创 Siamese Network 孪生网络简介

0. 写在前面“匹配”这类任务有着很广泛的应用场景，例如NLP中的文本匹配，推荐领域的物品召回等任务。由此，学术界和工业界提出了很多不同的方法和模型来解决匹配问题，并致力于效果提升。本篇文章介绍一种经典的网络模型Siamese Network（孪生神经网络），该模型能够处理但不局限于“匹配”问题，下面一起来看下。个人心得：Siamese Network中，两个输入共享编码层（嵌入层）;通过调整Siamese Network的特征变换层及损失函数，能够使其适用于不同的任务。Wikipedia:

2021-01-23 19:36:35 712

原创文本匹配模型TextMatching

0. 写在前面本次分享一篇NLP文本匹配的经典文章，主要思路是借鉴图像识别的思路来解决NLP文本匹配问题，毕竟计算机视觉技术的发展在当时异常迅猛。个人心得：文本匹配问题可转化为二分类问题，输出概率则为相似度将图像识别的思路应用于文本匹配任务中，利用卷积抽取文本特征论文地址：https://arxiv.org/pdf/1602.06359.pdf1. 背景文本匹配广泛用于搜索引擎、问答系统、信息流相关文章推荐等场景中，目的是为了在文本库中找出与目标文本类似或相关的文本。本文即将介绍的Tex

2021-01-23 19:35:38 619

原创 fastText简介与实践

0. 写在前面在fastText问世以前，线性模型在文本分类任务中占据了主要地位，如果选用了正确的特征，往往能取得不错的效果。但是，其模型简单成为线性模型发展的瓶颈。神经网络具备高阶特征拟合能力，适用于各类复杂场景。fastText就是一种将DNN应用于文本分类的经典工作，并且在当时取得了SOTA的效果。个人心得：字符级n-gram，将单词拆分为子字符串，并分别训练embedding后叠加得到单词embedding。能够学习到单词词形，并且可以处理未登录词的embeddingfastText可用于

2021-01-23 19:30:56 380 1

转载【转】Python对中文字符的处理(utf-8/ gbk/ unicode)

转自：https://blog.csdn.net/chixujohnny/article/details/51782826现在在做分词的时候会处理大量有关中文字符的处理，经常输出乱码，老大让我暂时不考虑字符编码，但是为了看着爽不得不研究一下。分词系统：NLPIR因为不同的编译环境默认的汉字编码可能不一样，我的环境是OSX10.11 + Pycharm + python2.7文件第一行永远默认# coding: utf-8数据集我用的是“tc-corpus-trai...

2020-12-21 20:31:33 846

原创推荐系统FM系列文章（四）-- AFM模型

0. 写在前面前面我们介绍了FM系列的三大模型，包括FM模型，DeepFM以及NFM。DeepFM与NFM模型都对FM做了不同程度的优化，重点都是结合神经网络实现对特征的高阶组合。今天我们来介绍将attention机制应用于FM模型的AFM模型（Attentional Factorization Machine）。个人心得：特征组合的重要性会随预测目标的改变而发生变化attention机制用于学习特征交叉前的不同权重论文地址：https://www.ijcai.org/Proceedings

2020-12-20 12:16:02 685 1

原创推荐系统FM系列文章（三）-- NFM模型

0. 写在前面继上次介绍了DeepFM模型后，本文我们介绍将FM模型思想结合神经网络的又一工作 – NFM（Neural Factorization Machine），一起来看看NFM相比于FM模型及DeepFM模型有哪些不同之处以及优化点。个人心得：bi-interaction pooling layer，一种element-wise product的特征交叉层论文地址：https://arxiv.org/pdf/1708.05027.pdf1. 背景DeepFM将神经网络成功引入了FM

2020-12-19 20:46:08 703 1

原创推荐系统FM系列文章（二）-- DeepFM模型

0. 写在前面前面我们介绍了FM模型的实现要点，也提到了其在推荐领域内的影响力。本篇，我们就来说说一种结合神经网络和FM的推荐模型–DeepFM，其他相关思路的模型将在后面的文章中陆续介绍。个人心得：结合MLP的高阶特征组合能力及FM的低阶特征交叉能力FM模型的DNN架构表示模型的并行结构设计论文地址：https://arxiv.org/pdf/1703.04247.pdf论文代码：https://github.com/ChenglongChen/tensorflow-DeepFM1

2020-12-16 23:27:21 419 1

原创推荐系统FM系列文章（一）-- FM模型

0. 写在前面推荐系统相关从业人员肯定对FM(Factorization Machines)模型不会感到陌生，工业界及学术界在FM的基础上也提出了一系列优化模型，这些模型至今仍广泛应用于各类场景。本篇文章将带领大家重温FM模型，一探其中原理。个人心得：相比于LR，FM引入了二阶特征组合通过矩阵分解引入隐向量的方式来估计特征参数，解决特征稀疏问题，同时大大减少参数数目相比于MF（Matrix Factorization），FM能够引入用户特征、物品特征以外的其他特征，应用范围更广论文地址：h

2020-12-11 23:15:53 1343

原创推荐场景下的ID类特征处理方式

在处理实际的机器学习问题的过程当中，常常会遇到id类特征的情况，例如推荐场景内的用户id，用户性别，商品id等。这里，将平时使用和学习到的常见解决思路进行一个总结。1. OneHot这种方式是最常见的id类特征处理方式，这种情况下，id类特征可枚举，每种取值情况占一位取1，其他位取0。例如性别分为男、女、未知。那么“男”表示为[1,0,0]。2. Multi-OneHot除了上述情况外，一种变量还可能同时具备有多种取值的情况。例如，在电商场景下，一个用户可能在历史行为中与多个商品发生交互，此时，描述

2020-12-03 23:27:50 2001

机器视觉测量技术

图像匹配+图像配准+图像校正 学习资料doc

OpenCV svm 如何建立训练样本？

图像处理问题，关于图像中高亮度小区域位置的确定

C++内存分配的问题。。

图像处理，如何用一个相机获得两张像素点完全对准的一模一样的图像？

数字图像处理入门--bmp文件颜色表问题

图像匹配+图像配准+图像校正学习资料doc