自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

u012762419的博客

word2vec中的CBOW模型

  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 tensorflow2实现DeepFM(基于DataFrame格式训练数据)

tensorflow2实现实现DeepFM网上有很多deepFM的实现版本,最广为人知的就是chenchenglong的那一版,这个实现是在Libsvm格式训练数据的基础上实现的,我下面的实现是在DateFrame格式训练数据的基础上实现的。模型结构和训练数据的格式息息相关,为了配合DataFrame格式的训练数据,我把数据拆分成numeric部分和catogorical两部分,作为两个输入喂给模型(keras支持多输入和多输出),输出只有一个。FM要求变量做embedding后还要和自身的值相乘,这

2020-06-14 19:16:30 2719 5

原创 tensorflow之generator的感悟

关于generator的一些调试感悟: 如果调用Model的fit功能指定的输入样本是generator,则以下参数必须指定:x: generator生成器,yield出来结果必须是一个三元组(x,y,weight),其中x是必须的batch_size: 也是必须的,batch_zise的大小,模型是在这个粒度上进行梯度更新的steps_per_epoch: 必须的,首先理解step:模型每step就会调用以下generator.next(),产出一个batch_size大小的训练样本供模型使用e

2020-06-06 00:00:03 1743 1

原创 tensorflow之feature_column+DeepFM

tensorflow之feature_column+DeepFMtensorflow2提供的feature_column工具为MLer/DLer处理数据提供了很大的方便,feature_column更是可以直接和 estimator 融合,实现无缝操作。但是 estimator 是预定义的模型,结构固定,有时候MLer想实现自己的模型,还需要借助keras提供的接口工具Model,但是Model类不能很好的和feature_column融合,需要经过一层转化,如下:original_feature \

2020-06-01 20:55:44 1383

原创 tensorflow之 feature_column + pre-made estimator组合实战

最近在学习tensorflow v2,以前接触过v1版本,写起来很费劲,v2比v1容易上手。我看网上比较推荐的是feature_coumn + estimator这套"组合拳",借此我们可以快速搭建现有成熟模型做实验,当然也可以用户生产环境。以下是演示代码,如有不妥之处敬请执政,不胜感激。import numpy as npimport pandas as pdfrom sklearn.utils import shufflefrom matplotlib import pyplot as plt

2020-05-25 21:57:20 1114

原创 FM模型简介

FM模型的主要应用场景是点击率预估,目的是在数据高维稀疏的情况下,解决特征的组合问题。造成数据稀疏高维的原因:主要是由于ID类特征和one-hot编码以及特征之间的相互交叉引起的。以笔者所在的某安全公司的商业化业务线展示广告业务为例:主要业务是展示广告的排序,提取的特征包括tag类硬编码特征,实际就是ID类特征,维度大概在100万左右,头部tag大概集中在5万左右;还包括渠道特征,大概在500...

2019-11-17 15:00:13 1747

原创 XGBoost中参数min_child_weight的理解

我说一下自己的理解。参考https://stats.stackexchange.com/questions/317073/explanation-of-min-child-weight-in-xgboost-algorithm1、对于回归问题,假设损失函数是均方误差函数,每个样本的二阶导数是一个常数,这个时候 min_child_weight就是这个叶子结点中样本的数目。如果这个值设置的太小,那...

2019-10-17 21:38:08 8279

原创 广告ctr中几个问题

广告ctr预估中的几个问题最近在做展示广告ctr预估相关的工作,抽空梳理几个问题,现在不一定有答案,先mark一下衡量预估好坏的指标有哪些?目前我们使用的是AUC和COPC。AUC很好理解,就是衡量广告排序好坏的指标,月接近1越好。COPC这个指标旨在展示广告上应用多一些,其他场景应用不多,全称 click over predicted click,主要衡量model整体预估的偏高和偏...

2019-05-10 21:45:22 5057 3

原创 python实现常用的数据结构(队列、栈、链表)

# coding: utf-8# # Python 数据结构与算法# ## 四种线性数据结构的python实现 - 数组、堆栈、队列、链表# ### 队列的实现# In[1]:"""队列是一种先进先出的数据类型,它的跟踪原理类似于在超市收银处排队,队列里的的第一个人首先接受服务,新的元素通过入队的方式添加到队列的末尾,而出队就是将队列的头元素删除。我们可以设置一个类,用...

2018-03-21 21:04:48 602

原创 大规模文本分类网络TextCNN介绍

TextCNN网络是2014年提出的用来做文本分类的卷积神经网络,由于其结构简单、效果好,在文本分类、推荐等NLP领域应用广泛,我自己在工作中也有探索其在实际当中的应用,今天总结一下。TextCNN的网络结构数据预处理再将TextCNN网络的具体结构之前,先讲一下TextCNN处理的是什么样的数据以及需要什么样的数据输入格式。假设现在有一个文本分类的任务,我们需要对一段文本进行...

2018-03-15 23:01:25 23385 7

原创 深度学习中的dropout

看过很多关于dropout方面的博客,但是感觉写太一般,不能达到我想要的水平,所以决定自己写一下。1.dropout解决的问题深度神经网络的训练是一件非常困难的事,涉及到很多因素,比如损失函数的非凸性导致的局部最优值、计算过程中的数值稳定性、训练过程中的过拟合等。其中,过拟合是很容易发生的现象,也是在训练DNN中必须要解决的问题。过拟合我们先来讲一下什么事“过拟合”。过拟合...

2018-03-12 22:27:26 4446 2

原创 word2vec中的CBOW模型

模型结构CBOW模型,中文译为“连续词袋模型”,完成的任务是给定中心词  的一定邻域半径(比如半径为2,通常成为windows,窗口,这里窗口的大小为5)内的单词 ,预测输出单词为该中心词  的概率,由于没有考虑词之间的顺序,所以称为词袋模型。论文中给出的CBOW模型的结构如下图:在上面的结构示意图中,符号w(t-1),w(t-2),w(t+1),w(t+2) 表示输入的单词,实际是一个one-h...

2018-02-24 23:01:35 10197 5

原创 逻辑回归

"纸上得来终觉浅,绝知此事要躬行"。最近在工作中用到逻辑回归(LR)做分类,使用的是sklearn中现成的算法包。在这个过程中遇到一些问题,激发了我对sklearn源码的解读,由此对逻辑回归有了更进一步的理解,对之前留下的一些坑也有了重新的认识。该博文先从线性回归讲起,让后过渡到LR,最后对sklearn中实现LR的源代码做一些说明。这里需要说明两点:第一:很多资料都讲到LR本质上是线性回

2016-10-29 10:44:16 1513 1

adaboost代码

本程序实现了集成学习算法中的典型的提升算法Adaboost,其中基分类器为树桩分类器。

2014-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除