自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (7)
  • 收藏
  • 关注

原创 tensornet源码调试解析

最近阅读了tensornet的源码,其设计思想很值得借鉴。对于架构设计的感兴趣的同学,强烈建议阅读一下。tensornet在tensorflow的基础上进行二次开发,针对广告推荐等大规模稀疏场景优化的分布式训练框架。相比之前的分布式框架,tensornet借助mpi集群管理,每个节点单独维护一个ps,省去了维护管理节点的成本。本文主要记录了我个人对tensornet源码的阅读以及理。1. 环境准备1.1 安装大家可以根据tensornet提供的dockerfile创建一个tensornet的镜像,我本

2021-01-12 14:09:30 743 3

原创 多任务学习在推荐中的探索

多任务学习(Multi-task learning)在cv和nlp领域已经得到广泛的应用,无论是经典的maskrcnn—同时预测bounding box的位置和类别,还是称霸nlp的bert—预测某个单词和句子是否相关联,都属于多任务模型。在推荐中是基于隐式反馈来进行推荐的,用户对于推荐结果是否满意通常依赖很多指标(点击,收藏,评论,购买等),因此在排序中,我们需要综合考虑多个目标,尽可能使所有目...

2020-03-11 19:08:36 21836

原创 理解Word Embedding,全面拥抱ELMO

提到Word Embedding,如果你的脑海里面冒出来的是Word2Vec,Glove,Fasttext等。那我猜你有80%的概率是从事和NLP相关的工作或者至少是一个算法爱好者(这貌似是一个真命题,哈哈)。其实简单来说Word Embedding就是把词转换成向量的形式。计算机只识别二进制,智能问答系统,我们需要计算机理解的是文字。此时我们就需要将文字转换成数字,向量的形式。最简单的一种方式就...

2019-06-06 18:00:59 6125

原创 DeepFM结合代码的理解

闲谈众所周知,自从人工智能火了以后,大家现在全民AI,连小学生中学生都在搞所谓的AI。AI的实现应该靠算法与硬件的结合,但是国内貌似搞算法的远超搞硬件的。现阶段来看,算法层面上,主要靠深度网络。我理解所谓的深度网络,就是用一系列的线性函数模拟复杂的非线性函数。举个简单例子,一个正弦函数,我们可以将他的作用域划分成一系列的小区间,将每个区间端点的函数值用直线连接起来。如果这些区间足够小,就...

2019-04-28 14:03:54 7508 5

原创 最近邻搜索:Product Quantization for Nearest Neighbor Search

最近邻搜索在搜索领域是常用给的算法,拿我们的1:N的人脸识别举例,假如我们底库中有200百万照片的特征向量(这个数字已经算小的了),每个特征向量是512维,如果用线性搜索的话,那么我们要进行200*512百万次的加法,乘法。这个随着底库的增加,算法复杂度是逐渐增加的。在实际的应用场景中,显然这个是不可以的。很直观的一个想法就是,我们能不能类似于二分查找那样,每就算一次就排除一部分呢。第二个想法就是...

2019-01-16 14:42:10 1979

原创 MaskRCNN源码解读

https://github.com/matterport/Mask_RCNN这个是一个基于Keras写的maskrcnn的源码,作者写的非常nice。没有多余的问文件,源码都放在mrcnn中,readme里面有详细的介绍,为了了解maskrcnn的运行流程,最好的办法就是将代码边运行边调试。从samples下面的coco文件开始运行:前面首先会加载一些配置文件的数据,暂时用不到没必...

2018-07-25 09:13:51 29718 17

原创 机器学习项目总结--Display Advertising Challenge

CriteoLabs 2014年7月份在kaggle上发起了一次关于展示广告点击率的预估比赛。获得比赛第一名的是号称”3 Idiots”的三个台湾人,最近研究了一下他们的开源的比赛代码,在此分享一下他们的思路。这个代码非常适合机器学习初学者研究一下,尤其对于跨行想做机器学习,但是这之前又没有做过相关的项目。从数据的处理到模型算法的选择,都非常的详细。读完这个代码,大家一定会对机器学习在工业上的应用有了解。

2017-12-25 13:02:14 5934 5

原创 机器学习系列--关于LR的两个问题

逻辑回归是应用非常广泛的一个分类机器学习算法,有关LR的算法推导以及计算过程有很多资料可以参考,在这里我们就不再赘述。这里我们主要关心两个问题,也是在面试的过程经常会被问到的, LR为什么使用sigmoid函数和 LR中损失函数为什么不能使用平方损失函数

2017-12-17 19:59:20 537 1

原创 机器学习系列--GBDT算法总结与源码分析

最近在看Kaggle2014年的一个比赛–Display Advertising Challenge。三个台湾人得了比赛的第一名,他们使用的是FFM算法(这个后面再做总结),在他们比赛的代码中,使用了GBDT算法进行了特征的处理。他们没有使用scikit-learn中封装好的算法,而是自己手撸了一个GBDT的实现。下面就GBDT的一些原理和源码进行分析总结。1. GBDT算法总结  2. GBDT源码分析

2017-12-12 19:49:37 7143 1

常用的快速搜索的方法

常用的搜索方法的总结,主要包含了hash 图 基于内积向量化的三大类方法

2019-01-16

GBDT源代码分析

三个台湾人在参加kaggle 2014比赛的时候,自己手撸的一个GBDT的源代码。自己已经完整读了一遍,并且已经标记了注释。

2017-12-18

李宏毅机器学习PPT

机器学习PPT,配合李宏毅的视频一起使用,里面有很多公式的推导

2017-12-18

大型网站的优化

传智播客韩顺平老师讲的有关大型网络的优化,内容非常好

2014-04-06

NPOI教程.pdf

学习NPOI的好资源 导入导出excel

2013-03-18

MCM北美数学建模论文模版

很好,值得准备参加美国数学建模的同学使用,很好的资源

2012-11-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除