自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 概率图模型 —— 串连 NB、LR、MEM、HMM、CRF

概率图模型(PGM),作为机器学习的重要分支,能串连起很多传统模型,比如 NB、LR、MEM、HMM、CRF、DBN 等。本篇文章,从串连多个模型的角度,来谈谈 PGM,顺便把这些模型回顾下。

2018-10-23 00:14:32 2401 3

原创 深度强化学习(文献篇)—— 从 DQN、DDPG、NAF 到 A3C

自己第一篇 paper 就是用 MDP 解决资源优化问题,想来那时写个东西真是艰难啊。 彼时倒没想到这个数学工具,如今会这么火,还衍生了新的领域——强化学习。当然现在研究的内容已有了很大拓展。 这段时间会做个深度强化学习的专题,包括基础理论、最新文献和实践三大部分。...

2018-09-02 18:45:55 17228 4

原创 深度强化学习(理论篇)—— 从 Critic-only、Actor-only 到 Actor-Critic

这段时间会做个深度强化学习的专题,包括理论、文献和实践三大部分。

2018-08-12 22:52:07 7582 6

原创 浅谈机器学习中的非线性

之前学习没有想透,最近交流时,在这个问题上磕绊了几次,打算仔细思考下。关于机器学习中的线性和非线性,有两个聚焦点,一个是问题,一个是模型。问题的线性非线性,指的是样本点的分布,是否能在输入空间Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-06-18 20:22:53 10211 1

原创 从compositional到distributed,从无监督到有监督再到多任务学习 —— 漫谈句向量 Sentence Embedding

关于词向量,word embedding,研究相对较早,存在多种表征方式,目前 distributed 方式相对成熟,得到了广泛应用。但从 word 向 sentence、paragraph、document扩展,却仍处于探索阶段,本文尝试对目前主要的研究方向和代表工作进行概述,不会详细介绍模型细节,后续可能有文章继续跟进。...

2018-05-27 21:30:03 4203

原创 学习排序 Learning to Rank:从 pointwise 和 pairwise 到 listwise,经典模型与优缺点

Ranking 是信息检索领域的基本问题,也是搜索引擎背后的重要组成模块。本文将对结合机器学习的 ranking 技术——learning2rank——做个系统整理,包括 pointwise、pairwise、listwise 三大类型,它们的经典模型,解决了什么问题,仍存在什么缺陷。关于具体应用,可能会在下一篇文章介绍,包括在 QA 领域的实践情况。

2018-05-20 14:32:26 64426 8

原创 机器学习知识地图 —— 监督学习(集成分类器)

自己整理的知识地图,有兴趣的可以看看

2018-05-08 21:11:12 558

原创 神经网络 和 NLP —— 文本中的特征构造

前段时间一口气读完了 NN4NLP,很是畅快,非常喜欢作者行文讲解的口吻和逻辑。大概两周读完,每页都有收获,读完后反而担心有所疏漏,知识太多留不住,索性从头来一遍,把学习过程的知识点和思考记录下来,也算精简版供自己今后查阅。 感兴趣的,可以一起学习讨论,真的很推荐这本书。大致介绍下该书。NN4NLP 由 Goldberg 撰写,是 CMU CS11-747 课程的教材,配合公开课食用更佳,公...

2018-03-04 00:09:27 1985 2

原创 分布式机器学习的故事

王益博士,称得上机器学习领域的资深从业者,本人之前有幸拜读过王益博士的一些paper和slides,对其从事的“分布式机器学习”方向尤感兴趣。王益博士之前写过一篇《分布式机器学习的故事》,总结了自己从业多年的经验和感悟。可惜的是,这篇原始博文已经删除了,现在能找到的是原始的六篇讲稿素材:A New Era;Infrequent itemset mining;Application Driven;Im

2016-11-07 12:08:58 12422 6

原创 数学优化入门:凸优化

做科研时,曾花了段时间学习凸优化,后来发现ML中其应用也非常普遍,想来今后可能还会接触,干脆做个系统的总结,方便以后查询。博文内容主要参考Boyd(Stanford)的Convex Optimization,配套的slides,以及部分网络材料,感兴趣的朋友可以一起学习探讨。1、前言凸优化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。虽然条件苛刻,但应用广泛...

2016-10-18 11:10:50 35880 21

原创 数学优化入门:梯度下降法、牛顿法、共轭梯度法

1、基本概念1.1 方向导数1.2 梯度的概念 因此,对于一元函数,即y=f(x),其梯度的方向总是指向x轴正方向或反方向,而大小即该点的导数。如果考虑z=f(x,y)描绘的是一座在点(x,y)的高度为f(x,y)的山。那么,某一点的梯度方向是在该点坡度最陡的方向,而梯度的大小告诉我们坡度到底有多陡。对于含有n个变量的标量函数,其梯度表示为 1.3 梯度与方...

2016-10-13 19:45:43 29312 8

原创 矩阵的特征值分解与奇异值分解的几何意义

1、首先,矩阵可以认为是一种线性变换:确定了定义域空间与目标空间的两组基,就可以很自然地得到该线性变换的矩阵表示。即矩阵A可以通过Ax=b将一个向量x线性变换到另一个向量b,这个过程中,线性变换的作用包含三类效应:旋转、缩放和投影。2、奇异值分解体现了对线性变换这三种效用的一个析构。 在中,U的列向量组成了一组标准正交基,V的列向量也是,这表示我们找到了U和V这两组基,A矩阵的作用是将一个向量从V

2016-07-22 15:02:47 9993 5

原创 Matlab中凸优化工具包CVX的安装、注册与使用

我们从最新版本cvx 3.0的安装、注册和实例讲起,对自己最新文章中的一个算法进行验证。

2016-05-18 10:46:40 60946 48

原创 机器学习 实践流程 思维导图

自己结合学习与实践,从机器学习实践出发,整理了整个流程,以思维导图的形式呈现,也方便自己以后查阅。

2016-04-16 14:27:18 3584 6

原创 推荐系统(一) —— 好的推荐系统

ML方向初步计划学习下推荐系统,感谢灵哥和宇哥推荐的书——《推荐系统实践》,书一到手,迫不及待的就把第一章看完了,感觉确实很有意思,值得投入去学习。本书并没有打算写成handbook式的巨著或者事无巨细的基础教材,内容相对琐碎松散,当然,这应该是由于领域特点所限,因此,自己打算在学习之余,抽时间将所学内容进行整理总结,做成阅读笔记,也方便自己以后查阅补充。

2016-04-16 12:21:58 12838 2

转载 美团点击下单率预测问题(以数据清洗与特征处理为主)

本文转载自美团点评技术团队文章http://tech.meituan.com/rerank_solution_offline.html。

2016-03-18 11:20:08 5957

转载 美团团购单交易额预估问题

本文转载自美团点评技术团队文章http://tech.meituan.com/mt-mlinaction-how-to-ml.html

2016-03-18 09:45:25 4276 1

原创 矩阵形式的MMSE算法推导

矩阵形式的MMSE算法推导

2016-03-12 22:00:13 24562 8

转载 GBDT(MART) 迭代决策树算法 深入浅出

GBDT(MART) 迭代决策树

2016-02-29 11:17:27 3479 2

原创 关联分析的Apriori算法 in Python

关联分析的Apriori算法 in Python

2016-02-22 20:37:14 5715 1

原创 提升算法 AdaBoost元算法 提升树算法 in Python

提升算法 AdaBoost元算法 提升树算法 in Python

2016-02-21 14:21:01 1954 2

原创 《机器学习实战》 自制勘误表 中文版第一版2015年9月第11次印刷版

《机器学习实战》 自制勘误表 中文版 第一版2015年9月第11次印刷版

2015-12-11 09:59:54 4175 4

原创 推荐系统(三) —— 利用用户行为数据 —— 隐语义模型

推荐系统(三) —— 利用用户行为数据 —— 隐语义模型

2015-11-25 20:39:02 4378

原创 推荐系统(二) —— 利用用户行为数据 —— 基于领域的算法

推荐系统(二) —— 利用用户行为数据 —— 基于领域的算法

2015-11-22 14:27:45 8864

原创 基本线性回归、局部加权线性回归和缩减方法(岭回归、前向逐步回归) in Python

基本线性回归和局部加权线性回归、岭回归、前向逐步回归 in Python

2015-11-20 10:41:39 6409 2

原创 支持向量机 SVM 算法推导优缺点 代码实现 in Python

总结和实现代码,费了很大功夫

2015-11-08 20:24:05 4109 1

原创 主动学习 Active Learning - a survey

知识点解释1. 分析机器学习算法的可学习性时,通常有 realizable-assumption 和 non-realizable-assumption。前者表示假设空间中存在 ERM 为零的最优模型,后者表示假设空间中不存在。显然后者更符合真实情况。2. PAC 理论用严格的形式化语言描述了上述两种情况的 sampl...

2020-10-10 09:55:12 628

原创 文本匹配(语义相似度/行为相关性)技术综述

NLP 中,文本匹配技术,不像 MT、MRC、QA 等属于 end-to-end 型任务,通常以文本相似度计算、文本相关性计算的形式,在某应用系统中起核心支撑作用,比如搜索引擎、智能问答、知识检索、信息流推荐等。本篇将纵览文本匹配的技术发展,并重点介绍文本语义相似度计算技术,以及多轮对话场景中的文本语义相似度计算技术。

2019-01-13 13:08:39 31005 5

原创 神经网络 和 NLP —— 结构化输出预测

不少内容在读 paper 时,已经深入了解过,这里就简单带过了,感兴趣的建议精读原书和参考文献吧。很多 NLP 任务设计结构化输出,即输出并非类标签或者类标签的概率,而是诸如序列、树、图等结构化的对象。经典任务有序列标注(pos)、序列分割(chunking、NER)、句法分析、MT 等。本文将介绍 NN 在结构化输出任务上的应用。1 基于搜索的结构化预测解决结构化预测最直接的思路就是即基...

2018-12-16 15:34:01 3043 1

原创 神经网络 和 NLP —— Cascaded, Multi-task and Semi-supervised Learning

当初入门 NLP 读的《Netural Network for Natural Language Processing》,收获颇丰。入门后,改成了读 paper 和 code,没有完整读完这本书,最近得空,把后几章补上,算是完整吧。不少内容在读 paper 时,已经深入了解过,这里就简单带过了,感兴趣的建议精读原书和参考文献吧。本文介绍串联学习、多任务学习、半监督学习。1 Cascaded...

2018-12-15 14:36:53 1200

原创 【精读Paper】BERT:NLP 新范式

二月份出了 ELMo,六月出了 OpenAI Transformer,十月又出了BERT,下半年开始的这场预训练语言模型的火,越燃越大啊,希望能烧出 CV 那样的 baseline。不得不说,Jacob 的这篇 BERT 真是大手笔,massive data + massive model + massive computation,踏平了 N 多 task,称得上 NLP 新范式了。当然,常人...

2018-10-16 00:30:53 3836 3

原创 中文(语音结果)的文本纠错综述 Chinese Spelling Check

中文的文本纠错,应用场景很多,诸如输入法纠错、输入预测、ASR 后纠错等等。这边简单梳理下对于这个任务的调研结果。

2018-09-24 12:29:28 18131 3

原创 逻辑斯蒂回归中特征共线性或强相关的影响

理论解释共线性,指多元回归模型中,各自变量之中至少有两个完全或高度相关。一方面,自变量之间的强相关,虽不会影响对应回归系数的大小,但会扩大其回归系数的方差。由于回归系数比上标准差,即检验该回归系数是否显著的 t 值。由于 t 值的降低,导致回归系数不显著,将无法拒绝一个错误的零假设。另一方面,自变量之间的强相关,可能导致回归系数的正负方向与真实的相反,影响特征的可解释性。可以认为 ...

2018-09-06 21:05:24 8322 1

原创 TensorFlow-Hub 安装及使用

Tensorflow-hub 是 google 提供的机器学习模组打包函式库,帮开发者把TensorFlow的训练模型发布成模组,方便再次使用或是与社交共享。 打包用来发布机器学习中可重复使用的部分,包括TensorFlow_Graph、权重以及外部档案等所需资源。这些模组包含了大量资料集预训练后取得的变量,可以供类似任务使用。这样的成果可以使后续开发者,用更少的资料集训练精准模型、改进泛化或是...

2018-05-27 15:48:11 21725 15

原创 排序算法的原理、实现、优缺点

这里的排序算法指内部排序算法,即对内存中的数据进行排序。1 概述排序算法大体可分为两种:比较排序 时间复杂度 O(nlogn) ~ O(n^2),主要有:冒泡排序,选择排序,插入排序,归并排序,堆排序,快速排序等。非比较排序 当数据本身包含了定位特征时,才能不通过比较来确定元素的位置。时间复杂度可以达到O(n),主要有:计数排序,基数排序,桶排序等。选择排序算法,需要

2018-05-12 20:02:15 3894

原创 机器学习知识地图 —— 监督学习(普通分类器)

自己整理的知识地图,有兴趣的可以看看

2018-05-08 20:48:59 508

原创 机器学习知识地图 —— 监督学习(回归)

机器学习知识地图 —— 监督学习(回归)

2018-05-08 20:45:37 403

原创 机器学习知识地图 —— 数值计算

自己整理的知识地图,有兴趣的可以看看

2018-04-10 23:39:33 407 2

原创 机器学习知识地图 —— 模型评估和选择

自己整理的知识地图,有兴趣的可以看看

2018-04-09 23:50:31 455 2

原创 机器学习知识地图 —— 概述

自己整理的知识地图,有兴趣的可以看看

2018-04-09 23:46:37 1414

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除