luv_dusk-CSDN博客

原创从图嵌入算法到图神经网络

近几年来，伴随着计算机算力的急剧提升，神经网络从历史的尘埃中走出，横扫各大领域，完成一次次颠覆性的创新。依托高度弹性的参数结构，线性与非线性的矩阵变换，神经网络能适用于各式各样的数学场景，在各个类别的应用上我们都能看到神经网络的影子。其中著名的应用方向，包括自然语言处理、计算机视觉、机器学习、生物医疗、推荐系统、自动驾驶等等。图神经网络，广泛应用于社交关系、知识图谱、推荐系统、蛋白质分子建模，同样源自于对传统领域的创新，它的前身是图嵌入算法；而图嵌入算法又以图数据作为载体。这一关系，将贯穿本文始末，成为我们

2019-08-13 15:12:25 13041 12

原创 Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时，XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet，大一统预训练模型的成功，无疑昭示着行业的快速进步。现在是最好的时机。回到正题，本文虽篇幅较长，但能提供不一样的视角，帮你迅速理清模型的细节。废话不多说，笔者这就将带你快速品读，XLNet 诞生之路上最重要的三篇论文：- ***Attention Is All You Need*** (12 Jun. 2017)- ***Transformer-X

2019-07-03 23:24:50 4422 4

原创 SMART: 通用对抗式训练

背景纯粹的微调下，由于目标函数设置过于简单，神经网络很容易急不可耐地收敛到最近的局部最优点。这些最优点不仅并非全局最优点，同时不抗攻击。只要在模型输入上稍加扰动，输出的概率分布便会产生大幅度的偏移。为此，一些研究潜心于此，希望能让神经网络学习到的映射能力更为平滑，从而进一步地提高泛化能力。如果你对深度学习有一定深入的了解，对于这一点一定不陌生。这些研究里最为经典的当属 VAE (变分自编码器)，通过 reparameterization，将噪声结合到模型前馈的中间流程，基于不变的输入和输出，提高中间

2020-08-21 16:04:53 2261 3

原创 GLUE: 自然语言理解的标杆

自然语言处理领域在各个子任务上都有相应的榜单和标杆数据集，但放眼望去，**General Language Understanding Evaluation (GLUE)** 又是其中最为突出和亮眼的。不仅是因为数据规范，体量庞大，更是因为它同时集合了多个子任务，全方位考验模型的能力。几乎所有近年来的大型预训练模型都以在 GLUE 上实现 SOTA 为目标，可见其权威性和领导力。

2020-05-27 16:03:45 6123 1

原创 AdamW, LAMB: 大型预训练模型常用优化器

按照时间上的迭代顺序，近些年神经网络先后出现了 Gradient Descent (GD)、Momentum、Adaptive Gradient (AdaGrad)、Root Mean Square prop (RMSprop)、Adaptive Moment estimation (Adam) 等优秀的优化器。到如今，大部分 NLP 预训练模型已不再使用这些方法，而是使用 **Adam Weight Decay Regularization (AdamW)** 和去年首度亮相的 **Layer-wise

2020-05-21 17:06:07 10117 3

原创 KBQA: 趋势浅谈

KBQA百问十年大趋势语义解析槽位填充其他浪潮翻涌ACL 2019NIPS 2019AAAI 2019ICLR 2019下一个十年经典待用文段百问为更好地理解前人的创造是如何工作的，不如先对 QA 大背景下的所有问题进行统一的定义和分类。依据处理难度由低到高，可列举出以下常规类型：类别简介ExampleLogical ExpressionSimple Question...

2020-04-16 15:31:40 5447 3

原创 TensorFlow: 1.x将长时间保持主流

Tensorflow 2.0版本虽然推出已有些时日了，前两天 2.1 版本也已经放出来了，但笔者基于一些猜想，一直兴趣乏匮。今天读了读官方说明书，又在一些网站看了看先锋人士的使用体会，果不其然。最终得出结论：**熟悉 TF1.x 的开发者们暂时没有必要切换到 2.x 版本**。具体地，我分为以下几个方面来讨论。

2020-01-11 17:04:18 843

原创知识图谱综合

目录前言1 介绍1.1 基本概念1.2 应用场景1.3 公共领域1.4 生命周期2 知识表示2.1 经典知识表示体系2.2 资源描述框架(RDF)2.3 知识表示学习3 知识体系3.1 人工构建知识体系3.2 自动构建知识体系4 实体识别4.1 基于机器学习4.2 细粒度实体识别4.3 距离监督5 实体消歧5.1 实体聚类5.2 实体链接6 关系抽取6.1 限定域关系抽取6.2 开放域关系抽取7 ...

2019-09-01 09:41:13 31039

原创贝叶斯优化

AutoML 走到今天，已演化出诸多行之有效的自动调参机制，**贝叶斯优化** (Bayes optimization) 是其中的优秀代表。原理上，贝叶斯优化通过 **高斯过程** (Gaussian process) 或 **随机森林** (random forest) 拟合超参数与损失函数间的隐藏关系，并在每一轮迭代完成时基于当前拟合函数给出最优参数的建议，进入下一次迭代。相对于网格搜索和随机搜索等无头绪的超参数尝试，贝叶斯优化显然更为高效和精确。可以预期的是，不久的将来，目前流行的网格搜索和随机搜索都

2019-08-29 21:27:29 1930

原创机器学习的数学基础

目录前言一、线性代数1. 基本概念2. 运算3. 求导4. 偏导5. 矩阵分解6. 相似性二、概率论1. 概率与分布1.1 概率函数1.2 概率1.3 事件1.4 分布前言以自身笔记为主，在郭耀华的博客基础上进行丰富和补充，在这里表达感谢。一、线性代数1. 基本概念标量 (scalar)：实数；x∈Rx\in\mathbb{R}x∈R向量 (vector)：未特殊说明的情...

2019-08-29 17:26:46 417

原创 ERNIE: 2.0带来了什么

最近一段日子，我们很惊喜地看到越来越多的华夏面孔出现在自然语言处理领域的前沿。从最近叱诧风云的 XLNet 到上个星期自然语言处理顶会 ACL 2019 年的最佳长论文 (还有更多入会论文)，主要负责人都是华人/国人。夹杂着这些好消息，带着 16 项中英文 SOTA 成绩，ERNIE 2.0 的发布更是把自然语言处理的舆论氛围推向了巅峰。就百度而言，无论在产品上如何遭人诟病，其依旧是 IT 从业者们的技术天堂，ERNIE 2.0 向我们展现了它的实力。本篇文章中，我们同样以论文作为标题开始我们的解读：-

2019-08-04 17:32:58 1722 1

原创聚类算法小结

目录介绍K-MeansBIRCHDBSCAN谱聚类介绍聚类算法在于对每一条样本生成固定长度的特征向量，通过数学运算将空间中满足聚类要求的相似样本聚为一类，即我们说的簇。由于聚类算法通常为无监督学习，不需要样本标签，因而成本较低，广泛应用于相似性数据挖掘工作中。应用到推荐领域，可以为用户和产品分组。在介绍常见的聚类算法前，我们先呈现各类相似度的判断标准：余弦相似度 (Cosine Simil...

2019-07-23 14:14:11 814 2

原创 Apriori系列关联算法

目录前言AprioriFP TreeGSPPrefixSpan前言关联算法在推荐系统中非常实用。通过关联算法，我们可以轻易地得到与一样产品相关联的其他产品，i.e. 用户买了该产品以后在某个时间范围内购买的其他产品。同理，我们也可以通过关联算法得到同一产品下，经常购买的用户群。AprioriApriori 算法是最为经典的关联项集挖掘算法，其目的在于从原本独立的项目群中，挖掘出在样本数据...

2019-07-19 16:12:01 471

原创动态规划求解最长公共子序列

目录最长公共子序列二维解法多维解法最长公共子序列abbr. Longest Common Subsequence，常用于检测文本相似度，或在图数据中求取公共路径，目的是求解序列间的非连续公共部分。以下代码分别呈现二维和多维动态规划解法，原理可参考：Reference。二维解法以下代码整理自 [美] Goodrich et al. 所著《Data Structures and Algorit...

2019-07-09 07:14:17 415

原创 TensorFlow, Mxnet, PyTorch: 要点总结及常见神经网络代码实现

目录一、深度学习框架MxnetTensorFlow二、多层感知机 (MLP) (Mxnet+TensorFlow实现)三、卷积神经网络 (LeNet/AlexNet/VGG/NiN/GoogLeNet/ResNet) (Mxnet实现)四、循环神经网络 (RNN/GRU/LSTM) (Mxnet+TensorFlow实现)五、对抗式生成网络 (DCGAN) (Mxnet实现)六、区域卷积神经网络 ...

2019-07-09 07:13:33 5072

原创自然语言处理综合

通俗而言，自然语言处理 (Natural Language Processing) 即为处理与人类语言相关的各项任务。与计算机视觉类似，是一个由来已久，却在近几年被神经网络颠覆的传统领域，在人机对话、搜索引擎、后台广告推荐、机器翻译、语音识别等领域有广泛应用。传统的自然语言处理以统计学为根基，发展出了各具特色的优异模型，其中最为著名的包括朴素贝叶斯、隐马尔科夫模型 (HMM)、条件随机场 (CRF)。神经网络的出现使得 NLP 领域得到空前的发展，从 Word2Vec (2013) 到 Attention

2019-07-06 00:21:11 1262

原创支持向量机(SVM)综合

目录概念线性SVM对偶形式非线性SVM多分类SVR补充说明概念E.n. Support Vector Machine (SVM)。机器学习领域有一种概念叫线性可分 (linearly seperable) —— 可以通过设置超平面将正负案例划分到超平面的两侧。e.g. 二维数据的超平面为一条线，三维数据的超平面为一个面。这里的超平面 (hyperplane) 是支持向量机思想的核心：在超...

2019-07-05 22:05:02 410

原创标准化爬虫程序分享

目录前言介绍一、解析网页二、获取路径三、遵循路径爬取四、完整文件前言笔者趁最近闲暇之余，写了一个 400 行的标准化爬虫程序，可以说是大大加快了爬虫的速度，只需要 3-30 秒就可以获取网页页面显示文字的标准路径，并完成路径下完整信息的爬取，将针对某一类网页构建标准化爬虫流程的速度提高 100 倍以上。作为 Python 入门者也可以很快上手这一套程序。例如：设定网页爬取目标为 ‘https...

2019-06-29 12:27:21 473

原创逻辑回归

概念E.n. Logistic Regression，经典的机器学习分类算法之一，与线性回归同属于广义线性模型 (generalized linear model)。逻辑回归的作用域在于整个实数集。经由参数 WWW 和 bbb (统称为 θ\thetaθ ) 线性变换后得出的实数，由特定函数投射到 [0,1][0,1][0,1] 的值域范围内：zi=f(Xi;θ)=f(WTXi+b)z_i=f...

2019-06-17 20:46:01 246

原创集成学习综合

目录前言一、概念BaggingBoosting二、算法随机森林AdaBoostGBDTXGBoostLightGBMCatBoost前言关于与集成学习相关的基础决策树 CART 的相关原理这里不再介绍，请参考决策树 ★★。一、概念集成学习的思想在于运用集体智慧，将多个弱学习器集成为一个强学习器，常见的集成类型有 Bagging 和 Boosting 两种，而对弱学习器的选择有三种：1）不...

2019-06-17 16:42:26 406

原创决策树综合

目录一、概念二、算法ID3C4.5CART三、剪枝一、概念算法特征ID3使用信息增益度量不纯度；可处理离散型数据；可用于分类；每个节点衍生出多个分支C4.5使用信息增益率度量不纯度；可处理离散型/连续型数据；可用于分类；每个节点衍生出多个分支CART使用基尼系数度量不纯度；可处理离散型/连续型数据；可用于分类/回归；每个节...

2019-06-15 16:37:37 299

原创图路径算法综合

目录前言概念准备工作一、拓扑排序二、遍历：深度优先搜索(DFS)三、遍历：广度优先搜索(BFS)四、传递闭包：Floyd-Warshall算法五、最短路径：Dijkstra算法六、最小生成树：Prim-Jarnik算法七、最优路径：蚁群算法八、最优路径：遗传算法九、最优路径：模拟退火算法前言文中涉及的关于最优路径以及相关算法的讨论，仅限静态下以距离作为优先考量的有向图、无向图或混合图的最优路径...

2019-05-27 01:25:11 2420 1

原创霍夫曼编码

霍夫曼编码 (Huffman Coding) 诞生于1952年，迄今为止依然是可变字长编码 (VLC) 中压缩率最高的二进制编码算法之一。其原理在于根据元素出现的频率来决定其编码长度，在序列中出现频率最高的元素编码长度越短，因而可以实现序列的最佳编码。关于其介绍，更具体的请看其他热门博文。以下呈现相关代码，可编码任何类型的序列。from collections import defaultdi...

2019-05-24 18:46:35 239

原创模式匹配算法总结

前言读书笔记，整理自 [美] Goodrich et al. 所著《Data Structures and Algorithms in Python》。模式匹配模式匹配是数据结构中字符串的一种基本运算场景，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串。尽管早已可以通过 Python 下的 re 库使用正则表达式高效而简洁地实现模式匹配，但了解相关算法背后机理亦不失其学习的意义。...

2019-05-23 19:43:54 5913

原创数据结构总结

前言文中部分内容摘自 [美] Goodrich et al. 所著《Data Structures and Algorithms in Python》。一、Python语言与 Java 和 C++ 不同，Python 是一种动态类型语言，标识符的数据类型并不需要事先声明。在代码精简的同时，也使其占用不必要的内存。伪随机树生成Python 的 random 模块能够生成伪随机数，在统计上随...

2019-05-23 16:45:56 235

原创系统交互摘要

目录一、程序接口二、异常处理系统内置 Error自定义 Error三、运维日志一、程序接口当我们需要在命令行或其他编程语言中运行 .py 文件并传入指定参数，编写程序接口的重要性就不言而喻了。传统的 Python 使用系统内置库 Argparse 实现接口定义。Google 于 2017 年底开源了从 TensorFlow 中衍变而来，对 Argparse 的简易封装，使用更为简便。以下便是相...

2019-05-23 16:36:43 334

原创十大排序算法总结

目录总结1. 快速排序2. 冒泡排序3. 插入排序4. 堆排序5. 归并排序6. 选择排序7. 基数排序8. 希尔排序9. 计数排序10. 桶排序算法比较：随机数案例总结依照本文所示顺序，进行了如下总结。在最后一节中，将通过生成五组随机数对每种算法的时效性进行测试。关于时间复杂度的介绍见：算法的时间复杂度。序号排序算法代码复杂度时间复杂度(平均)时间复杂度(最坏)空间复杂度...

2019-03-22 11:54:56 533 2

原创最大熵模型(MEM)

最大熵模型的优点在于可以添加任意自定义特征，且不需要保持维度一致性（通俗而言，就是每个样本满足哪些特征，就放哪些特征；特征函数的取值均为 0 或 1；放进来的特征即表示该样本在该特征维度上取值为 1，否则默认为 0），因此适用于特征维度极大的分类任务；例如 NLP 工作中的词性标注，依据上文出现的词语判断词性，出现的词语即表示为 1，语料库中词汇的数量通常高达数十万，在通常模型中构造维度高达数十万...

2019-03-21 13:49:05 1774

原创朴素贝叶斯算法文本分类应用

朴素贝叶斯的中心思想，在于利用各类别在训练样本中的分布以及类别中各特征元素的分布，计算后验概率，使用极大似然法判断测试样本所属。出于该原理，使用该算法实现文本分类的局限性较多，例如训练集中各类样本的比例不能相差过大，比例较大的样本类别会获得更高的划分可能性；其次，该算法假设词与词之间相互独立，共享权重，忽视了词与词之间的关联性，面临共指消解 (同一实体不同表述) 的问题，因此只能用于诸如垃圾邮件识...

2019-03-18 10:35:59 1042

原创隐马尔科夫模型(HMM)及Viterbi算法实现

隐马尔科夫模型通过给定观察序列，预测隐藏序列，常用于需要从序列的表面信息挖掘隐藏信息的任务，例如语音识别、手写识别。原则上，隐马尔科夫模型还可进行诸如词性标注、中文分词等任务，但由于混淆矩阵的高宽同时由观察序列的种类数量决定，当运用到大型语料库时，词集的大小动辄上万，则混淆矩阵需要存储上亿的参数，对计算机而言不论是运行次数还是内存占用都是灾难性的；同时，隐马尔科夫模型的一大假设是，当前时间步长的隐...

2019-03-18 10:33:55 960

原创数据挖掘综合

目录一、内置函数二、从外部文件读取/写入数据三、数据清洗1) 基本代码Built-In：str 类Built-In：list 类Numpy：NDArray 类Pandas：Series 类Pandas：DataFrame 类2) 正则表达式3) 赋值四、机器学习1) 训练集与测试集划分2) 模型选择3) 模型评估分类模型回归模型4) 欠拟合和过拟合五、可视化1) Matplotlib2) Seab...

2019-03-17 10:26:59 1868 2

luv_dusk 的博客