田小成plus-CSDN博客

原创元学习之《OPTIMIZATION AS A MODEL FOR FEW-SHOT LEARNING》论文详细解读

引言之前的博客都是通过随机梯度下降来更新网络模型参数，本篇博客别出心裁地使用 LSTM 来模拟梯度下降的更新过程，学习一种隐式更新规则实现参数更新。个人觉得创新度还是很高的。OPTIMIZATION AS A MODEL FOR FEW-SHOT LEARNING背景基于梯度下降的深度学习模型取得了巨大成功，但是作者认为，梯度下降更新在被发明之初就是用于大规模数据的学习，在少量数据的情况下，梯度下降更新的方法会失效，主要有以下两个原因：各种基于梯度下降的优化算法，如 ADAM，Adagrad,

2020-08-30 11:15:40 1302

原创元学习之《On First-Order Meta-Learning Algorithms》论文详细解读

引言上一篇博客对论文 MAML 做了详细解读，MAML 是元学习方向 optimization based 的开篇之作，还有一篇和 MAML 很像的论文 On First-Order Meta-Learning Algorithms，该论文是大名鼎鼎的 OpenAI 的杰作，OpenAI 对 MAML 做了简化，但效果却优于 MAML，具体做了什么简化操作，请往下看????。On First-Order Meta-Learning Algorithms这篇论文的标题就很针对 MAML，MAML 中有一

2020-08-08 12:00:09 4430 4

原创 MAML 源代码解释说明 (二)

此篇是对 MAML 源代码数据生成部分的解释说明，包含了如何构造论文中正弦函数回归任务的数据，以及如何对 omniglot 和 miniImagenet 图像数据进行处理。原始文件见 data_generator.py""" Code for loading data. """import numpy as npimport osimport randomimport tensorflow as tffrom tensorflow.python.platform import flagsf

2020-07-30 15:47:09 3048

原创 MAML 源代码解释说明 (一)

前言此篇是对 MAML 源代码的解释，作者开源了论文代码，但是代码中注释很少，刚开始不容易理清思路，所以对代码中的关键部分进行了解释说明，核心是 construct_model() 函数，里面包含了 MAML 的训练过程，看代码实现能够更清楚地理解作者的思想。maml.pymaml.py""" Code for the MAML algorithm and network definitions. """from __future__ import print_functionimport nu

2020-07-30 15:38:59 6783 6

原创元学习方向 optimization based meta learning 之 MAML论文详细解读

目前 meta-learning 的研究一共有三个方向：optimization basedmetric basedmodel based本篇要讲的论文是第一个方向，optimization based 中的开篇之作，《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》简称 MAML引言上一篇博客中是对这篇论文的纯翻译，这次来讲解下这篇论文是怎么做 meta-learning 的，这篇论文是 2017 年.

2020-07-19 23:06:44 5968 11

原创《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》论文翻译笔记

此篇文章是对论文 Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks的纯翻译，英语水平有限，很多地方是直接翻译，有不对的地方还请大家指正。之后会出一篇详细的讲解版本，敬请期待。。。摘要这篇文章提出一个模型无关的元学习算法，该算法适用于任何一个可使用梯度下降更新训练的模型，并且可用于分类、回归、强化学习等场景。元学习的目标是在大量不同的任务上预先训练出一个模型，用这个模型可以在新任务的少量样本上进行训练。本文提出的方法中，.

2020-06-07 19:10:54 3512

原创 Python从零到一构建GPT模型

只用Python和 torch框架，从零到一构建GPT模型，对大语言模型入门，了解GPT的内部网络结构，是一个很好示例。

2024-03-29 15:01:25 429

原创 LLM源码系列-Baichuan2模型代码解读

对百川大模型的详细代码解读

2023-12-29 11:21:17 796

原创 LLM大语言模型-MOSS解读

原始blog在 notion 中，这里帖一个 notion的链接吧。

2023-05-10 11:42:21 522

原创 Airbnb系列三《Managing Diversity in Airbnb Search》搜索多样性

搜索系统中一个长期的问题是结果多样性。从产品角度讲，给用户多种多样的选择，有助于提升用户体验及业务指标。多样性需求和模型的目标是相矛盾的，因为传统ctr模型是 point wise，只看单个相关性不管相邻之间item差异。论文解决多样性的问题，从启发式的方法开始，最后介绍了结合RNN 的创新性的 DL 方法。

2023-02-28 21:10:19 512

原创 Airbnb系列二《Airbnb搜索应用深度学习的曲折之路》

此篇论文是Airbnb搜索团队应用深度学习的曲折之路，讲述了一个微笑曲线式的过山车实践过程。整篇论文非常诚恳，并且具有很强的实践意义和借鉴价值。此篇博客是在组内的一次分享，上传的都是图片格式，感兴趣的小伙伴，可以私信楼主，发送ppt原文。

2022-10-13 10:47:18 207

原创 Airbnb系列一《Real-time Personalization using Embeddings for Search Ranking at Airbnb》论文分享

Airbnb团队开 embedding之先河，将 embedding技术成功应用到搜索排序业务中，构建了基于embedding的实时推荐系统，并取得了不错的业务收益。此篇论文也获得了 2018 kdd best paper，值得反复咀嚼。此篇博客是在组内的一次分享，上传的都是图片格式，如有感兴趣的小伙伴，可私信楼主，发送ppt原文。

2022-10-13 10:10:58 366

原创 Milvus向量检索Demo初探

Milvus 是什么Milvus 于 2019 年开源，致力于存储、索引和管理由深度神经网络学习与其他机器学习模型生成的海量 Embedding 向量。Milvus 向量数据库专为向量查询与检索设计，能够为万亿级向量数据建立索引。与现有的主要用作处理结构化数据的关系型数据库不同，Milvus 在底层设计上就是为了处理由各种非结构化数据转换而来的 Embedding 向量而生。Milvus 2.0 是一款云原生向量数据库，采用存储与计算分离的架构设计，所有组件均为无状态组件，极大地增强了系统弹性和灵活性

2022-04-12 18:48:54 2523

原创 ANN之乘积量化PQ

一、何为乘积量化乘积量化（Product Quantization）简称 PQ。是和VLAD算法由法国INRIA实验室一同提出来的，为的是加快图像的检索速度，所以它是一种检索算法。现有的检索算法存在一些弊端，如 kd树不适合维度高的数据，哈希（LSH）适用中小数据集，而乘积量化这类方法，内存占用更小、数据动态增删更方便。二、算法流程PQ系列的算法流程分三个阶段：训练、量化、查询2.1 训练分段：假设样本向量维度D=64，PQ算法会先将原始的D维向量分成M段，假设M=8，那么一个原始向量就被分成8

2022-04-07 12:15:40 3022

原创 ANN之KD-Tree

一、何为 KD-treekd（k-dimensional）树的概念自1975年提出，试图解决的是在k维空间为数据集建立索引的问题。在已知样本空间如何快速查询得到 query 近邻？唯有以空间换时间，建立索引便是计算机世界的解决方法。但是索引建立的方式各有不同，kd树只是是其中一种。它的思想如同分治法，即：利用已有数据对k维空间进行切分。当 k=1时，也就是一维空间的kd树，就是我们所熟知的二叉查找树二叉树在时间复杂度上是O(logN），远远优于全遍历算法。对于该树，在空间上理解就是，树的每个节点把对

2022-04-06 18:41:05 2127

原创 tf.keras.layers.Input()输入层

1 函数参数解析layers.Input( shape=None, batch_size=None, name=None, dtype=None, sparse=False, tensor=None, ragged=False, **kwargs,)Returns: A tensor.参数:shape: 函数的输入形状，数据的形式为元组(元组参数要为int型)，不包含batch大小的那个维度。如果你有某个维度的信息不知道

2022-04-02 15:24:55 2167

原创元学习之《Siamese Neural Networks for One-shot Image Recognition》代码解读

元学习系列文章optimization based meta-learning《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》论文翻译笔记元学习方向 optimization based meta learning 之 MAML论文详细解读MAML 源代码解释说明 (一)MAML 源代码解释说明 (二)元学习之《On First-Order Meta-Learning Algorithms》论文详细解读

2021-02-03 17:46:17 1139 3

原创元学习之《Matching Networks for One Shot Learning》代码解读

前言此篇是 metric-based metalearning 的第一篇，所谓 metric-based 即通过某种度量方式来判断测试样本和训练集中的哪个样本最相似，进而把最相似样本的 label 作为测试样本的 label，总体思想有点类似于 KNN。Matching Network此篇论文的核心思想就是构造了一个端到端的最近邻分类器，并通过 meta-learning 的训练，可以使得该分类器在新的少样本任务上快速适应，并对该任务的测试样本进行预测。下图是 Matching Network 的网络

2021-02-02 18:34:23 2505 2

原创 Python-闭包与自由变量

闭包闭包（Closure）是Python中的高级概念，它只出现在嵌套函数中，但和嵌套函数有很大的不同，那就是闭包使用了一个叫自由变量的东西。实际中，闭包就是一个函数，只不过这个函数可以引用没有在该函数内部定义的变量，这个函数本身可以是匿名函数也可以是非匿名函数。光说不练假把式，下面通过一个例子理解一下。def make_averager(): series = [] def averager(new_value): series.append(new_value)

2021-01-04 17:31:23 2054

原创 LeetCode 1536 Minimum Swaps to Arrange a Binary Grid 解题思路

参加 LeetCode week-200 的周赛，遇到一道很有意思的题，卡了很久，结束后看了大佬的解题思路，顿时豁然开朗，遂提笔记录一下题目1536. Minimum Swaps to Arrange a Binary GridGiven an n x n binary grid, in one step you can choose two adjacent rows of the grid and swap them.A grid is said to be valid if all the c

2020-08-02 19:48:54 234

原创 LeetCode之923. 3Sum With Multiplicity

题目链接：https://leetcode.com/problems/3sum-with-multiplicity/题目描述：Given an integer array A, and an integer target, return the number of tuples i, j, k such that i < j < k and A[i] + A[j] + A[k] == target.As the answer can be very large, return it mo

2020-07-12 17:04:45 164

原创 tf.map_fn() 函数使用说明及示例

map_fn(fn, elems, dtype=None, parallel_iterations=None, back_prop=True, swap_memory=False, infer_shape=True, name=None)map_fn 是 tf 中的一个高级函数，其中 fn 是一个可调用函数， elems 是需要处理的 tensors, 可以是一个也可以是一个 tuple，tf 会在每个 Tensor 的第一维度进行展开，然后执行 map 操作，也就是对展开后的每个

2020-05-17 22:12:21 3720 2

原创 LeetCode 回溯问题专题及总结

LeetCode 回溯问题专题及总结代码leetcode 回溯问题专题及总结，只有 medium 难度，包含了当前的所有 Medium & Backtracking 问题，使用 python3 的 jupyter notebook 编写，详细代码请看 my github总结回溯问题模板：定义一个全局变量，用以添加回溯过程中找到的一组解定义回溯函数：2.1 回溯函数参数...

2020-04-30 10:54:25 469

原创 Pandas内存优化 trick

本篇内容大部分翻译自 https://www.dataquest.io/blog/pandas-big-data/将内存使用量减少高达90％的方法当使用 pandas 处理小规模数据，如 100M 左右，性能问题不用担心。但是当处理稍大规模数据，如 G 级别的数据，性能问题就会使运行时间变长，甚至会出现内存不足而导致失败，就是所谓的 OOM 问题。一些大数据工具如 Spark 可以处理...

2019-11-07 22:27:33 762

原创 Python 多进程（1）

Process Class使用 Python 模块的 Process 类创建子进程：def start_string(len, output): """ Each sub process do""" str_list = list() # "abcdefghijklmnopqrstuvwxyz" str_range = string.ascii_lowercas...

2019-10-12 21:39:36 208

原创 TensorFlow分布式采坑记

文章目录前言单机单卡单机多卡分布式训练分布式训练架构：parameter server分布式训练策略：模型并行与数据并行模型并行数据并行复制训练: Replicated trainingin-graph replicationbetween-graph replication分布式参数配置MonitoredTrainingSession异步训练同步训练Distributed_mnist加载模型预测...

2019-01-06 21:35:09 13926 10

原创二分查找爬过的坑

二分查找看似简单，但是刷多了二分查找的题，就会遇到很多意向不到的坑，真的是实践出真知啊，现总结下二分查找遇到的坑。一朴素版二分查找：在有序数组中查找关键字，找到就返回下标，不管重复不重复。//朴素版二分查找int bitsearch(int A[],int n,int k){ int l=0,r=n-1; int mid; while(l <= r){ //为什么不是 l

2017-08-30 01:40:11 958

原创 FM模型解读

最近在公司一直在搞FM及FFM模型优化，也做了几把实验，但是对FM模型的原理仍是一知半解，理解的不是很透彻，加上最近又开始找工作了，因此对FM模型做下梳理加深理解。一.FMFM解决的问题：大规模稀疏数据下的特征组合问题。为什么要特征组合：实践中通过观察大量的样本数据可以发现，某些特征经过关联之后，与label之间的相关性就会提高。例如“USA”与“Thanksgiving”，“China”与

2017-08-03 00:36:56 23217 7

原创 Sublime Text2中文乱码问题

Sublime Text 2是一个非常不错的源代码及文本编辑器，但是不支持GB2312和GBK编码在很多情况下会非常麻烦。不过Sublime Package Control所以供的插件可以让Sublime Text 2几乎完美地支持CJK编码的文本。安装Sublime Package Control的过程，网上有很多人说打开命令行输入代码之类的或者直接复制Convert2Utf8插件，但是楼主都试过

2017-07-29 12:56:07 948

原创 tensorflow安装错误

安装TensorFlow CPU版本，import tensorflow时出错：AttributeError: type object ‘NewBase’ has no attribute ‘is_abstract’出现这个问题，six包安装版本有问题，可以卸载原有版本，重新安装最新版本，但是直接安装后发现版本还是没有改变：>>> import six>>> print(six.__version

2017-07-13 00:04:47 348

原创卷积的本质及物理意义

卷积的本质及物理意义http://blog.csdn.net/tiandijun/article/details/40080823

2017-04-25 13:46:28 828

原创实习面试随记

三月初，陆续投了几个简历，冒着被导师骂的风险战战兢兢的去面试了几家(其实是自己心虚~~~)。现在将几家公司的面试内容记录一下，一方面给自己打气（还有几家将要面试的），一方面给后来的学弟学妹们一个参考，想当初我也是到处搜集面试经历。其实面到现在我觉得有几个比较重要的点，是至关重要的，一个是自信，一个是项目经历，一个是基础知识，还有一个就是刷题多刷题。自信是你外在表现出来的一种积极、有把握、行云流水的一

2017-03-09 01:14:26 735

原创拓扑结构相同子树

https://www.nowcoder.com/study/vod/1/3/2 对于两棵彼此独立的二叉树A和B，请编写一个高效算法，检查A中是否存在一棵子树与B树的拓扑结构完全相同。给定两棵二叉树的头结点A和B，请返回一个bool值，代表A中是否存在一棵同构于B的子树。1, 普通二叉树解法：遍历+匹配，B要么和A完全一样，要么是A的左子树的子树要么是A的右子树的子树。需要考察A中以每个节

2017-03-05 18:01:24 933

原创统计学习方法第五章

统计学习第五章：决策树决策树模型分类决策树模型是一种描述对实例进行分类的树形结构，表示基于特征对实例进行分类的过程。决策树由结点和有向边组成。结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个具体的类。分类的时候，先从根节点开始，当前节点设为根节点，当前节点必定是一种特征，根据实例的在该特征上的取值，向下一层的节点移动，直到到达叶节点，将实例分到叶节点对应的类中。

2017-02-27 00:08:38 645

原创统计学习方法第四章

统计学习方法第四章：朴素贝叶斯法朴素贝叶斯法　　朴素贝叶斯法基于特征条件独立假设学习到给定数据集的联合概率分布P(X,Y)，具体地是通过学习先验概率分布及条件概率分布，两个概率相乘即得联合概率分布。先验概率是在缺乏某个事实的条件下描述某个变量，个人理解在机器学习中，我们要求出测试样例属于某一个类别的概率，那么先验概率就是不考虑任何因素每个类别出现的概率(P(Y=Ck))，这种情况下应该将样本归

2017-02-26 14:23:17 626

原创最短排序子数组

链接：https://www.nowcoder.com/courses/1/2/19 来源：牛客网对于一个数组，请设计一个高效算法计算需要排序的最短子数组的长度。给定一个int数组A和数组的大小n，请返回一个二元组，代表所求序列的长度。(原序列位置从0开始标号,若原序列有序，返回0)。保证A中元素均为正整数。测试样例： [1,4,6,5,9,10],6 返回：2这道题最优解时间复杂度是

2017-02-25 00:50:51 324

原创统计学习方法第三章

统计学习方法第三章：K近邻K近邻法和其他的机器学习方法不太一样，因为它没有显示的学习的过程，可以理解为没有训练的过程。K近邻思想:给定一个训练集，当对新的测试样本分类时，分别计算测试样本和训练集中每个样本的距离即相似度，从中选择前K个最相似的样本，然后从这K个最相似样本中，选择出现次数最多的类别作为测试样本的类别。可见K近邻法的好坏与三个因素有关：如何度量样本相似度(距离度量)？K值如何选取(K

2017-02-24 23:13:08 2130

原创统计学习方法-第二章

第二章：感知机算法感知机是二分类的线性模型，输入实例的特征向量，输出实例的±类别。模型表达如下： w·x表示向量w和x的内积。sign是一个映射函数，由线性变换到输出空间(+1,-1)的一个映射。这个映射函数是 ,当w*x+b>=0，y=+1，否则y取-1.感知机的学习策略如果给定一个数据集，如果存在某个超平面S：w·x+b=0,能够将数据集中的正样本点和负样本点全部分开，及全部正确划

2017-02-24 01:55:40 853

原创统计学习方法第一章

统计学习方法第一章经验风险最小化：模型在训练集上的损失最小的一种策略，当数据集合较大时，会使模型在训练集上表现良好，但是容易造成过拟合，即在测试集合上表现欠佳。结构风险最小化：结构风险最小化是防止过拟合的一种策略，是在结构风险最小化的基础上加上表示模型复杂度的正则化项或者惩罚项。所谓表示模型复杂度的正则化项，模型复杂度是一个函数，具体可以是模型参数向量的范数或者其它形式，然后再乘以一个

2017-02-20 23:56:37 322

原创转换字符串到整数

lintcode链接地址：http://www.lintcode.com/zh-cn/problem/string-to-integer-ii/转换字符串到整数实现atoi这个函数，将一个字符串转换为整数。如果没有合法的整数，返回0。如果整数超出了32位整数的范围，返回INT_MAX(2147483647)如果是正整数，或者INT_MIN(-2147483648)如果是负整数。您在真实的面试中是否遇

2016-07-22 11:03:47 358

《maven实战》高清版

《机器学习实战》源代码

空空如也