自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 NLP模型发展综述,从word2vec到XLNet

NLP模型发展综述word2vec时间:2013.01论文地址:https://arxiv.org/abs/1301.3781github:https://github.com/danielfrg/word2vec问题提出:one-hot编码解决了文本特征离散表示的问题,但它假设词与词相互独立并且特征向量会过于稀疏,会造成维度灾难。方法:通过训练,将每个词都映射到...

2019-08-23 20:06:26 1374 3

原创 特征工程 及其理解

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。特征工程的本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

2020-06-02 16:30:57 248

原创 tensorflow serving搭建

分为3步:1. 保存tensorflow server用的模型文件2. 在docker中启动tensorflow server3. 在客户端请求

2020-06-02 16:01:11 486 1

原创 python多进程与多线程,进程同步,共享内存

python多进程与多线程的实现,进程同步,多进程共享变量与内存。并发和并行的区别:它们虽然都说是"多个进程同时运行",但是它们的"同时"不是一个概念。并行的"同时"是同一时刻可以多个进程在运行(处于running),并发的"同时"是经过上下文快速切换,使得看上去多个进程同时都在运行的现象,是一种OS欺骗用户的现象。实际上,当程序中写下多进程或多线程代码时,这意味着的是并发而不是并行。并发是因为多进程/多线程都是需要去完成的任务,不并行是因为并行与否由操作系统的调度器决定,可能会让多个进程/线程.

2020-05-27 18:56:31 946

原创 相关文本匹配技术

问题描述根据query从海量的doc中召回最相关的N个doc。从数据上区分,通过用点击数据训练得到的模型是行为相关,通过相关本文训练的数据是语义相关。从模型上区分,有基于表征的关联模型和基于匹配的关联模型。语义关联模型从语义关联模型的角度,可以分为基于表征的模型和基于交互的模型模型的训练目标可以分为3类:pointwise,即一个query对应1个doc,标签形式为 0 或 1,标签 0 表示 query 与该 doc 不匹配,标签 1 表示匹配。 pairwi...

2020-05-14 16:29:56 196

原创 深度学习图模型综述

从deepwalk到graphsage的同质图模型,从metapath2vec到HGAN的异构图模型

2020-05-13 16:10:25 1032

原创 bert学到了什么

bert学到了什么预训练中bert的attentionheads学到了什么?(1)同一层的head表现类似,注意力分布也非常相似。(2)不同的head学到特定的语法知识。例如有的head学到动词的直接宾语、名词的限定词、介词的宾语和所有格代词的宾语。有的头学到共指消解。模型关于语法的总体知识分布在多个head上。(3)当某个head指向是宾语时,没有宾语的token就会关注[S...

2020-01-15 15:17:52 391

原创 git常用操作

git可以简单的分为三个区域 1、工作区(working directory) 2、暂缓区(stage) 3、版本库(Repository)git init #初始化仓库'''配置用户'''git config --local user.name **git config --local user.email **git status #查看git...

2019-06-04 15:33:40 62

原创 python爬动态网页

elenium+chrome抓动态网页抓取https://m.maigoo.com/brand/search/?brandlevel=2723页面中的商标名字from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver....

2019-06-04 11:36:32 130

原创 概率图模型:隐马尔可夫模型(HMM)、最大熵模型(ME)、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)对比

概率图模型对序列建模,区分概率图模型的关键是理解模型是联合概率分布还是条件概率分布,在nlp任务中,往往是要求条件概率P(y|x),联合概率分布模型通过贝叶斯公式将条件概率转换为求联合概率,再通过联合概率分布模型求解计算。隐马尔可夫模型(HMM)模型是一个联合概率分布P(Q,O),其中Q为隐变量(对应预测结果Y),O为可观测变量(对应训练数据X)。在求解问题时,通过贝叶斯公式转化为通过...

2019-05-31 11:58:45 2728

原创 BERT学习笔记

BERT模型使用Transformer模型对输入序列的每一个token进行深层的embedding,并使用了2种预训练技巧。输入将3种embeddings求和作为模型输入:Token Embeddings+Segment Embeddings+Position Embeddings输入样例:Token embeddings采用WordPiece embeddings方...

2019-05-29 10:18:41 573

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除