自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Spark做词性标注遇到的问题及解决方法

在用spark做中文分词、词性标注的时候遇到了一些问题,记录一下场景及解决方法。

2017-09-25 21:29:58 1338 1

原创 Spark Partition

partition是spark rdd计算的最小单元。为什么是最小单元?先从分布式说起,分布式计算的特点就是批处理,将大量的数据分成若干批次,使得利用廉价机器搭建的集群也可以完成海量数据的计算。大量的数据分散在集群中的若干节点上,每个节点上的那部分数据,在执行计算的时候,又可以切分成若干份,每一份就是一个批次,也就是一个partition。spark计算的性能与partition的数量有很大的关系。

2017-09-23 18:21:27 4315 2

原创 Spark on YARN 笔记

一直对hadoop这套局限在会用就好,没有对hadoop生态有个系统性的深入了解,也就导致在用的时候出问题很难找到关键的原因,都得google so 各种找相关信息。所以现在觉得,还是得花一些时间,至少把与平时用到的相关部分的原理、概念理解清楚。只要是用hadoop生态的组件,很多都会用YARN来管理资源与任务分配。而资源分配的合理与否,直接关系到任务的执行效率,甚至决定成功或失败。spark又是现

2017-09-10 23:30:18 1394

原创 MySQL导入Hive - DataX方案

MySQL导入Hive可以用sqoop或者dump到本地再load into的方式导入Hive。还有一种方式就是用阿里开源的DataX,试了一下还挺方便的。用sqoop经常会出现数据倾斜的情况,DataX暂时还没有遇见。要使用DataX只需要填写一个json格式的配置文件即可,整个安装和使用的方法参照官方给出的Quick Start即可。配置文件中,主要填写mysqlreader与hdfswrite

2017-08-16 22:03:51 11149 5

原创 CoreNLP Python接口处理中文

CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能,与SpaCy类似。SpaCy号称是目前最快的NLP系统, 并且提供现成的python接口,但不足之处就是目前还不支持中文处理, CoreNLP则包含了中文模型,可以直接用于处理中文, 但CoreNLP使用Java开发,python调用稍微麻烦一点。

2017-08-02 19:03:24 13913 2

原创 TensorFlow saved_model 模块

saved_model模块主要用于TensorFlow Serving。TF Serving是一个将训练好的模型部署至生产环境的系统,主要的优点在于可以保持Server端与API不变的情况下,部署新的算法或进行试验,同时还有很高的性能。保持Server端与API不变有什么好处呢?有很多好处,我只从我体会的一个方面举例子说明一下,比如我们需要部署一个文本分类模型

2017-07-17 00:09:02 44058 30

原创 带Attention机制的Seq2Seq框架梳理

根据论文Neural Machine Translation By Jointly Learning to Align and Translate把带Attention机制的Seq2Seq框架Encoder与Decoder部分的流程图画了一下,公式梳理了一遍。

2017-07-08 22:42:26 12615 2

原创 Tensorflow新版Seq2Seq接口使用

Tensorflow 1.0.0 版本以后,开发了新的seq2seq接口,弃用了原来的接口。旧的seq2seq接口也就是tf.contrib.legacy_seq2seq下的那部分,新的接口在tf.contrib.seq2seq下。新seq2seq接口与旧的相比最主要的区别是它是动态展开的,而旧的是静态展开的。

2017-07-02 23:50:08 43929 17

原创 用于文本相似的Siamese Network

Siamese Network简介Siamese Network 是一种神经网络的框架,而不是具体的某种网络,就像seq2seq一样,具体实现上可以使用RNN也可以使用CNN。简单的说,Siamese Network用于评估两个输入样本的相似度。网络的框架如下图所示Siamese Network有两个结构相同,且共享权值的子网络。分别接收两个输入X1X_1与X2X_2,将其转换为向量Gw(X1)G_

2017-06-25 23:00:45 15289 12

原创 用于文本分类的RNN-Attention网络

这篇博客主要介绍Attention机制在文本分类任务上的作用,原理以及附带的代码实现。

2017-06-17 15:51:15 30629 4

原创 使用TensorFlow动手实现一个Char-RNN

Char-RNN非常有意思,想要深入了解最好的方式就是用自己最喜欢的工具动手实现一遍。

2017-05-19 20:56:50 9527 5

原创 TensorFlow 模型保存/载入的两种方法

TensorFlow 模型保存/载入方法记录

2017-05-08 16:02:05 51590 13

原创 强化学习入门学习记录

RL属于机器学习中比较有意思的一个领域,监督学习、无监督学习都是一堆静止的数据去训练模型,而强化学习是让模型与环境的交互中进行学习,让人感觉更像一种有智慧的生物(然而并不是)。

2017-05-06 16:35:07 1975 1

原创 FastText 文本分类使用心得

fasttext文本分类

2016-11-20 12:01:07 24430 26

原创 7天从入门到运用机器学习 (一) -- 数据探索与预处理

前言这个系列主要是面向做工程的同事做一些分享,旨在让大家都可以应用机器学习来解决问题,而不仅仅是看看理论浅尝辄止。机器学习是一门包含多方面知识的学科,想要几天掌握是不太可能的。但是如果把它当做一个工具来使用,不追本溯源,其实不需要花费太多的时间。这一系列分享的目的在于,希望全部完成以后,任何一个会写代码但对机器学习还不了解的同学,都可以上手运用机器学习的工具来完成一些预测任务,如分类或回归。机器学习

2016-10-14 16:46:23 4305

原创 MongoDB往Hive导数据

注:这里用Hive泛指数据仓库,数据还是存储在HDFS里。想要从MongoDB往Hive导数据主要有两种方式。

2016-09-11 12:31:53 8812 2

原创 Hive连接MongoDB

Hive连接MongoDBHive上创建的表可以是HDFS-based,也可以是MongoDB-based。MongoDB-based的Hive表,其实就是一个将MongoDB collection的数据与Hive表的字段相关联的映射。

2016-05-21 17:11:01 8913 1

原创 word2vec (四) 动手训练一个词向量空间

word2vec 使用实例

2016-05-14 16:40:12 14158 3

原创 word2vec (二) CBOW

未完待续…

2016-05-14 10:50:54 1249

原创 word2vec (一) 简介与训练过程概要

word2vec、词向量空间、概率语言模型、word2vec训练过程简介

2016-05-14 10:45:07 15061

原创 MongoDB学习小记

MongoDB 学习笔记因为要处理一些数据,这两天学习了一下MongoDB,在此记录下一些对MongoDB粗浅的认识。直观认识MongoDB是NoSQL(Not Only SQL)数据库之一,之前用过Redis也属于NoSQL,不过两者的应用场景很不相同。Redis是内存型k-v数据库,作为缓存可以实现高效的存取,但是做不了复杂的查询与分析。MongoDB是持久化存储的,同时支持aggregate

2016-05-01 20:53:07 862

原创 对GBDT的一点理解

GBDT由一系列的回归树组成,如下图所示(树的深度未必都要一样,下图仅为示意图)。GBDT原理针对每一个类别训练一系列的回归树,再累加每个类别回归树的预测值得到针对每个类别的最终的预测值。单独拿一个类别来说,训练的过程中假设需要预测的值为f(xi)f(x_i),实际的值为yiy_i,有Loss Function L(yi,f(xi))L(y_i,f(x_i)),f(xi)f(x_i)为参数。训练的过

2016-04-26 23:52:11 7168

原创 Tensorflow实现卷积神经网络,用于人脸关键点识别

菜鸟如何用tensorflow实现一个卷积神经网络来识别人脸关键点

2016-03-16 22:23:53 44324 70

原创 EM算法

EM 算法EM算法也就是期望最大化算法,主要用来解决含有隐变量的参数估计问题。

2016-03-14 20:29:53 1334

原创 plsa(Probabilistic Latent Semantic Analysis) 概率隐语义分析

plsa,也就是概率隐语义分析,是主题模型的一种。本文简介主题模型的概念,讲解plsa如何估计主题模型中的参数,以及算法的推导过程及代码实现

2016-03-13 17:07:45 4999

原创 从前向分步算法推导出AdaBoost

前向分步算法到AdaBoost前向分步算法与AdaBoost有什么关系呢?除了都属于Boosting的模型,其实AdaBoost是当前向分步算法损失函数为指数损失时的特例。这篇就写一下推导的过程。

2016-03-13 15:02:36 4683 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除