自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Gobblin Rest Api

Gobblin Rest Api基于QueryBasedSource和QueryBasedExtractor,即数据来源是基于Query,查询得到的数据,可以来源搜索引擎查询,rest api查询,数据库查询。自定义一组SimplejsonRestApi的设计。这里在本地自定义了一个基于jersery的rest服务,提供了一些Get或者Put方法。

2017-12-22 09:49:50 297

原创 Gobblin简介

Gobblin是LinkedIn公司开发的用于在Hadoop环境里统一数据抽取的框架。目前Gobblin可以建立多种pipelines,比如数据质量检查器、源数据管理、开发和其他操作。     Gobblin支持多种类型的数据源。例如数据库,Rest Api服务,FTP/SFTP,hdfs文件系统等,Gobblin对其中的数据抽取,转换和加载,包括任务调度,任务分片,错误处理,任务状态管理,数

2017-12-20 11:33:57 1053 2

原创 Gobblin data quality checker

QualityChecker用于数据质量检查,共有两种类型的QualityChecker:第一种,行级别检查器。用来决定每一条被处理的数据时候能被的提交进入下一个阶段。第二种:任务级别检查器。QualityChecker设置为OPTINAL时,表示QualityChecker可选,当数据质量不满足QualityChecker的策略policy时,只打印警告信息,不阻断job运行,当设置为FAIL时

2017-12-19 17:13:23 307

原创 Gobblin CLI

Gobblin CLI提供了在终端运行jar程序的功能,该功能通过脚本bin目录下的gobblin脚本实现。gobblin命令会自动寻找job的类路径,如果变量HADOOP_HOME被设置,gobblin会找到hadoop的类路径。bin/gobblin -h列出所有可用的参数。bin/gobblin命令的使用方法如下:bin/gobblin run [listQuickApps] [

2017-12-19 16:28:18 258

原创 Gobblin运行机制

通过Gobblin的embedded功能可以追踪Gobbblin背后的运行机制。embeddedGobblin在加载配置文件的同时,会执行Task类的线程任务。Task类是Gobblin的job主要执行场所,包括 jobId,taskId,taskState基本信息,forks分支,extractor,converter,datawriter,rowChecker组件,这些信息在Task初始化的

2017-12-18 17:22:03 332

原创 Gobblin作为嵌入应用(Library)

Gobblin可以嵌入到java应用程序,有利于Gobblin程序的开发和调试。自定义的嵌入式类必须继承EmbeddedGobblin。EmbeddedGobblin的构造方法接受一个jobName参数,用来定义job名称,而run()方法触发一个job任务,实际上run调用了runAsync()异步任务,同时run方法和runAsync方法注解为@NotOnCli。setTemplate()

2017-12-18 16:42:36 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除