自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zisheng_wang_DATA的博客

王子胜_DT大数据

  • 博客(43)
  • 资源 (3)
  • 收藏
  • 关注

原创 Kettle 7.0 怎么连数据库资源库

1.为什么使用资源库如果我们是团队开发项目,除了使用SVN等版本控制软件,还可以使用Kettle的资源库,他会将转换、作业直接保存在数据库中,而且,连接资源库的话,我们就不需要每一次都新建数据库连接了,用起来还是蛮方便的。2.链接资源库Kettle7.0里面,是在右上角这个Connect来连接的2.1 资源库的类型资源库有3中类型Pentaho Repository(默认是如下图)要想链接下面两种类

2017-05-17 09:40:08 16243 19

原创 数据仓库-BI商业智能

简介商业智能(BI,Business Intelligence)。BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以

2017-05-13 15:33:13 1508

原创 《hive编程指南》学习文档(二)

3.MapReduce的输入输出

2017-05-13 12:55:36 683

原创 《hive编程指南》学习文档(一)

第一章 基础知识Hive定义1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架

2017-05-13 10:22:28 1730

原创 kafka数据可靠性深度解读

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。

2017-05-13 09:39:24 991

原创 Kettle-7.0增量抽取订单数据

原文来自:http://www.ukettle.org/thread-594-1-1.html业务需求:从mysql数据库中,抽取订单和订单明细数据,做一定的轻度清洗,并将清洗后的数据存放到指定目录下,清洗出来的错误数据存到另一个存error data的目录。 实现步骤: 1.使用表输入控件,数据库连接选择mysql如下图:2.将取数的SQL逻辑写到代码填充处,并且取数的时间范围

2017-05-11 15:27:39 9498 1

原创 Apache Kylin介绍

Kylin是ebay开发的一套OLAP系统,主要是对hive中的数据进行预计算,利用hadoop的mapreduce框架实现。通过设计维度、度量,我们可以构建星型模型或雪花模型,生成数据多维立方体Cube,基于Cube可以做钻取、切片、旋转等多维分析操作。Apache Kylin核心思想简单来说,Kylin的核心思想是预计算,用空间换时间,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成C

2017-05-04 19:33:36 2172 1

原创 ODS与数据仓库的区别

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。**ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡,

2017-05-02 09:50:20 4938

原创 Windows下Kettle-7.0集群安装

1 配置子服务器 打开ketlle目录,找到pwd目录,里面有4个XML文件,分别是子服务器的配置文件和密码文件: Carte-config-master-8080.xml是主服务器的配置文件。编辑该文件,根据情况修改其中的name\hostname\port\master等属性。Name是服务器的名称,hostname是主机名或者IP,port是端口号,Master表明是否是主服务器。此外,

2017-04-06 16:18:20 2328 3

原创 怎么在MySQL官网下载java连接MySQL数据库的驱动jar包

MySQL官网下载地址:http://dev.mysql.com/downloads/connector/点击打开链接根据自己的需要选择驱动jar包,如果是Java链接数据库的操作,选择Connector/J可以选择Platform Independent,直接下载zip文件就可以了。 也可以选择链接Looking for previous GA versions?,然后查看历史版本,下载所需版本

2017-04-06 14:52:52 2194

原创 解决Maven下载依赖慢的问题

使用Maven构建项目时,项目中有的依赖包可能下载的非常慢,我们可以通过配置镜像来解决这个问题。 之前开源中国的那个好像已经关闭了,于是我找到了一个阿里的来解决。 在Maven的配置文件(%MAVEN%/conf/setting.xml)中的< mirrors> 标签中加入 <!-- 阿里云仓库 --> <mirror> <id>alimaven</id>

2017-03-27 13:55:31 806

原创 CDH5.10.x安装

1.CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。 Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hiv

2017-03-26 00:11:33 3555

原创 Centos7安装并配置mysql5.7完美教程

1、配置YUM源下载mysql源安装包shell> wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm安装mysql源shell> yum localinstall mysql57-community-release-el7-8.noarch.rpm 检查mysql源是否安装成功 shell> yum

2017-03-25 20:12:46 743

原创 CentOS7环境搭建

1.安装 VirtualBox 5.1.14软件 推荐官方下载最新版,下载地址: https://www.virtualbox.org/wiki/Downloads 2.运行VirtualBox 5.1.14,新建3台虚拟机,并安装CentOS7操作系统 CentOS7下载地址: https://wiki.centos.org/Download 真实环境下,需要远程登录,所以我们需要使用桥

2017-03-25 20:02:11 622

原创 Kettle-7.0使用举例

1.使用举例 1.1建立转换 选中列表中的的“表输入”、“表输出”、“插入/更新”,拖拽到右侧工作区。鼠标选中节点键盘按shift键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同步数据到目标表,一是检查源表的插入和更新,同步到目标表。黑色线为生效,灰色线为失效,节点和连接可双击进行编辑。双击编辑表输入动作。可预览数据是否正确。双击编辑表输出动作。要获取的字段设置如下所示:点击“

2017-03-10 16:59:53 10366 2

原创 Win7下Kettle-7.0安装部署

1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么

2017-03-10 13:36:52 29578 4

原创 什么是Elasticsearch?

一、Elasticsearch简介Elasticsearch是一个分布式的搜索引擎,可以实时分析。可以扩展到数百台服务器,检索巨大的数据。集成在一个独立的服务器,你可以通过REST风格的API来访问。Elasticsearch是建立在Lucene之上,Lucene是一个全文搜索引擎库,最先进的,丰富特点的搜索引擎库。(Lucene只是一个库,要驾驭它,你需要用java集成Lucene,更糟糕的是,你

2017-03-06 14:28:09 1960

原创 Spark 定制版:018~Spark Streaming中空RDD处理及流处理程序优雅的停止

本讲内容:a. Spark Streaming中的空RDD处理 b. Spark Streaming程序的停止注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming两个比较高级的特性,资源动态申请和动态控制消费速率原理默认情况下,Spark是先分配好资源,然后在进行计算,也就是粗粒度的资源分配

2016-06-28 21:52:27 1391

原创 Spark 定制版:017~Spark Streaming资源动态申请和动态控制消费速率原理剖析

本讲内容:a. Spark Streaming资源动态分配 b. Spark Streaming动态控制消费速率注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解上节回顾上一讲中,我们要给大家解密park Streaming中数据清理的流程,主要从背景、Spark Streaming数据是如何清理的、源码解析三个方面给大家逐一展开背景Spark Stream

2016-06-22 21:29:37 3506

原创 Spark 定制版:016~Spark Streaming源码解读之数据清理内幕彻底解密

本讲内容:a. Spark Streaming数据清理原因和现象 b. Spark Streaming数据清理代码解析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们之所以用一节课来讲No Receivers,是因为企业级Spark Streaming应用程序开发中在越来越多的采用No Receivers的方式。No Receive

2016-06-21 21:02:03 7231

原创 Spark 定制版:015~Spark Streaming源码解读之No Receivers彻底思考

本讲内容:a. Direct Acess b. Kafka注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们讲Spark Streaming中一个非常重要的内容:State状态管理a. 为了说明state状态管理,拿两个非常具体非常有价值的方法updateStateByKey和mapWithState这两个方法来说明sparkstre

2016-06-20 21:52:56 2367

原创 Spark 定制版:014~Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密

本讲内容:a. updateStateByKey解密 b. mapWithState解密注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们从Spark Streaming源码解读Driver容错安全性:那么什么是Driver容错安全性呢?a. 从数据层面:ReceivedBlockTracker为整个Spark Streaming应用

2016-06-19 15:35:14 2330

原创 Spark 定制版:013~Spark Streaming源码解读之Driver容错安全性

本讲内容:a. ReceiverBlockTracker容错安全性 b. DStreamGraph和JobGenerator容错安全性注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们从安全角度来讲解Spark Streaming,由于Spark Streaming会不断的接收数据、不断的产生job、不断的提交job。所以数据的安全性

2016-06-15 21:34:29 1538

原创 Spark 定制版:012~Spark Streaming源码解读之Executor容错安全性

本讲内容:a. Executor的WAL机制详解 b. 消息重放Kafka注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们主要解密了ReceiverTracker具体的架构及其功能、源码实现;ReceiverTracker的架构设计a. ReceiverTracker以Driver中具体的算法在具体的Executor之上启动Rece

2016-06-12 21:21:37 1575

原创 Spark 定制版:011~Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究

本讲内容:a. ReceiverTracker的架构设计 b. 消息循环系统 c. ReceiverTracker具体实现注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们主要给大家介绍Spark Streaming在接收数据的全生命周期贯通;a. 当有Spark Streaming有应用程序的时候Spark Streaming会持

2016-06-02 13:01:25 3147

原创 Spark 定制版:010~Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考

本讲内容:a. 数据接收架构设计模式 b. 数据接收源码彻底研究注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们给大家具体分析了Receiver启动的方式及其启动设计带来的多个问题:a. 如果有多个InputDStream,那就要启动多个Receiver,每个Receiver也就相当于分片partition,那我启动Receiver

2016-05-30 22:58:14 2161

原创 Spark 定制版:009~Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

本讲内容:a. Receiver启动的方式设想 b. Receiver启动源码彻底分析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上一讲中,我们给大家具体分析了RDD的物理生成和逻辑生成过程,彻底明白DStream和RDD之间的关系,及其内部其他有关类的具体依赖等信息:a. DStream是RDD的模板,其内部generatedRDDs 保

2016-05-30 01:40:14 8858

原创 Spark 定制版:008~Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

本讲内容:a. DStream与RDD关系的彻底的研究 b. Streaming中RDD的生成彻底研究注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,我们重点给大家揭秘了JobScheduler内幕;可以说JobScheduler是整个Spark Streming的调度的核心,其地位相当于Spark Core中的DAGScheduler

2016-05-25 23:52:19 11254

原创 Spark 定制版:007~Spark Streaming源码解读之JobScheduler内幕实现和深度思考

本讲内容:a. JobScheduler内幕实现 b. JobScheduler深度思考注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,我们以JobGenerator类为重心,为大家左右延伸,解密Job之动态生成;并总结出了Job之动态生成的三大核心:a. JobGenerator: 负责Job生成b. JobSheduler:负责Job

2016-05-24 23:22:48 10926

原创 Spark 定制版:006~Spark Streaming源码解读之Job动态生成和深度思考

本讲内容:a. Spark Streaming Job生成深度思考 b. Spark Streaming Job生成源码解析注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课,主要是从Spark Streaming+Spark SQL来实现分类最热门商品的在线动态计算的事例代码开始,并通过Spark源代码给大家贯通Spark Streami

2016-05-23 00:10:06 2625

原创 Spark 定制版:005~贯通Spark Streaming流计算框架的运行源码

本讲内容:a. 在线动态计算分类最热门商品案例回顾与演示 b. 基于案例贯通Spark Streaming的运行源码注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾上节课主要从事务视角为大家探索Spark Streaming架构机制;Spark Streaming程序分成而部分,一部分是Driver,另外一部分是Executor。通过对Driv

2016-05-09 01:10:48 3875

原创 Spark 定制版:004~Spark Streaming事务处理彻底掌握

本讲内容:a. Exactly Once b. 输出不重复注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾:上节课通过案例透视了Spark Streaming Job架构和运行机,并结合源码进行了详细解说;同时也了解了Spark Streaming Job的容错机制,包括 Executor 与 Driver两方面的容错机制。也就是说Job的事务处

2016-05-09 00:13:58 9642 1

原创 Spark 定制版:003~Spark Streaming(三)

本讲内容:a. Spark Streaming Job 架构和运行机制 b. Spark Streaming Job 容错架构和运行机制注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾:上节课谈到Spark Streaming是基于DStream编程。DStream是逻辑级别的,而RDD是物理级别的。DStream是随着时间的流动内部将集合封装

2016-05-08 17:43:04 3658

原创 Spark 定制版:002~Spark Streaming(二)

本讲内容:a. 解密Spark Streaming运行机制 b. 解密Spark Streaming架构注:本讲内容基于Spark 1.6.1版本(在2016年5月来说是Spark最新版本)讲解。上节回顾:上节课谈到技术界的寻龙点穴,Spark就是大数据的龙脉,而Spark Streaming就是Spark的穴位。假如要构建一个强大的Spark应用程序 ,Spark Streaming 是一个值

2016-05-07 01:26:43 5001

原创 Spark 定制版:001~Spark Streaming(一)

Spark 定制版~Spark Streaming(一)本讲内容:a. SparkStreaming在线另类实验 b. 瞬间理解SparkStreaming的本质源码定制为什么从Spark Streaming切入?a. Spark 最初只有Spark Core,通过逐步的发展,扩展出了Spark SQL、Spark Streaming、Spark MLlib(machine learning)

2016-05-05 00:49:44 9113 2

原创 Spark-000讲:What is Spark ?

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。目前正朝着数据科学的OS发展。下面我们从以下三个方面,为大家彻底解密What is Spark?1.Spark生态

2016-04-27 22:53:15 5081

原创 scala-04For与Function进阶实战、Lazy的使用

一、for循环的进阶实战:for 循环,2 to 3,是2~3,取值2、3,是个集合Def main=(args:Array[String]):Unit{For(i<- 2 to 3;j<- 3 to 5)Println((100*i+j)+“ ”)也可在for循环中加入条件表达式(这是spark中最常见的形式,当然实际应用中条件是很复杂的):For(i<-

2016-04-27 20:53:21 736

原创 Scala-02:函数定义、流程控制、异常处理入门实战

函数定义、流程控制、异常处理入门实战

2016-04-26 21:01:20 1098

转载 第001讲-Spark内核解密:Spark五大功能组件

一、Spark SQL SQL CoreSpark SQL的核心是把已有的RDD,带上Schema信息,然后注册成类似sql里的”Table”,对其进行sql查询。这里面主要分两部分,一是生成SchemaRD,二是执行查询。生成SchemaRDD如果是spark-hive项目,那么读取metadata信息作为Schema、读取hdfs上数据的过程交给Hive

2016-01-21 20:26:40 4387

原创 第000讲-Spark内核解密:Spark到底解决了什么根本性的技术问题?

1.Spark产生的具体技术环境 在spark出现之前,hadoop的迅速发展,hadoop分布式集群,把编程简化为自动提供 位置感知性调度,容错,以及负载均衡的一种模式,用户就可以在普通的PC机上运行超大集群运算,hadoop有一个非常大的问题:hadoop是基于流处理的,hadoop会从(物理存储)hdfs中加载数据,然后处理之后再返回给物理存储hdfs中,这样不断的读取与写入,占用了大量

2016-01-21 17:17:31 1162

数据科学入门

数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。 作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

2018-02-08

TensorFlow+官方文档中文版.pdf

Google TensorFlow项目负责人Jeff Dean为该中文翻译项目回信称:"看到能够将TensorFlow翻译成中文我非常激动,我们将TensorFlow开源的主要原因之一是为了让全世界的人们能够从机器学习与人工智能中获益,类似这样的协作翻译能够让更多的人更容易地接触到TensorFlow项目,很期待接下来该项目在全球范围内的应用!"

2018-02-07

面向机器智能的TensorFlow实践

本书是一本绝佳的TensorFlow入门指南。几位作者都来自研发一线,他们用自己的宝贵经验,结合众多高质量的代码,生动讲解TensorFlow的底层原理,并从实践角度介绍如何将两种常见模型——深度卷积网络、循环神经网络应用到图像理解和自然语言处理的典型任务中。此外,还介绍了在模型部署和编程中可用的诸多实用技巧。

2018-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除