自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

maixia24的专栏

https://github.com/xiaofateng/

  • 博客(174)
  • 资源 (16)
  • 收藏
  • 关注

原创 HCatalog Streaming Mutation API

HCatalog Streaming Mutation API背景Hive新版本支持插入,删除,更新操作,ORC格式的文件支持同一个事务中的大批量数据修改,Hive的执行引擎,现在在每一个单独的事务中提交每一个独立的修改操作,然后,让hive表扫描(这些扫描其实是MR任务)来执行修改操作。这种方式不能满足在一个原子的管理方式下,处理大量的deltas文件。Streaming API只能写新...

2019-01-27 23:39:52 462

原创 Streaming Data Ingest介绍

Streaming Data Ingest介绍主要是使用Hive HCatalog Streaming API传统情况下增加新的数据,需要收集hdfs上的数据,并且定期的向新的分区中增加。那么,batch insert是很有必要的。之前,不能向已存在的分区中插入数据,现在,hive0.14版本之后,Hive Streaming Api支持持续的插入数据。新插入的数据,可以在一个批次中,提...

2019-01-27 23:39:02 1368

原创 hive事务讲解

hive事务讲解hive0.14版本之后,开始支持事务。hive中事务的引入,使Hive支持行级别的ACID,读操作与写操作不会冲突。hive事务的限制条件1.在现在的版本中,只支持ORC文件格式。2.默认情况下,hive的事务性是关闭的,开启需要设置transactional=true。3.表必须是Bucket表。4.外部表不能成为ACID表,因为外部表的变化,不能被Compact控...

2019-01-27 23:38:17 2249

原创 Mysql数据实时导入Hive

Mysql数据实时导入Hive背景目前,我公司大数据团队,使用的数据仓库是Hive。客户端开发团队,使用的数据库是Mysql,客户端上的各种数据都存储在了Mysql中。每天凌晨,大数据团队会批量把Mysql从库的全部数据导入Hive。此方案存在的问题是:每天全量导入数据耗时较长,且对集群消耗较大。Hive中数据每天更新一次,时效性较低。在批量导入过程中,不能对Hive进行任何操作...

2019-01-27 23:37:00 7310 3

原创 Hyperledger系列(十五)MSP图解

图1图2图3图4图5在order setup的时候,需要生成并向orderer提供system Channel的genesis block。出现在网络中所有MSP的验证元素(即各种证书,配置),必须包含到系统channel的genesis block中管理该channel的MSP,必须存在于channel的创世纪块中...

2018-04-13 18:11:39 2507

原创 Hyperledger系列(十四)向一个Channel中添加Org

环境准备本文,根据byfn例子,介绍手动向Channel中添加一个Org的详细步骤。日志配置将cli 和 Org3cli containers的日志级别CORE_LOGGING_LEVEL修改为 DEBUG修改first-network目录中的docker-compose-cli.yaml文件,cli: container_name: cli image: hyperledger/fabr...

2018-04-13 18:09:42 1352

原创 Hyperledger系列(十三)开发Chaincode

Chaincode简介chaincode通常处理由网络成员赞同的业务逻辑,因此它类似于“智能合约”。 可以调用chaincode来更新或查询提案交易中的ledger。 如果有适当的许可,chaincode可以调用另一个chaincode,以访问其状态,无论是在同一个Channel还是在不同的Channel中。 请注意,如果被调用的chaincode与调用chaincode位于不同的通道上,则只允许...

2018-04-13 18:09:23 2682

原创 Hyperledger系列(十二)MSP详细介绍

简介MSP的作用,不仅仅在于列出谁是网络参与者或Channel成员。 MSP可以确定,成员在MSP所代表的Org(trust domain)(例如,MSP管理员,组织细分成员)中扮演的特定角色。 它将MSP的配置通告给,相应组织的成员参与的所有Channel(以MSP Channel的形式)。 Peers, orderers 和 clients还维护本地MSP实例(也称为 Local MSP),以...

2018-04-03 21:43:41 8984 2

原创 Hyperledger系列(十一)Peer channel-based event services

简介在以前的Fabric版本中,peer event service 被称为event hub。 无论block关联哪个Channel,该服务都会在任何时候,将新block添加到peer Ledger时发送event。并且只有运行event peer的组织的成员才可以访问该event。从v1.1开始,有两个提供event的新服务。 这些服务使用完全不同的设计来按每个Channel提供事件。 这意味...

2018-03-30 18:06:05 1260

原创 Hyperledger系列(十) Fabric MSP和Fabric CA的区别

Hyperledger Fabric MSP和Fabric CA的区别MSP是Membership Service Provider - 是可插拔的接口,它用于支持各种认证体系结构,为membership orchestration architecture提供抽象层。 MSP抽象提供:具体的身份格式用户证书验证用户证书撤销签名生成和验证而 Fabric-CA 用于生成证书和密钥,以真正的初始化M...

2018-03-30 18:04:03 7296

原创 Hyperledger系列(九)构建你的第一个区块链网络

Building Your First Network 步骤详解介绍build your first network (BYFN) 包含的内容第一个Hyperledger Fabric network由下面内容组成: 4 个peers,代表2个不同的organizations。 1 个orderer 节点。 启动1个 container, 执行脚本,将peers加入Channel,部署和实例化Ch...

2018-03-30 18:02:54 5504 1

原创 Hyperledger系列(八)Channel 配置 (configtx)

Channel 配置(configtx)Hyperledger Fabric区块链网络的共享配置,存储在collection configuration transactions中,每个Channel一个。 每个configuration transaction 通常使用一个较短的名称configtx。Channel配置具有以下重要属性:Versioned(版本化):配置文件中的所有元素,都有一个...

2018-03-27 19:01:45 25936

原创 Hyperledger系列(七)Read-Write set语义实现细节

Read-Write set语义本文讨论了关于Read-Write set语义的当前实现的细节。Transaction 模拟和 read-write set在endorser上模拟transaction时,为transaction准备了read-write set。 read set包含在模拟期间,transaction读取的唯一keys及其提交版本(version)的列表。 write set包...

2018-03-27 19:01:05 1597

原创 Hyperledger系列(六) Fabric中的 事件框架

介绍事件框架支持发出2种类型的event(事件),block和自定义/chaincode event(在events.proto中定义的ChaincodeEvent类型)的能力。基本思想是,client(event consumers\事件消费者)将注册event类型(当前为“block”或“chaincode”)。并且在chaincode的情况下,它们可以指定附加的注册标准,即chaincode...

2018-03-26 15:43:39 6149

原创 Hyperledger系列(五) Fabric 的 System Chaincode

介绍用户编写的Chaincode在container中运行(本文中称为“用户chaincode”),并通过网络与peer进行通信。 这些Chaincode可以执行的代码有限制的。 例如,他们只能通过“ChaincodeStub”接口(如GetState或PutState)与peer进行交互。 Chaincode需要放宽这些限制,这样的Chaincode被广义地称为“System Chaincode...

2018-03-26 15:43:21 1124

原创 Hyperledger系列(四) Fabric 1.0架构介绍

简介本文主要介绍了Fabric1.0中的重大变化和架构。Fabric1.0版本中,把节点分为peers节点(维护state、ledger)和orderers节点(负责对ledger中的transactions达成共识)。在Fabric0.6和之前的版本中,没有这一概念。介绍了Endorsing peers,它作为一类特殊的peers,负责同时执行chaincode和endorsing transa...

2018-03-26 11:15:44 2575

原创 Hyperledger系列(三) Fabric 源码和镜像下载

Hyperledger Fabric 源码和镜像下载在这之前需要下载安装Docker和Go环境,安装简单,不再介绍。Hyperledger Fabric的源码和镜像下载非常简单,只需要执行下面一个命令:curl -sSL https://goo.gl/6wtTN5 | bash -s 1.1.0-rc1上面的命令,是执行下面的脚本https://github.com/hyperledger/fab...

2018-03-16 12:47:19 8122 1

原创 Hyperledger系列(二)Hyperledger Composer介绍

Hyperledger Composer是一系列的,用于构建区块链商业网络的协同工具。它帮助商业主更简单、更快的构建,帮助开发者创建智能合约和区块链应用来解决商业问题。它用JavaScript,和更现代化的工具,包括node.js、npm、CLI等。Composer提供的是一个商业抽象,具体可以参考汽车商业的例子。通过使用Hyperledger Composer,一个商人可以和开发者合作, 定义在...

2018-03-14 18:15:33 2695

原创 Hyperledger系列(一)Hyperledger基础介绍

包含分布式账本和智能合约。什么是分布式账本一个只允许记录或者交易日志追加的系统。Blockchain (区块链) 可以用来记录承诺、交易或者简单的我们不想让它消失的条目。在给定网络的所有节点中,它都存在备份,不可能被擦除或者修改。(基于共识机制,擦除或者修改,意味着要修改所有节点中至少一半节点的内容,作弊成本非常高,几乎不可能。)交易按照区块链中的顺序处理,处理的结果就是一个分布式账本。智能合约是...

2018-03-14 17:37:30 6571

原创 SparkStreaming和Kafka的整合方式

2018-02-08 15:39:51 1126

原创 Spark入门三部曲之第一步Spark基础知识

Spark运行环境Spark 是Scala写的, 运行在JVM上。所以运行环境是Java6或者以上。 如果想要使用 Python API,需要安装Python 解释器2.6版本或者以上。 目前Spark(1.2.0版本) 与Python 3不兼容。 Spark下载下载地址:http://spark.apache.org/downloads.html,选择Pre-built for H...

2015-08-04 13:18:00 10594

原创 Spark入门三部曲之第二步Spark开发环境搭建

使用Scala+IntelliJ IDEA+Sbt搭建开发环境提示搭建开发环境常遇到的问题:1.网络问题,导致sbt插件下载失败,解决方法,找到一个好的网络环境,或者预先从我提供的网盘中下载jar(链接:http://pan.baidu.com/s/1qWFSTze 密码:lszc)将下载的.ivy2压缩文件,解压后,放到你的用户目录下。2.版本匹配问题,版本不匹配会遇到各种问题,解决方法,按照如下

2015-08-04 13:13:01 3562

原创 Spark入门三部曲之第三步Spark程序的开发和运行及WordCount

Spark入门三部曲之第三步Spark程序的开发和运行及WordCount编写wordcount程序手动导入包:import org.apache.spark.SparkContext._val conf = new SparkConf().setAppName(“wordCount”)// 创建一个Spark Context. val sc = new SparkContext(conf) v

2015-08-04 13:05:24 1744

原创 hadoop集群错误

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.net.UnknownHostException: ubuntu: ubuntu: Name or service not knownhostname查看下自己的主机名是ubuntu,但是在/etc/hosts里面却找不到ubuntu对应的ip,添加127.0.0.1 ubu

2015-04-05 10:01:12 611

原创 oozie安装遇到问题解决

安装按照官网:http://oozie.apache.org/docs/4.1.0/DG_QuickStart.html1.其中:Building Oozie过程,由于联网下载组件,耗时较长,大约1到数个小时。 hadoop.proxyuser.[OOZIE_SERVER_USER].hosts [OOZIE_SERVER_HOSTNAME] h

2015-02-12 10:42:47 5394 1

原创 mysql 编码utf-8

查看show variables like ‘%character%’;show variables like’%collation%’; [mysqld] 标签下加上:character_set_server = utf8 [mysql.server]标签下加default-character-set = utf8[mysqld_safe]

2015-02-03 13:50:30 513

原创 apt-get install 的替换命令及mysql安装问题的解决

Some packages could not be installed. This may mean that you haverequested an impossible situation or if you are using the unstabledistribution that some required packages have not yet been create

2015-02-02 17:30:07 13146

转载 ubuntu telnet服务开启

http://jingyan.baidu.com/article/48b558e35e51f97f38c09ae7.html步骤如下:在终端输入命令:sudo apt-get install xinetd telnetd安装成功后,系统会显示有相应得提示运行:        sudo vi /etc/inetd.conf

2015-01-31 12:13:51 865

转载 linux之ssh互信配置(无密码登录)

http://blog.sina.com.cn/s/blog_537de4b50101ho5l.htmlhttp://blog.163.com/cao_jfeng/blog/static/704507232012018103038201/http://blog.csdn.net/wangwenwen/article/details/8824371

2014-10-24 10:00:25 1581

原创 awk之if语句的使用

awk  -F","  '{ if($4=="江苏"){print $1} else {print  $0} } '  test.txt

2014-09-17 11:23:09 55752

原创 linux基础只是之awk命令使用,统计最大长度

scan 'shortUrl',{COLUMN=>['su:customerId','su:postId'], LIMIT=>10}echo "scan 'foo'" | ./hbase shell > myTextecho "scan 'registration',{COLUMNS=>'registration:status'}" | hbase shell | grep "^ "

2014-08-28 22:43:59 8296

原创 hadoop管理

打开回收站功能: fs.trash.interval 1440 fe

2014-08-27 11:57:17 512

原创 Hbase扫描

scan.setStartRow(msisdn.getBytes());scan.setStopRow((msisdn + "~").getBytes());这样可以指定扫描

2014-08-14 11:10:08 790

原创 linux系统学习之awk命令

echo "scan 'shortUrl',{COLUMN=>['su:customerId','su:postId']}" | ./hbase shell > myText将Hbase表数据输出到文件中awk '{print $1,substr($4,7)}' myText | awk '{if (NR%2==0){print " "$2} else {printf $0}}'

2014-08-11 20:08:41 621

原创 Hbase 数据导出到文件中

echo "scan 'foo'" | ./hbase shell > myTextecho "scan 'registration',{COLUMNS=>'registration:status'}" | hbase shell | grep "^ " > registration.txt

2014-08-07 10:42:14 15742 5

原创 linux学习之定时跑任务

crontab

2014-08-06 18:36:04 784

原创 hadoop知识之counter

在mapper中context.getCounter("errorLines", "mapShortUrl").increment(1);

2014-08-06 14:01:37 652

原创 hadoop知识之Datanode 目录结构

${dfs.data.dir}/└── current/├── VERSION├── blk_├── blk_.meta├── blk_├── blk_.meta├── ...├── blk_├── blk_.meta├── subdir0/├── subdir1/├── ...└── subdir63/

2014-08-06 11:01:36 1417

原创 hadoop之Secondary namenode目录结构

${fs.checkpoint.dir}/├── current/│ ├── VERSION│ ├── edits│ ├── fsimage│ └── fstime└── previous.checkpoint/├── VERSION├── edits├── fsimage└── fstime

2014-08-06 10:44:16 1257

原创 hadoop知识之fsimage和editlog

fsimage:filesystem image 的简写,文件镜像。

2014-08-06 10:02:10 10482

(12)使用数据分区优化join

数据分区 设计RDD的Partitioner

2015-06-10

(11)数据分区

优化并行度 数据分区 优化并行度 数据分区

2015-06-10

(10)KeyValue对RDDs(二)

(10)KeyValue对RDDs(二)

2015-06-10

(9)KeyValue对RDDs(一)

KeyValue对RDDs介绍 创建KeyValue对RDDs KeyValue对RDDs的操作

2015-06-10

(8)RDDs的特性

RDDs的血统关系图 RDDs的延迟计算 RDD.persist()

2015-06-10

(7)RDDs基本操作之Actions

RDDs基本操作之Actions

2015-06-10

(6)RDDs基本操作之Transformations

Transformations介绍 逐元素transformations 集合运算

2015-06-10

(5)RDDs介绍

RDDs介绍 RDDs的创建方法 Scala的基础知识

2015-06-10

(4)Spark程序的开发和运行

创建SparkContext WordCount程序

2015-06-10

(3)Spark开发环境搭建

使用Scala+IntelliJ IDEA+Sbt搭建开发环境

2015-06-10

(2)Spark基础知识

Spark下载 Spark的Shells Spark的核心概念

2015-06-10

(1)Spark简介

从bigdatastudy.cn下载的讲义

2015-06-10

Apache Hadoop YARN.pdf完整电子版

Apache Hadoop YARN.pdf完整电子版

2015-03-31

perl-base_5.14.2-6ubuntu2.4_amd64

mysql安装时候遇到依赖问题,这是需要的包。 详情见: http://blog.csdn.net/maixia24/article/details/43410093

2015-02-02

hadoop-eclipse-plugin-1.2.1.jar

hadoop eclipse 插件,编译环境 hadoop1.2.1+ eclipse 版本 Version: Kepler Service Release 1 在我的ubuntu下亲测可用

2013-10-27

advanced rest client json文件

advanced rest client 需要加载的json文件

2013-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除