自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (10)
  • 收藏
  • 关注

原创 自定义Hbasesink实现自定义rowkey及实时传输数据库数据至大数据平台

自定义Hbasesink实现自定义rowkey及自定义数据格式/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for addi

2017-09-13 10:11:27 1869

原创 阿里巴巴大数据之路读书分享

阿里巴巴大数据之路读书分享文章目录阿里巴巴大数据之路读书分享前言阿里巴巴大数据系统的体系架构图及介绍数据采集层数据采集数据传输数据计算层离线数据开发实时数据开发数据服务层数据应用数据模型模型体系架构模型实施维表设计事实表设计规范定义结语前言《阿里巴巴大数据之路》业内公认好书,几乎人手一本,奈何绝版了。托公司的福,有幸拜读此书。特分享下本人的所读所感。本人将借用两张图来介绍此书,其一阿里巴巴...

2019-08-16 12:33:14 2155

原创 flume中几种常见的source、channel、sink

flume中几种source、channel、sink的区别一、source1、avro source侦听Avro端口并从外部Avro客户端流接收事件。 当与另一个(上一跳)Flume代理上的内置Avro Sink配对时,它可以创建分层集合拓扑。 channels– type–The component type na

2017-11-14 11:25:34 22473

原创 hbase重点总结

Hbase                                               官网:http://hbase.apache.org/1、hbase rowkey怎么创建比较好,列簇怎么创建比较好?1、三维Hbase有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时

2017-11-14 11:20:13 2000

原创 UDF函数

UDF函数 UDF函数可以直接应用于select语句,对查询结构做格式化处理输出内容。自定义UDF需要继承org.apache.hadoop.hive.ql.UDF,实现evaluate函数。自定义udf函数步骤:  1.继承UDF类  2.重写evaluate方法  3.把项目打成jar包  4.hive中执行命令add jar /home/jrjt/dwetl/PUB/

2017-11-14 11:09:51 10385

原创 hive优化

Hive优化1、fetchTask直接抓取数据Single query设置:hive.fetch.task.conversion为more默认的select start *、分区表的过滤(filter on partition columns)、limit only不走MR2、大表拆成子表、外部表与分区表结合使用、设置数据的存储格式与数据压缩。大表拆成子表:create t

2017-11-14 11:06:18 382

原创 cloudera-manager安装

cloudera-manager安装一、机器准备选用服务器或者阿里云服务器,安装CentOS6.5系统。注意:安装操作系统时,选择桌面版,其他版本会出现缺失包等异常错误,请安装64位版本,CM不支持32位CentOS。验证方法:使用root用户查看操作系统 /proc/version文件的内容,如果含有x86_64 字样说明该操作系统为64位版本,否则为32位操作系统。、二、C

2017-11-14 11:03:45 1906 1

原创 离线项目pom文件

- 4.0.0 com.ibeifeng.bigdata.offline offline_data_analystics 0.0.1-SNAPSHOT jar offline_data_analystics http://maven.apache.org- UTF-8 2.5.0-cdh5.3.6 0.98.6-cdh5.3.6 0.13.1-cd

2017-11-14 11:00:49 812

原创 hive查询语句

Hive查询1、hive模糊搜索表show tables like '*name*';2、查看表结构信息desc formatted tablename;desc table_name3、查看分区信息show partitions tablename;4、根据分区查询数据select table_coulm from tablename where partit

2017-11-14 10:58:24 14799

原创 sqoop脚本

关系型数据库到大数据平台到关系型数据库shell脚本测试脚本#!/bin/bashyy=$(date -d 'yesterday' +'%Y')mm=$(date -d 'yesterday' +'%m')dd=$(date -d 'yesterday' +'%d')建基础表分区目录hdfs dfs -mkdir -p /ZYB/ORDER_INFO/yy=$yy/mm

2017-11-14 10:43:06 1207

原创 Error: java.io.IOException: Can't export data, please check failed map task logs

Error: java.io.IOException: Can't export data, please check failed map task logs        at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:112)        at org.apache.sqoop.map

2017-11-14 10:40:08 10384 1

原创 hive与es交互bug

hive与es交互bug一、hive数据写入es,hive查询报错(貌似不能查询)Bad status for request TFetchResultsReq(fetchType=0, operationHandle=TOperationHandle(hasResultSet=True, modifiedRowCount=None, operationType=0, opera

2017-11-09 11:20:20 5290

原创 cloudera Manager 配置报警邮箱

cloudera Manager 配置报警邮箱

2017-11-03 17:34:31 2740

原创 kylin restfulApi

kylin restfulApi

2017-10-13 09:13:00 772

原创 搭建CDH版phoenix

搭建CDH版phoenix说明:    网上有搭建的文档,但是还是踩了很多坑。    我用的CDH5.8.4,对应的hbase是1,2的。安装:  下载地址:https://github.com/chiastic-security/phoenix-for-cloudera/tree/4.8-HBase-1.2-cdh5.8  下载一个zip压缩包,解压后放到集群一台机器中

2017-09-14 14:01:26 833

原创 Supervisor后台进程管理工具

Supervisor后台进程管理工具安装配置一、安装及配置1、Python liunx自带有了不需要安装(没有的话需要安装)2、easy_install是setuptools包里带的一个命令      wget--no-check-certificate https://bootstrap.pypa.io/ez_setup.py -O - | sudo python3、

2017-09-13 10:25:28 2854

原创 安装es_bug

安装es_bug1、不能用root用户启动。      重新建一个用户 ,分配文件权限2、unable to install syscall filter      Centos6不支持SecComp,而ES5.2.0默认bootstrap.system_call_filter为true.      解决:              vi elasticsearch-5

2017-08-31 10:03:59 1950

原创 好用的连接

有用的连接 MySQLwindowsX64:https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.19-winx64.zip linux X64 https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.19-1.el6.x86_64.rpm-bundle

2017-08-15 13:24:43 294

原创 kylin jdbc连接

kylin jdbc连接package test_kylin;import java.sql.Connection;import java.sql.Driver;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.util.Properties;public class KylinCon

2017-08-15 10:39:32 1221

原创 DataGrip使用方法

DataGrip使用方法   DataGrip连接数据库工具,下面图片展示如何连接:(对于菜单式操作的工具,适应的办法就是多  点点  点)一选择驱动或者配置驱动配置hive驱动配置kylin驱动二、测试连接三、查询

2017-08-03 15:54:40 9561 2

原创 oozie_mail

任务调度报错发送邮件配置   小伙伴们任务失败了,别人家的公司都有各种提醒。不过没事oozie有。我是用的cloudera_manager管理的,下面介绍下如何配置邮件提醒:   一、开启sla服务等级协议二、配置smtp邮件服务器地址1、邮件账户的smtp服务器地址2、(发件)邮箱用户名3、(发件)邮箱密码以上步骤可以在oozie-site.xml

2017-08-01 10:37:57 2347

原创 oozie_bug

oozie_bug提交oozie任务(包含sqoop任务的shell脚本)报如下错误:Job init failed : org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.FileNotFoundException: File does not exist: hdfs://name

2017-07-31 19:50:13 1212 4

原创 spark开发环境搭建

kafka_spark集成kafka创建话题、消费者、生产者1、话题bin/kafka-topics.sh --create --zookeeper 192.168.20.10:2181 --replication-factor 1 --partitions 1 --topic test 2、生产者 bin/kafka-console-producer.sh --broke

2017-07-05 14:07:00 1412

原创 flume/kafaka/spqrk测试用例

flume+spark(一)一、flume代码#exec source + memory channel + hdfs sink # Name the components on this agent a2.sources = r1 a2.sinks = k1 a2.channels = c1 # Describe/configure the source a

2017-07-03 09:47:39 571

原创 手动删除/kylin hdfs 上的数据

手动删除/kylin  hdfs 上的数据      使用kylin一段时间,有心的数据猿一定发现kylin指定的work folder目录下存储的数据越来越多。我们在使用kylin时,由于数据模型设计及其他问题,多次数据回溯,导致kylin的work folder下存储量越滚越大。不得不手动清除。     kylin提供了清理的java类:org.apache.kylin.storage

2017-06-21 16:58:54 2302

jqxx机器学习实践

jqxx机器学习实践jqxx机器学习实践jqxx机器学习实践jqxx机器学习实践 jqxx机器学习实践jqxx机器学习实践jqxx机器学习实践jqxx机器学习实践

2017-09-14

sparksql编程指南

spark-sql编程指南spark-sql编程指南spark-sql编程指南 spark-sql编程指南spark-sql编程指南spark-sql编程指南

2017-09-14

hbase权威指南

hbase权威指南中文版hbase权威指南中文版hbase权威指南中文版 hbase权威指南中文版hbase权威指南中文版hbase权威指南中文版

2017-09-14

FastStone神软

这是一个神奇的工具,截图,取色。我用这个工具取报表配色。 这是一个神奇的工具,截图,取色。我用这个工具取报表配色。

2017-09-14

mysql驱动包

mysql驱动包mysql驱动包mysql驱动包mysql驱动包 mysql驱动包mysql驱动包mysql驱动包mysql驱动包 mysql驱动包mysql驱动包mysql驱动包mysql驱动包

2017-09-14

淘宝双十一文档

淘宝双十一技术文档,淘宝双十一技术文档,淘宝双十一技术文档,淘宝双十一技术文档。淘宝双十一技术文档。

2017-09-14

kylin-jdbc-2.0.0.jar

kylin-jdbc-2.0.0.jar jdbc连接的驱动包,kylin安装包的lib文件下面有这个包。 kylin-jdbc-2.0.0.jar jdbc连接的驱动包,kylin安装包的lib文件下面有这个包。

2017-09-14

elasticsearch-5.5.2.tar.gz

elasticsearch-5.5.2.tar.gzelasticsearch-5.5.2.tar.gzelasticsearch-5.5.2.tar.gzelasticsearch-5.5.2.tar.gzelasticsearch-5.5.2.tar.gz

2017-09-14

hbasesink 自定义序列化类

hbasesink 自定义序列化类 ,可实现自定义rowkey及去除字段两边索引,具体请看下代码。 hbasesink 自定义序列化类 ,可实现自定义rowkey及去除字段两边索引,具体请看下代码。

2017-09-14

phoenix-4.8.0-cdh5.8.0-server.jar

phoenix-4.8.0-cdh5.8.0-server.jar phoenix-4.8.0-cdh5.8.0-server.jar phoenix-4.8.0-cdh5.8.0-server.jar

2017-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除