自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

afunyusong的专栏

喜欢吹着春风,追着云

  • 博客(434)
  • 收藏
  • 关注

原创 Hue + Oozie + Sqoop 使用

有个刚接触的人不知道的是,Oozie 自带 sqoop、hive 等常用组件,比如执行sqoop脚本命令时,并不是你主机里或者CDH里的的sqoop,而是 HDFS 下 Oozie 里的 sqoop 在起作用,这也是为什么 总是报 Could not load db driver class 的原因了,因为根本不是同一个sqoop。还有 Hue 里的 Sqoop 1,你在这里写的脚本,执行时实

2018-01-26 10:18:36 5805 5

原创 Sqoop1 详细使用和避坑指南

经过这么几天的折腾,发现 Sqoop1 真的比 Sqoop2 方便好用的多,Sqoop2 坑真是太多了,搞不定。Sqoop1 坑少也稳定,但是零基础使用过程中也是有几点需要注意的。官方下载:Sqoop 官网 官方使用文档 Sqoop-1.4.6安装部署及详细使用介绍 如果像我一样直接用CDH里边自带的话,方便的地方是环境变量什么的不需要我再去配置了,很方便。 要检查安装成功没,直接 s

2018-01-15 15:40:53 16374 4

转载 Oracle 表分区相关知识

Oracle Partition 分区详细总结(ORACLE)查看分区表的相关信息

2018-01-13 09:21:49 599

原创 Sqoop2 使用

Sqoop2的安装与使用使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟Sqoop User Guide 问题1: java.lang.NoClassDefFoundError: org/codehaus/jackson/map/JsonMappingException 解决办法:cd /opt/cloudera/parcels/CDH/lib/hadoop/

2018-01-12 11:47:59 706

原创 Sqoop2 Hue 使用

如果使用 CDH parcel 安装的Sqoop2 的话,JDBC 的驱动包应该放在 /var/lib/sqoop2 下面, 新建 Oracle Link ,JDBC Driver Classoracle.jdbc.driver.OracleDriverJDBC Connection String 如下格式:jdbc:oracle:thin:@localhost:1521:app

2018-01-11 15:02:22 1102

转载 大数据平台建设

数据分析平台架构和Hive实践大数据平台技术方案及案例漫谈大数据仓库与挖掘系统:数据的传输和同步Hadoop生态圈介绍如何创建一个大数据平台?具体的步骤

2018-01-10 10:11:51 4437

转载 Superset 相关知识

使用开源数据 BI 工具 Superset 对 Hive 仓储数据进行可视化分析Engine Configuration

2018-01-10 10:06:35 703

转载 Presto 相关知识

Presto常用语句整理Presto 文档

2018-01-10 10:04:18 285

转载 Hive 相关知识

hive sqlHive 中文教程Hive学习之创建、删除、Truncate表hive 创建/删除/截断 表Hive通过查询语句向表中插入数据过程中发现的坑How to load String format timestamp value to hive table?Hive学习路线图

2018-01-10 10:02:02 590

转载 Kettle 相关知识

关于Kettle的事务和转换内步骤的顺序执行 1、一个作业内的转换,是顺序执行的。 2、一个转换内的步骤是并行执行的。 Kettle Hop小记开源ETL工具Kettle初试–远程执行任务Kettle从零开始 第九弹之Kettle定时任务介绍第三弹之Kettle数据源连接配置Linux CronTab 定时任务

2018-01-10 09:54:07 376

转载 数据仓库基本知识和概念

数据仓库数据库 与 数据仓库的本质区别是什么?11 个我遵循的重要数据库设计原则No.18【漫谈数据仓库】 如何优雅地设计数据分层

2018-01-10 09:46:07 522

转载 各大免费邮箱提供的POP3、SMTP、IMAP地址

各大免费邮箱提供的POP3、SMTP、IMAP地址

2018-01-03 15:36:13 9465 4

原创 Linux Kettle 定时执行远程资源库 job

以下仅是我根据我公司实际情况做出的配置设计,不代表所有,仅供参考。硬件:一台Mac Pro(A),两台 Ubuntu 服务器(B和C)角色分配: A : 在我的Mac Pro上 使用 Kettle UI客户端 设计调试 转换 和 作业,调试完成后保存到远程资源库(在B上使用MySQL数据库来保存) B : 建立 MySQL 数据库保存调试好的 转换 和 作业 C : 安装 Kettle (别忘

2017-12-29 12:23:27 5037 1

原创 Ubuntu 下 MySql 修改数据库编码为UTF8

linux下的 my.cnf 即: /etc/mysql/my.cnf 中 追加[client]default-character-set=utf8[mysql]default-character-set=utf8[mysqld]character-set-server=utf8然后保存并退出。重启mysql。 ubuntu 重启mysql 注意:[mysqld] 下边跟别的不

2017-12-28 11:54:11 1056 1

原创 Superset 连接 Presto 的正确姿势

不正确姿势在SqlLab中会出现如下问题:argument of type 'NoneType' is not iterable正确姿势是:presto://hive@localhost:port/presto_catalog_name>/hive_db_name>前边都好理解,最主要是后边两个参数,presto_catalog_name 和 hive_db_nameh

2017-12-26 10:41:00 4983 2

转载 Hive时间格式转换

字符串转 timestampinput: ‘2017/10/30 16:20:24.000000000’select from_unixtime(unix_timestamp('2017/10/30 16:20:24.000000000','yyyy/MM/dd HH:mm:ss.SSSSSSSSS'),'yyyy-MM-dd HH:mm:ss.SSSSSSSSS')output: 2017-10-

2017-12-23 12:02:44 2340

转载 Mysql GroupBy 使用注意事项

Error related to only_full_group_by when executing a query in MySql

2017-12-23 09:22:39 1317

转载 Mysql 删除数据的两种方法

MySQL中删除数据的两种方法如果一个表中有自增字段,使用TRUNCATE TABLE删除所有记录后,这个自增字段将起始值恢复成1.

2017-12-22 10:58:02 685

转载 Mysql 时间字段相关

mysql 获取当前日期及格式化Mysql时间字段格式如何选择,TIMESTAMP,DATETIME,INT?mysql日期加减

2017-12-21 16:27:33 235

转载 Oracle 日期类型 Date 和 Timestamp 详解

Oracle 日期类型详解oracle的timestamp类型使用Oracle 获取当前日期及日期格式

2017-12-21 11:31:28 931

转载 Hive 解决 comment 中文乱码

当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1 default。alter database hive character set latin1;为了保存那些utf8的中文,要将mysql中存储注释的那几个字段的字符集单独修改为utf8。 修改字段注释字符集alter table COLUMNS_V2 modify column COMMENT varchar(2

2017-12-18 17:20:43 2217 1

转载 Kettle 学习

组件之间的连线-Hop小记

2017-12-18 17:18:42 183

转载 数据仓库分层

大数据环境下该如何优雅地设计数据分层

2017-12-18 16:25:43 319

转载 CDH5 安装

CDH大数据平台搭建终极版CDH-5.12.0分布式集群的离线部署

2017-12-01 17:22:48 221

转载 Hue 安装配置

How to configure Hue for your Hadoop clusterHue的安装与部署高可用Hadoop平台-Hue In HadoopHue安装配置实践Hue介绍入门–Hadoop可视化分析利

2017-11-28 09:34:05 224

转载 如何让你的scrapy爬虫不再被ban

如何让你的scrapy爬虫不再被ban

2017-11-23 11:48:03 258

转载 爬Ajax 网页

爬AJAX

2017-11-23 11:30:16 227

转载 查看当前用户运行的java进程及端口:jps 命令

jps可以通过 kill + 「进程pid」的方式杀死某一进程

2017-11-18 15:37:52 14171

转载 Superset 通过 Presto 连接 HDFS

presto maven 仓库下载地址英文 presto 安装配置中文 presto 安装配置presto 快速指南presto集群安装&整合hive|mysql|jdbc

2017-11-18 15:32:01 2588

转载 Kettle 连接hive2

Data Integration (kettle) 7.0 连接Hivekettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

2017-11-17 16:31:02 2708

转载 Hive Metastore 和hive-server2配置

官方文档配置 Hive MetastoreHive metastore三种配置方式Hive metastore配置执行 hive –service metastore 时,遇见 异常如下, java.sql.SQLException: Column name pattern can not be NULL or empty. 解决方法:stackoverflowStarting, Stoppin

2017-11-17 12:57:52 1136

转载 MySQL基础知识

MySQL

2017-11-17 09:22:20 157

转载 Ubuntu 下 Hadoop/Hive 环境搭建

最好看官方文档,看官方文档是一定没有错的。市面上的很多文章实际都过时了,太坑了,都不一样了。 Hive 官方指导文档Mac OS X 10.10 运用 Homebrew安装Hadoop 2.7.1Ubantu 下 Hadoop/Hive 安装 和 基本使用文档

2017-11-16 15:34:35 383

原创 Mac brew install hadoop 出现 not linked

问题初始是:导致后边hadoop不能用~ ᐅ brew install hadoopUpdating Homebrew...Warning: hadoop 2.8.1 is already installed, it's just not linked.You can use `brew link hadoop` to link this version.接着按提示执行出现:~ ᐅ brew

2017-11-15 10:58:42 2432

转载 Kaggle Titanic 竞赛

超级好的入门教程逻辑回归应用之Kaggle泰坦尼克之灾学习的一个很好的博客 寒小阳的博客

2017-11-07 11:27:41 253

转载 Pandas 数据集合并

pandas 合并连接数据集

2017-11-06 15:54:19 270

转载 正则表达式

学习正则表达式

2017-11-06 15:51:53 193

转载 Pandas与Numpy中axis参数的二义性

Python Pandas与Numpy中axis参数的二义性简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across),作为方法动作的副词(译者注)换句话说:使用0值表示沿着每一列或行标签\索引值向下执行方法 使用1值表示沿着每一行或者列标签横向执行对应的方法轴用来为超过一维的数组定义的属性,二维数据拥有两个轴:第0轴沿着行的方向垂直往下,第1轴沿着列的方向水平延伸。

2017-11-04 15:21:02 288

转载 XPath 语法

XPath 语法

2017-11-02 16:05:58 213

转载 Python爬虫基础

Scrapy爬虫框架教程(一)– Scrapy入门Python入门网络爬虫之精华版Python爬虫技巧之设置代理IPScrapy用Cookie实现模拟登录scrapy爬虫 爬取天猫进口零食网页

2017-11-02 14:17:42 479

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除