姥爷家的小胡同-CSDN博客

转载 Maven依赖Scope标签用法

转自：https://blog.csdn.net/daihui05/article/details/7476976pom配置地址：http://maven.apache.org/pom.html在一个maven项目中，如果存在编译需要而发布不需要的jar包，可以用scope标签，值设为provided。如下： <dependency> &lt...

2018-09-20 10:36:31 245

转载 SpringBoot项目在IntelliJ IDEA中实现热部署

转自：https://www.cnblogs.com/winner-0715/p/6666579.html热部署spring-boot-devtools是一个为开发者服务的一个模块，其中最重要的功能就是自动应用代码更改到最新的App上面去。原理是在发现代码有更改之后，重新启动应用，但是速度比手动停止后再启动更快。其深层原理是使用了两个ClassLoader，一个Classloader加载那...

2018-09-19 18:25:19 282

转载使用CURL加参数POST数据

来自 https://davidwalsh.name/curl-post-filePOSTing Form Data with cURLStart your cURL command with curl -X POST and then add -F for every field=value you want to add to the POST:curl -X POST -F ...

2018-08-02 14:25:47 10120

原创 Azkaban Executor 设置任务并行度

近期需求，想对Azkaban当前运行的最大flow数有所控制。flow中可以包含多个job。（默认读者熟悉azkaban）查到官网配置文件： https://azkaban.github.io/azkaban/docs/latest/#azkaban-execserver在Azkaban executor的conf/azkaban.properties中配置：**executor.f...

2018-07-27 15:32:34 5887

原创 Kudu使用的一些限制（1.4.0版本）

原文链接 : http://kudu.apache.org/docs/known_issues.html 译文链接 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=10813650Primary keys ( 主键 )创建表后，主键可能不会更改。您必须删除并重新创建表以选择新的主键。构成主键的列必须首先列在模式中。...

2018-07-22 18:52:18 1027

原创 impala的保留关键字，建表时慎用

在使用impala建kudu表时，如果使用了impala的保留关键字，在查询时，需要对关键字字段加上“符号，所以尽量不要使用的关键字。例如：select timestamp from kudu_test; //会报错select `timestamp` from kudu_test; //正常impala 保留关键字: http://impala.apache.or...

2018-07-22 18:34:33 5642

原创 nginx获取post body值(搭建nginx + lua)

nginx 配置 luahttps://github.com/openresty/lua-nginx-module#installation1. 下载安装LuaJITwget http://luajit.org/download/LuaJIT-2.0.5.tar.gz tar -xvzf make install PREFIX=/usr/local/luajit注意环境...

2018-07-22 12:38:54 3810

原创从Kudu中导出、导入数据

从kudu的表中导出数据，源码中提供了一系列的工具包。kudu导出数据或者导入数据：这是一个spark Application，根据代码中的用法：可以选择导入或者导出数据可以选择文件格式（csv，avro）可以选择表名可以选择输出路径可以选择kudu的master如果有特殊需求可以修改源码。1. 用maven编译： mvn package -DskipTests2. 然后运行s

2017-12-10 18:05:29 5291 1

转载 Python Spark Streaming任务监控

spark Streaming 监控脚本

2017-11-24 15:17:08 1247

原创 shell脚本报错："[: =: unary operator expected"

在匹配字符串相等时，我用了类似这样的语句：while [ $cursor != "null" ]do ...done在运行时出现了 [: =: unary operator expected的错误，尝试了删除等号两侧的空格和括号里的空格都不管用，把语句改成这样就不会出错了：while [ "$cursor"x != "null"x ]do ...done究其原因，是因为：如

2017-11-24 12:47:18 1378

写在前面写博客时使用的版本 Confluent Platform v3.2.1。使用的话，大家看官方文档kafka-connect，下面有几个使用过程中遇到的问题：我的kafka里的数据是avro格式的，应需求要导入表和从HDFS导入到kafka。1. 配置kafka-connect时，你可能想知道它支持kafka什么之间的连接，下面就是文件中connector.class选项配置connector

2017-09-17 22:25:48 10215 2

原创 shell脚本-有关时间的操作

date -d "-1 day $date" +%Y%m%d获取昨天的时间（格式：yyyyMMdd）`换一种输出格式yyyy-MM-dd：date -d "-1 day $date" +%Y-%m-%d 获取昨天的时间再换种格式 yyyy-MM-dd HH:mm:ss：date -d "-1 day $date" "+%Y-%m-%d %H:%M:%S"可以多试几种格式~date -d "-1 we

2017-09-17 20:05:30 1737

转载 Spark-SQL之DataFrame操作大全

一DataFrame对象的生成二DataFrame对象上Action操作show展示数据collect获取所有数据到数组collectAsList获取所有数据到Listdescribecols String获取指定字段的统计信息first head take takeAsList获取若干行记录二DataFrame对象上的条件查询和join等操作where

2017-09-15 15:00:28 573

原创重启yarn服务报错no ResourceManager to stop

有时候我们修改了yarn-site.xml文件中的配置，需要重启ResourceManager服务和NodeManager服务在使用 yarn-deamon.sh 命令时，你可能会遇到这样的报错：no ResourceManager to stop....等等我们来看yarn-deamon.sh文件中报错的地方，为什么会报错no ResourceManager t

2017-07-11 10:36:25 2949

原创 HDFS上传文件之WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException

HDFS上传文件时，可能会出现这样的警告：17/06/29 18:12:59 WARN hdfs.DFSClient: Caught exception java.lang.InterruptedExceptionat java.lang.Object.wait(Native Method)at java.lang.Thread.join(Thread.java:1245)at

2017-07-11 10:29:47 10971

原创 spark调优-持久化策略选择

RDD的持久化策略:cache、persist、checkpoint三种策略（持久化的单位是partition）1、cache是persist的一个简化版，会将rdd中的数据持久化到内存中cache = persists（StorageLevel.MEMORY_ONLY）不进行序列化特点：1、cache的返回值必须赋值给一个新的RDD变量

2017-03-16 10:01:58 1462

原创 spark调优-shuffle调优

基于spark1.6参数可以通过 new sparkContext().set("","")来设置，也可以通过命令的参数设置 --conf spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会...

2017-03-16 09:58:27 620

转载 ZooKeeper典型应用场景一览

ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性

2017-02-27 21:36:02 338

转载 Redis的内存优化

如转载自《Redis开发与运维》一书第八章Redis所有的数据都在内存中，而内存又是非常宝贵的资源。对于如何优化内存使用一直是Redis用户非常关注的问题。本文让我们深入到Redis细节中，学习内存优化的技巧。分为如下几个部分：一. redisObject对象二. 缩减键值对象三. 共享对象池四. 字符串优化五. 编码优化六. 控制key的数量一. redisObject...

2017-02-26 20:05:40 1733

转载 Zookeeper的灵魂--Paxos

转自：https://www.douban.com/note/208430424/耐心看完，你对zookeeper的选举会豁然开朗！！！！原计划在介绍完ZK Client之后就着手ZK Server的介绍，但是发现ZK Server所包含的内容实在太多，并不是简简单单一篇Blog就能搞定的。于是决定从基础搞起比较好。那么ZK Server最基础的东西是什么呢？我想应

2017-02-26 19:52:48 352

原创 MapReduce之Shuffle过程详解

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。map端shuffle： 1、map读取数据，读取数据之前是split（文件逻辑上的切分）2、Partition：map的结果由哪个reduce来接收，设置reduce的个数默认操作是：对key hash后再以reduce task数量取模，返回值决定着该键值对应该由

2017-02-26 16:54:28 774

勿忘初心