自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(144)
  • 收藏
  • 关注

原创 Sparkstreaming-windows测试过程异常问题记录

1、异常问题记录:解决办法:去http://search.maven.org上下载对应的.jar,如下载:spark-streaming-kafka-0-8-assembly_2.11-2.4.5.jar放在site-page的目录下,我这边的路径为:/usr/lib/python2.7/site-packages/pyspark/jars,而我python安装路径:/usr/bin/...

2020-03-31 19:25:42 1542

原创 SN.xml解析异常问题记录

1.parseBulkZipsWrapper.py 中解析zip文档报错,“file is not zip"原因分析:在读zip文件时需要采用二进制的方式进行读取,所以讲open(zipFile, 'r') 改成open(zipFile, 'rb')。...

2020-01-13 11:26:54 309

原创 Pycharm快捷键使用

1.Ctrl+B查看库的源码安装第三方库5.快速注释&取消注释ctrl+/快捷键进行注释再次快捷键,取消注释7.快速换行快捷键shift+enter可以快速换行,与换行位置代码缩进保持一致...

2020-01-07 10:11:14 337

转载 shell中输入输出重定向,>、>>、<、<<、>/dev/null、2>&1、<<end、<<EOF等

转载自:https://blog.csdn.net/qq_31073871/article/details/80810306其他参考:www.runoob.com/linux/linux-shell-io-redirections.html实际上,输入输出重定向中的3个标准文件描述符,输入0、正常输出1、错误输出2,这三个值经常被省略。举例:ls > shell_out 等价于:...

2019-12-24 11:52:59 258

转载 hive函数大全

Hive常用函数大全一览Hive常用函数大全一览1 关系运算1.1 1、等值比较: =1.2 2、不等值比较:1.3 3、小于比较: <1.4 4、小于等于比较: <=1.5 5、大于比较: >1.6 6、大于等于比较: >=1.7 7、空值判断: IS NULL1.8 8、非空判断: IS NOT NULL1.9 9、LIKE比较: LIKE...

2019-12-23 14:41:46 775

原创 hive 常用函数

1.日期比较函数: datediff语法: datediff(string enddate,string startdate)返回值: int 说明: 返回结束日期减去开始日期的天数。举例:hive> select datediff('2016-12-30','2016-12-29'); 返回12.日期增加函数: date_add语法: date_add(string...

2019-12-23 10:38:12 184

转载 Java重要的20种常用类库和API

一个有经验的Java开发人员特征之一就是善于使用已有的轮子来造车。《Effective Java》的作者Joshua Bloch曾经说过:“建议使用现有的API来开发,而不是重复造轮子”。在本文中,我将分享一些Java开发人员应该熟悉的最有用的和必要的库和API。顺便说一句,这里不包括框架,如Spring和Hibernate因为他们非常有名,都有特定的功能。本文总结了日志、JSON解析、单测、X...

2019-12-20 15:58:29 198

转载 Python常用的标准库以及第三方库

参考:https://www.cnblogs.com/jiangchunsheng/p/9275881.html20个必不可少的Python库也是基本的第三方库读者您好。今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们。他们是:Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。Scrapy.如果你从...

2019-12-19 17:58:12 761

原创 Python异常问题记录

1。pip 工具下载其它地址(1)https://pypi.tuna.tsinghua.edu.cn/simple/(2)http://pypi.mirrors.ustc.edu.cn/simple/ (3)自带路径https://pypi.python.org/simple2.异常问题:C:\Users\TEST-1>pip install mysql-connec...

2019-12-18 17:33:57 330

转载 DRUID连接池

DRUID连接池Druid是阿里巴巴开发的号称为监控而生的数据库连接池,Druid是目前最好的数据库连接池。在功能、性能、扩展性方面,都超过其他数据库连接池,同时加入了日志监控,可以很好的监控DB池连接和SQL的执行情况。DRUID连接池使用的jar包: druid-1.0.9.jarDRUID常用的配置参数jdbcUrl 连接数据库的url:mysql : jdbc:mysql:...

2019-12-09 10:38:25 195

转载 (转)List的Stream流操作

Stream流Stream 中文称为 “流”,通过将集合转换为这么一种叫做 “流” 的元素序列,通过声明性方式,能够对集合中的每个元素进行一系列并行或串行的流水线操作。函数式编程带来的好处尤为明显。这种代码更多地表达了业务逻辑的意图,而不是它的实现机制。易读的代码也易于维护、更可靠、更不容易出错。面对一对多结构,查询主实体时需要附带主实体的子实体列表怎么写?查出主列表,循环差子列表...

2019-10-18 11:10:43 52872 3

原创 JVM各区域的作用

首先关于JVM运行时我们常遇到的异常,1.OutOfMemoryError 2.stackOverflowerJAVA堆java heap(堆)是java虚拟机中管理最大的一块内存。heap中存的是程序在运行过程中创建的各种对象以及数组数据(因为需要连续的内存并且空间占用也比较大),如果堆没有内存完成实例分配,而且堆也无法在扩展时,就会报OutOfMemoryErrorGC: garb...

2019-10-11 16:09:57 779

原创 JVM 概述及重点了解

首先我们需要了解几个重要概念JAVA:一种编程语言,提供简单的APIJDK:提供编程开发工具包,编程语言规范,编译器,解释器等。JRE:java语言别写出来的代码运行的环境。JVM:JRE中的核心就是JVM (java虚拟机),JAVA程序运行中JVM中。JVM运行在操作系统的上面,操作系统为JVM提供cpu,内存,网络带宽等。JMM: JAVA MEMORY MODE 内存模...

2019-10-10 17:21:14 106

转载 Spark Streaming 机制

本篇文章主要从二个方面展开:一、Exactly Once二、输出不重复事务:银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。从事务视角解密SparkStreaming架构:SparkStreaming应用程序启动,会分配资源,除非整个集群硬件资源奔溃,一般情况下都不会有问题。S...

2019-08-27 14:39:42 287

转载 centos 7 查看磁盘io ,找出占用io读写很高的进程

1,先用iostat查看磁盘io 是否读写负载很高用iostat -x 1 10如果 iostat 没有,要 yum install sysstat安装这个包,第一眼看下图红色圈圈的那个如果%util接近100%,表明I/O请求太多,I/O系统已经满负荷,磁盘可能存在瓶颈,一般%util大于70%,I/O压力就比较大,读取速度有较多的wait,然后再看其他的参数,rrq...

2019-08-26 11:39:41 4997

原创 sqoop 分隔符与字段内容冲突解决方案

一. 解决方案1.首先查看source表的表结构及数据,可大概判断出哪些字段的值中可能包含分隔符。使用 字段名 like '%分割符%’,能准确判断出此字段是否包含分隔符,如果包含可选择其它分隔符试试,如果能挑选和数据不冲突的分隔符,那么sqoop就可以选定此分隔符。2.这次遇到的表,什么分隔符以及转义字符(\b,\r,\n,\t,\r)都包含,所以采用替换字段中的分隔符的方式进行处理,...

2019-08-14 11:29:01 2221

原创 Azkaban3.70安装过程记录

1.安装前的环境:centos7,JDK1.82.配置Azkaban前需要先安装如下工具:git ,gcc,g++(1) git 安装参考:https://www.cnblogs.com/shaosks/p/9257563.html(2)gcc,g++安装 yum install gcc gcc-c++3.下载Azkaban:https://github.com/az...

2019-07-11 23:06:05 773

原创 Ambari各版本兼容的组件查看路径

Ambari各版本兼容的组件查看路径1.Hortonworks首页地址:https://hortonworks.com/2. productes--ducomments3.选择Ambari3.选择好对于的Ambari版本后,点击Apache Ambari Installation 然后进入:...

2019-06-22 15:04:01 4590

原创 Ambari安装过程中异常问题记录

一.虚拟机克隆出现ip地址异常问题:解决办法:1. vi /etc/sysconfig/network-scripts/ifcfg-eth0将UUID和HWADDR的配置注释掉,保存。2.rm -rf /etc/udev/rules.d/70-persistent-net.rules3.重启服务器:reboot4.使用ifconfig查看,ip地址配置正常。...

2019-06-21 15:19:51 1909

转载 Yarn资源队列配置和使用

Yarn资源队列配置和使用前言试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是一...

2019-06-14 17:08:37 21265

转载 Spark 内存管理机制(转)

转载本文请加上:转载自过往记忆(https://www.iteblog.com/)本文链接:【Apache Spark 统一内存管理模型详解】(https://www.iteblog.com/archives/2342.html)本文将对Spark的内存管理模型进行分析,下面的分析全部是基于 ApacheSpark2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层...

2019-05-31 16:02:34 147

转载 tez on yarn

Tez  Tez俗称DAG计算,多个计算作业之间存在依赖关系,并形成一个依赖关系的有向图。  Tez是运行在Yarn上的DAG,动态的生成计算的关系流。  如上图左所示的Top K问题,第一个Mapreduce实现wordcount的功能,第二个Mapreduce只用使用Reduce实现排序的问题,但是在Mapreduce中必须创建两个MapReduce任务,但是...

2019-05-17 14:00:39 1003

转载 如何理解GC日志

理解GC日志[plain]view plaincopy217.539:[GC(AllocationFailure)217.539:[DefNew:102646K->10770K(102976K),0.0415902secs]239776K->153169K(331528K),0.0416785secs][Times:user=0.03sys=0....

2019-05-17 13:46:56 230

转载 RPC服务和HTTP服务详解(转)

(转)https://blog.csdn.net/wangyunpeng0319/article/details/78651998很长时间以来都没有怎么好好搞清楚RPC(即Remote Procedure Call,远程过程调用)和HTTP调用的区别,不都是写一个服务然后在客户端调用么?这里请允许我迷之一笑~Naive!本文简单地介绍一下两种形式的C/S架构,先说一下他们最本质的区别,就是RP...

2019-05-15 10:48:47 1458

原创 线上异常问题

1.kafka连接异常,报错信息如下:19/05/12 22:44:08 INFO SimpleConsumer: Reconnect due to socket error: java.nio.channels.ClosedChannelException19/05/12 22:44:08 INFO RecurringTimer: Stopped timer for JobGenerato...

2019-05-13 14:12:04 445

原创 vim 常用命令

1、全选命令:ggVGgg让光标移到首行,在vim才有效,vi中无效V是进入Visual(可视)模式G光标移到最后一行选中内容以后就可以其他的操作了,比如:d删除选中内容y复制选中内容到0号寄存器"+y复制选中内容到+寄存器,也就是系统的剪贴板,供其他程序用2.撤销命令:u是撤销你刚才做的动作3.恢复撤销内容ctrl+r 是恢复你刚才...

2019-04-22 12:45:06 81

转载 Spark如何处理数据倾斜(转)

什么是数据倾斜数据倾斜是指我们在并行进行数据处理的时候,由于数据Spark的单个Partition)的分布不均,导致大量的数据集中分不到一台或者某几台计算节点上,导致处理速度远低于平均计算速度,从而拖延导致整个计算过程过慢,影响整个计算性能数据倾斜的危害单个或者某几个task拖延整个任务运行时间,导致整体耗时过大单个task处理数据过多,很容易导致oomExecutor Kill lo...

2019-04-11 15:03:25 488

转载 apache commons常用工具类(转)

1.有些情况下,Arrays满足不到你对数组的操作?不要紧,ArrayUtils帮你ArrayUtilspublic class TestMain {public static void main(String[] args) {int[] nums1 = { 1, 2, 3, 4, 5, 6 };// 通过常量创建新数组int[] nums2 = Ar...

2019-04-09 10:12:14 614

原创 StringUtils

StringUtils常用方法介绍1、空字符串检查public static boolean isEmpty(String str);public static boolean isNotEmpty(String str);1 2上面两个方法是判断字符串是否为”“或者null。public static boolean isBlank(String str);publi...

2019-04-09 09:58:06 120

转载 Spark SQL中Join常用的几种实现

(转载:https://www.iteblog.com/archives/2086.html)引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,...

2019-03-29 17:33:25 241

转载 FileSystem API

.FileSystem的获取。我们可以在Hadoop中使用FileSystem API来打开一个文件的输入流,然后我们可以对文件进行各种的操作实现。FileSystem是一个通用的文件系统API,FileSystem的获取方法有以下几种(以下所有相关代码接口实现均为手打,不保证完全正确,如有出错敬请谅解。):public statis FileSystem get(Configurati...

2019-03-28 13:51:07 2086

转载 hive时间戳函数

(转载):https://www.2cto.com/database/201806/757785.html时间戳是数据库常用的存放日期的形式之一,表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数,与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换,方法如下。一、unix_timestamp 函数用法1、unix_timestamp()...

2019-03-27 10:51:05 16720 1

原创 UDAF开发流程及心得

一、UDAF简介先解释一下什么是UDAF(User Defined Aggregate Function),即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组(一般是多行)输入然后产生一个输出,即将一组的值想办法聚合一下。关于UDAF的一个误区我们可能下意识的认为UDAF是需要和group by一起使用的,实际上UDAF...

2019-03-25 14:45:15 2105

转载 Spark UDF函数

SparkSQL的两种UDAF的讲解2018年07月09日 00:07:35Spark高级玩法阅读数:1477版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80972447Spark的dataframe提供了通用的聚合方法,比如count(),countDistinct...

2019-03-20 16:47:58 2877

转载 Sparksql UDAF,UDF详解(转)

(转)https://www.cnblogs.com/xing901022/p/6436161.htmlSpark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程(Java踩坑教学版)在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种:UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date...

2019-03-20 10:25:21 1418

原创 linux常见命令

1.创建目录:mkdir test2.创建递归目录:mkdir /test/test13.切换目录命令:cd [目录]cd ~ 进入当前用户的家目录 或者 cdcd - 进入上次目录cd ..进入上一级目录4.删除空目录:rm -rf /test/test15.复制命令:cp-a:copy的两个文件完全一样。不加a可能会时间不一样。cp test....

2019-02-20 22:27:15 409

原创 HDFS_monitor监控开发:异常问题记录

1.java.lang.UnsupportedOperationException: org.apache.parquet.column.values.dictionary.DictionaryValuesWriter$PlainFixedLenArrayDictionaryValuesWriter    at org.apache.parquet.column.values.ValuesW...

2019-02-20 11:10:44 559

转载 Sparksteaming每批次中到底有多少个RDD

对DStream.foreachRDD的理解转载:https://blog.csdn.net/odailidong/article/details/78487803 最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下: foreachRDD(func)的官方解释为The most generic output opera...

2019-02-14 17:51:26 924 1

转载 (转)线程安全的AtomicLong使用

看一个计数的类:public class Counter {    private static long counter = 0;    public static long addOne(){        return ++counter;    }}初看感觉没啥问题,但这个类在多线程的环境下就会有问题了。假如开多个线程都来使用这个计数类,它会表现的“不稳定”  ...

2019-02-14 17:26:53 323

转载 git pull相关

同事在使用git pull代码时,经常会碰到有冲突的情况,提示如下信息:error: Your local changes to 'c/environ.c' would be overwritten by merge. Aborting.Please, commit your changes or stash them before you can merge.这个意思是说更新下来的...

2019-01-28 14:38:31 163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除