自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 Flink WaterMark移动以及迟到数据分析

## Flink WaterMark移动以及迟到数据分析### Demo代码**将以此代码进行实验分析,不想看代码直接看下面章节即可**```import com.fun.{UserAgg, UserProcessFunction, UserWindowFun}import com.protocol.{UserBehavior, UserViewCount}import com.tools.TimeGetimport org.apache.flink.streaming.api.Time

2020-07-14 16:11:37 1058

原创 【大数据基础-数据仓库-04】常用窗口函数考察

浅谈hive常用窗口函数目录浅谈hive常用窗口函数简介常用窗口函数overSUM,AVG,MIN,MAX简介窗口函数又名开窗函数,属于分析函数的一种,用于解决复杂报表统计需求的功能强大的函数。窗口函数用来计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。常用窗口函数overover() 通常与聚合函数共同使用,比如 coun

2020-05-09 15:43:30 592

原创 【大数据基础-数据仓库-01】数据分析-拉链表hive拉链表与拉链表简单实现

hive拉链表拉链表优缺点节省空间,尤其是数据量很大的时候;对于订单事务性的数据,查看历史操作记录非常方便,比如说需要查看某一个时间点或者时间段的历史快照信息,查看某一个订单在历史某一个时间点的状态,查看某一个用户在过去某一段时间内,更新过几次等等不过仅适合基于历史数据更新频率比较低的场景,如果每天1000w订单,每天更新1000次以上Demo尝试与实现做一个订单分析的拉链表准备订单事务表CREATE TABLE `orders`( `orderid` int,

2020-05-08 21:15:24 774 1

原创 java.lang.IllegalStateException: Promise already completed.

然后看左下角记录的支持的python的版本列表,如图所以是查询的pyspark3.1.2的所支持的python列表。spark submit 提交作业的时候提示Promise already complete。这种情况是python版本和pyspark版本不一致的情况导致的。说一下查询pyspark兼容python版本查询的方法。

2024-02-22 16:19:32 508 1

原创 Apache NiFI-01-Overview

简单来说,NIFI是用来构建不同系统之间的数据流自动化.

2022-04-08 10:14:07 333

原创 sparksql Exception thrown in awaitResult

Caused by: java.sql.SQLException: org.apache.spark.SparkException: Exception thrown in awaitResult: at org.apache.hive.jdbc.HiveStatement.execute(HiveStatement.java:279) at com.lenovo.lps.farseer.priest2.ext.SparkExecDao.executeOneSql(SparkExecDao.java.

2021-01-21 13:55:52 6164 1

原创 【大数据基础-数据仓库-05】HIVE基础知识考查

HIVE的架构图HIVE提交SQL之后的执行过程通过客户端提交查询dirver接收到查询,会创建session handle,并将该查询传递给编译器,生成逻辑执行计划编译器会向metastore发送获取元数据的请求metastore向编译器发送元数据,编译器使用元数据执行类型检查和语义分析。编译器会生成执行计划(DAG),对于MapReduce作业而言,执行计划包括map operator trees和reduce operator tree编译器向Driver发送生成的物理执行

2020-08-13 17:04:26 309

原创 【大数据基础-数据仓库-03】常用hivesql udf考察

目录explodelateral view explod说明,关于内置的hive的udf函数使用,建议直接参考hive 官方wiki https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-explode(array)explodeexplode() takes in an array (or a map) as an input and outputs the eleme

2020-08-11 10:35:11 194

原创 【大数据基础-数据仓库-02】HIVE/SPARK SQL优化

JOIN优化--代码片段1select a.s_no from student_orc_partition ainner join student_orc_partition_only bon a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2--代码片段2select a.s_no from student_orc_partition ainner join student_orc_partition

2020-08-10 17:47:24 149

原创 【大数据基础hadoop-02】MapReduce相关基础汇总

当我们提交一个mr任务会启用多少个map呢,这个map的数量如何控制呢,如何调整map的数量在调优时我们不希望生成太多的Map,而把计算任务的等待时间都耗费在Map的启动上;或者不希望生成太多的Map对某个文件进行操作,以免引起资源的争用。这时候就需要对Map进行控制。在Hive中配置“set mapred.map.tasks=task数量”无法控制Map的任务数,调节Map任务数需要一套算法,该算法也和InputFormat有密切的关系,具体如下:在默认情况下Map的个数defaultNum=目标

2020-08-07 17:21:01 319

原创 【大数据基础-Hadoop-1】详细分析hdfs读写流程阐述hadoop读写流程

目录读流程写流程在大数据面试过程中hadoop的namenode读写流程是经常会问到的问题读流程访问namenode,告知要访问的文件hdfs对client做身份信息验证,认证的方式有两种,一种是通过信任的客户端,由其指定用户名;第二种是通过诸如kerboers的强认证机制检查文件的所有者以及其设定的访问权限,如果文件存在,且该用户对其有访问权限此时namenode 会告诉hdfs客户端这个文件的第一个数据块的标识以及保存该数据块的datanode列表,此列表根据client

2020-08-07 16:40:34 248

原创 【大数据基础-java基础-1】java集合基础知识点java集合比较

目录概览ListArrayListVectorLinkedListSETHashSetTreeSetMAPHashMapConcurrentHashMap概览Java的集合类被定义在Java.util包中,主要有 4种集合,分别为List、Queue、Set和Map,每种集合的具体分类如图List有序的collection,主要有三个实现类分别为ArrayList,Vector,LinkedListArrayList基于数组实现,.

2020-08-07 16:10:01 257

原创 基于scala语言实现Flink热门商品数据实时分析

相关代码和逻辑请参考https://github.com/upperbl/FlinkDemo

2020-07-08 14:52:30 771 2

原创 Idea本地运行FLINK调试

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.Idea运行FLINK无法正常输出日志提示以上错误需引入slf4j相关依赖 .

2020-05-31 21:11:12 4612 1

原创 HIVE多角度优化总结

说明hivesql应该越简单约好,sql优化一定要先确定瓶颈,瓶颈确定了才能针对性的去进行优化,否则就是自寻烦恼关于union的优化一般来说stage越多,意味着中间会有更多的中间数据落地磁盘,增大网络IO磁盘IO,建议熟练使用HIVE新版本支持的groupsetting函数去替换调整数据存储块大小数据块较大且集中,意味着会增大网络传输压力,数据块较小较多,会增大namenode读写的压力,join的时候可能会消耗大量的cpu/memory资源HIVE分区分桶适时使用HIVE分.

2020-05-20 17:15:01 272

原创 Hivesql优化&sparksql优化梳理

Hive sql 优化方案梳理总结说明此篇文章我们将对Hivesql的优化方案进行梳理和总结,欢迎大家一起讨论,可以补充和完善的地方欢迎各位大牛积极在评论区提出,大家一起共同学习共同成长...

2020-05-11 18:14:27 1111

原创 关于Join的时候where在on之前和之后的效率测试

看到很多网友在说join的时候,where一定要在on的条件之前,这样可以起到优化左右,比如有同学这样说(如下截图),其实不然,对此我做了实验为验证此结论我选择了一个大表进行数据验证,进行了sparksql查询sql1是这样的,where在on前面select t1.c0, t1.c1, t1.c2 , t1.c3, t1.c4, t1.c5, t1.c6, t1.c7 , t1.c8, t1.c9 , t1.c10, t1.c11, t1.c12, t1.c13

2020-05-10 21:53:32 3625

原创 hive3.x异常- return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

提交joinsql核心异常如下return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskThe value of property yarn.resourcemanager.zk-address must not be nullorg.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Executio

2020-05-09 10:40:48 1821

原创 get_json_object不能解析json里面中文的key

get_json_object不能解析json里面中文的key一般来说不会把json中的key定义为中文,但是如果是中文的话可以用 hive 的json_tuplejson_tupleA new json_tuple() UDTF is introduced in Hive 0.7. It takes a set of names (keys) and a JSON string,...

2019-06-25 21:59:19 4954

原创 Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster

hive mr任务Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster. Container killed on request. Exit code is 143 Container exited with a non-zero exit code 1...

2019-05-07 15:09:05 3026

原创 养鱼知识交流

^?_?^………鱼前需要准备什么:1、拍下请把养鱼的水要准备好哟,刚接的自来水是不能立即养鱼的,因为自来水有氯气,要用提前静置两三天或者暴晒两天的水(这样可以去除水里的氯气),河沟里清澈的水是最好的。2、准备好增氧的,鱼儿有氧气过得舒服一些,而且鱼儿在晚上和早晨容易缺氧,所以最好准备好增氧设备。如果鱼缸没有增氧的就少养点鱼!3、请不要用很小的鱼缸养过多的鱼,密度尽量稀一点!...

2019-04-26 10:15:27 1002

原创 storm和hadoop角色对比

1.hadoop运行mapreduce作业,storm运行topology作业2.MapReduce作业最终会结束,而topology是不会结束的,除非手动杀掉3.hadoop的jobTracker对应storm的nimbus, hadoop的taskTracker对应storm的supervisor hadoop的child对应strom的worker hadoo...

2019-04-23 17:43:34 284

原创 strom配置参数简单分析

Woker storm的一个拓扑任务可能有一个或多个woker,一个worker代表一个线程,但是一个拓扑任务中woker的最大数据量是有限制的,max( number of worker)=number of supervisor X ports of slots。 例如如果你有四个 supervisor,设置 slots的端口为 6700,6701,6702,6703 则...

2019-04-23 17:16:31 268

原创 轻松部署ambari2.7

一 Ambari说明Ambari为您的集群提供了端到端管理和监视解决方案。使用Ambari Web UI和REST api,您可以部署、操作、管理集群配置,并监视集群中所有节点的服务。二 安装前环境确认a 操作系统 选用centos7.5b 数据库使用postgresqlc jdk使用jdk7+jdk8d 浏览器 Chrome/Firefox其他版本对应关系请参考htt...

2018-08-25 16:54:20 5281 3

原创 hive udtf 输入一列返回多行多列

之前说到了hive udf,见https://blog.csdn.net/liu82327114/article/details/80670415UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。继承org.apache.hadoop.hive.ql.udf.generic.Gene...

2018-06-13 20:40:11 6866

原创 hiveudf分割ASCII的STX、ETX(^B、^C)

ETX、STXSTX (start of text),正文开始 ,ETX (end of text),正文结束STX与ETX只是为了便于描述。其实STX用来描述16进制中的02这个字节,而ETX则是03vim编辑器打开的话显示^B、^C一次采集上来的数据就是这种格式,为拆成kv的形式做了如下处理现将此文件上传到hdfs,并建立对应的表第一种方案:使用hivesql、sparksql内置的函数里的s...

2018-06-13 12:14:37 4589

原创 udf开发入门(python udf、hive udf)

开发前的声明 udf开发是在数据分析的时候如果内置的函数解析不了的情况下去做的开发,比方说你只想拆分一个字段,拼接一个字段之类的,就不要去搞udf了,这种基本的需求自带函数完全支持,具体参数可参考文档:http://spark.apache.org/docs/latest/api/sql/search.html?q=cast 里面列举了所有函...

2018-06-12 20:46:05 36555

原创 02-sparksql Malformed ORC file、Invalid postscript.

异常重要log:Caused by: java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 33 in stage 520.0 failed 4 times, most recent failure: Lost task 33.3 in stage 520.0 (...

2018-05-07 20:30:29 984

原创 01-集群空间被沾满导致sparksql执行失败异常

异常log:Caused by: java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 799 in stage 9537.0 failed 4 times, most recent failure: Lost task 799.3 in stage 9537.0...

2018-05-07 20:29:39 542

原创 yarn、spark配置优化

在内存和磁盘很大的集群上装好ambari之后对yarn和spark相关的配置做如下优化修改yarn:每个节点可申请的内存应该配置到节点总内存的百分之八十左右。 每个节点可申请的cpu核数需要配置到机器cpu核数的最大如果连接hiveserver2、spark thrift server的数量很大需要调大  spark: spark并行执行

2017-11-29 17:24:51 407

原创 关于服务进程申请线程数量的限制unable to create new native thread

在跑某个web服务的时候出现了以下异常unable to create new native thread运行此服务的用户能申请的最大的线程数量是1024修改配置文件vi /etc/security/limits.d/90-nproc.conf 改完即可生效

2017-11-28 14:59:29 13457

原创 linux cat 文件乱码

test.log是utf-16的编码cat test.log会报错但是我们可以cat的时候指定编码格式iconv -f 文件编码 -t 终端编码 input.logiconv -f utf-16 -t utf-8 test.log

2017-11-27 20:36:28 10280

原创 HDFS删除文件之后空间不释放,LINUX删除文件之后空间不释放

删除文件之后空间不释放在我这遇到的情况主要有两种:1.hdfs删除文件之后空间不释放针对此种情况主要是hdfs的回收站功能,为了防止文件误删除,删除的文件会先放到回收站里。删除的时候也可以直接彻底删除,只需 hdfsdfs -rm -r -skipTrash即可 也可以禁用hdfs的回收站功能,hdfs回收站的功能控制是zaicore-site.xml文件中 ...

2017-11-27 15:30:26 8281

原创 ambari journalnode异常Can't scan a pre-transactional edit log

2017-11-22 11:08:30,510 WARN  namenode.FSImage (EditLogFileInputStream.java:scanEditLog(364)) - After resync, position is 10444802017-11-22 11:08:30,510 WARN  namenode.FSImage (EditLogFileInputStrea

2017-11-22 11:25:20 1161

原创 ambari在移动namenode的时候出现两个备用的namnode

ambari在移动namenode的时候出现两个备用的namnode异常如下: 2017-11-17 15:38:55,621 INFO  zookeeper.ClientCnxn (ClientCnxn.java:run(512)) - EventThread shut down2017-11-17 15:38:55,621 INFO  ha.ActiveStandbyElector

2017-11-17 15:42:20 1877 2

原创 linux同时安装python2.6和python2.7

linux已经部署一个python2.6,现有一需求再部署一个python2.7,操作梳理如下下载python2,7wget http://www.python.org/ftp/python/2.7.13/Python-2.7.13.tar.xzxz -d Python-2.7.13.tar.xztar -xvf Python-2.7.13.tarcd Python-2.7.1

2017-11-16 15:30:47 3817

原创 java调python报错console: Failed to install '': java.nio.charset.UnsupportedCharsetException: cp0.

java调用python出现如图错误,原因在于jpython.jar版本有问题,选的那一版本有bug,换个版本即可console: Failed to install '': java.nio.charset.UnsupportedCharsetException: cp0.

2017-09-25 10:46:10 2239 1

原创 ambari中spark thrift server 挂掉

17/08/24 01:14:21 ERROR LiveListenerBus: Listener EventLoggingListener threw an exceptionjava.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes

2017-08-24 09:11:08 1474

原创 linux grep用法小白梳理(2)

linux grep用法小白梳理1.打印模式匹配所位于的字符或字节偏移: echo gnu is not unix | grep -b -o “not” 7:not #一行中字符串的字符偏移是从该行的第一个字,符开始计算,起始值是0。在上面的例子中,”not”的偏移值是7(也就是说,not是从该行的第7个字符开始的,即“gnu is not unix”这一行)。 选项-b总是和-o配合使用。

2017-04-09 20:36:34 551

原创 linux grep用法小白梳理(1)

grep 用法梳理grep命令是linux中用于文本搜索的神奇工具,现梳理如下1.搜索包含指定字符的文本行grep example filename #会输出所有包含example字符的文本行或者grep "example" filename #会输出所有包含example字符的文本行2.也可以从 stdin中读取echo -e "this is a word\n

2017-04-09 18:03:04 471

springmvc初学指南

《Head First Servlets and JSP, 2nd Edition》 + 《Servlet、JSP和Spring MVC初学指南》可能是不错的入门组合。毕竟Head First没有示例代码,太厚太重也不适合拿来携带以供查询。

2017-09-27

Spark快速大数据分析

本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

2017-09-25

jython-2.7-b1.jar

jython-2.7-b1.jar,Jython is an implementation of the high-level, dynamic, object-oriented language Python written in 100% Pure Java, and seamlessly integrated with the Java platform. It thus allows you to run Python on any Java platform.

2017-09-25

python基础教程第二版

《Python基础教程(第2版.修订版)》包括Python程序设计的方方面面,首先从Python的安装开始,随后介绍了Python的基础知识和基本概念,包括列表、元组、字符串、字典以及各种语句。然后循序渐进地介绍了一些相对高级的主题,包括抽象、异常、魔法方法、属性、迭代器。此后探讨了如何将Python与数据库、网络、C语言等工具结合使用,从而发挥出Python的强大功能,同时介绍了Python程序测试、打包、发布等知识。最后,作者结合前面讲述的内容,按照实际项目开发的步骤向读者介绍了几个具有实际意义的Python项目的开发过程。 《Python基础教程(第2版.修订版)》内容涉及的范围较广,既能为初学者夯实基础,又能帮助程序员提升技能,适合各个层次的Python开发人员阅读参考。

2017-09-05

hive编程指南含目录版本

hive编程指南   《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,终演示Hive如何在Hadoop生态系统进行工作。   《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。

2017-09-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除