Luis_yao-CSDN博客

原创 jar包冲突排查

问题java 或者 scala开发中一个比较蛋疼的问题，jar包冲突，有时会表现出找不到类，报类似下面的错误：java.lang.NoSuchMethodError:org.apache.thrift.protocol.TBinaryProtocol$Factory.(ZZJJ)V整理一下排查问题的方法和思路1.报错类是否存在首先看一下找不到的类在ide里是不是可以导到这个包：im...

2019-11-21 16:39:59 692

原创使用Spark发送统计数据邮件

问题有些时候希望spark计算完的统计数据直接已邮件的形式发送。在这其中有一些点和技巧记录一下1.拼接邮件HTML调取公司发邮件接口的时候，传入的是html格式的字符传，一开始这个地方最繁琐麻烦的可能就是拼接html，但是scala支持直接写html，这个比较实用，写起来很方便。包括标签，样式都可以直接写。 /** * 拼接HTML Table * @param...

2019-11-15 17:08:01 811

原创 maven打包替换依赖包的配置文件

问题今天遇到个头疼的问题，是zk的配置文件zookeeper.properties被替换了，选择maven，profiles没用。后来发现，打进jar包里的是依赖的jar包的配置文件，被覆盖了。因为提交spark任务的jar包通常是jar-with-dependencies。既需要这个jar又想用自己项目里的properties。解决方案是:通过assembly.xml文件的方式设置打包需...

2019-11-12 16:03:12 1038

原创爬虫Spark UI（Spark streaming监控）

spark streaming作为实时任务,出了问题并不像离线任务重跑就可以了.对监控要求个方面要求较高.在任务失败堵塞卡死等情况下都需要发邮件或者短信报警.比较普遍的方式是利用spark streaming自带的StreamingListener接口来监控.如果前者不满足要求,我们也可以简单写个静态爬虫轮询爬取spark ui上的各种指标来diy监控.方案一 StreamingLi...

2019-11-07 14:55:59 491

原创使用Spark+Hanlp进行简单的文本处理（中）-Kmeans文本聚类

文本聚类1. TFIDFTFIDF全程叫做term frequency–inverse document frequency，即文本频率与逆文档频率指数, TFIDF就是为了表征一个token的重要程度，如果这个token出现的频数很高，出现的频数这个因素就叫做TF，IDF即逆文档频率,就是所有文档的条数与有某词的文档条数的比值的对数，减少“的，了”等频率过高又无意义的词语干扰。TFIDF...

2019-11-07 14:44:13 595

原创使用Spark+Hanlp进行简单的文本处理（上）-分词与提取关键词

使用Spark+Hanlp进行简单的文本处理（上）-分词与提取关键词本文使用spark和hanlp对中文文本进行简单的分词1.导包导入hanlp的依赖包此处只导入hanlp的基础包，没有导入data <dependency> <groupId>com.hankcs</groupId> &...

2019-11-07 14:41:33 1710

原创 Spark 程序启动

问题本文主要讲述了Spark启动的几种姿势。对于spark(streaming)程序，我们通常是用shell脚本进行启动，而脚本的调用通常是由crontab或者调度系统例如azkaban定时启动，当然azkaban还有创建依赖等等功能。如果我们的程序触发条件是由某个主动行为，而非固定时间点或者是依赖某个任务呢？比如我想调个接口就可以启动spark程序？姿势一Azkaban API ...

2019-01-29 17:07:13 707

原创 spark streaming 如何自动停止

问题众所周知spark streaming是7*24小时实时运行的程序。但是如果业务场景就是某天的某个时间段需要使用呢？时间点时长不固定。这个时候就需要我们代码逻辑上启动与停止spark streaming程序了。1.启动对于spark(streaming)程序，我们通常是用shell脚本进行启动，而脚本的调用通常是由crontab或者调度系统例如azkaban定时启动，当然azkaba...

2019-01-29 11:28:21 1333 1

原创 Hive入门（面向产品的Hive教程）

0.正经的前言这是一篇面向产品经理的Hive分享。目的是使受众更好的使用Hive client或其他封装Hive的产品。用HQL查询使用数据及应注意的问题和技巧。0.1.主要内容：Hive的基本原理Hive的使用教程Hive使用注意事项HQL的使用技巧0.2.建议读者：大数据相关产品经理初级数据分析师0.3.不涉及：Hive的安装与配置Hive的开发与调优H...

2019-01-21 13:43:52 620

原创 spark streaming调优-多线程并行处理任务

问题对于spark streaming程序和spark程序的区别，最大的一个问题就是spark streaming程序需要控制每次处理的时间。我们看以下两种场景，都很常见。场景1:程序每次处理的数据量是波动的，比如周末比工作日多很多，晚八点比凌晨四点多很多。一个spark程序处理的时间在1-2小时波动是OK的。而spark streaming程序不可以,如果每次处理的时间是1-10分钟...

2019-01-21 13:43:01 2873 1

原创 spark streaming + kafka实战

1.接收数据用spark streaming流式处理kafka中的数据，第一步当然是先把数据接收过来，转换为spark streaming中的数据结构Dstream。接收数据的方式有两种：1.利用Receiver接收数据，2.直接从kafka读取数据。1.1基于Receiver的方式这种方式利用接收器（Receiver）来接收kafka中的数据，其最基本是使用Kafka高阶用户API接...

2019-01-21 13:41:26 481

原创 spark-streaming快速入门

1.Overviewspark streaming是spark的一个拓展应用，对实时数据流进行：可拓展、高吞吐、可容错的流处理。数据可以从多个来源得到，比如：Kafka，Flume，Kinesis或者TCP socket，并提供高级别的函数诸如map,reduce,join和window这样复合的算法。最终处理后的数据可以通过文件系统、数据库和实时dashboards输出。还支持Spark...

2019-01-21 13:40:59 271

原创 spark jvm调优学习笔记

问题一个spark streaming程序，在运行一段时间后会突然遇到批次处理暴增，然后大于batch时间，导致程序挂调甚至假死（sc stop但是ssc正常运行）查看日志看到gc OOM的错误，其他没有发现明显问题。（PS：程序数据量不大，资源够用。程序中有用到scala反射函数、调用java实现的文本模型）于是学习了下jvm的调优，希望能解决executor gc的问题。JVM调优不...

2019-01-21 13:39:04 163

原创 spark并行度学习笔记

问题spark是并行处理的大数据框架。所以，很多时候程序的运行速度，失败原因都和并行度有关。那什么是并行度？并行度怎么设置？并行度的概念资源并行度与数据并行度我理解的有两类并行度，一种时资源的并行度，由节点数(executor)和cpu数(core)决定的。另一种并行度就是task的数据，也就是partition大小。task又分为map时的task和reduce(shuffle)时...

2019-01-21 13:38:10 284

原创 Spark UDF 学习笔记

UDF(User-defined functions, UDFs),即用户自定义函数，在Spark Sql的开发中十分常用，UDF对表中的每一行进行函数处理，返回新的值，有些类似与RDD编程中的Map()算子，实际开发中几乎每个Spark程序都会使用的。今天梳理一下相关的知识点，每个分支下都有测试的示例代码。1.scala第一部分是scala进行Spark程序开发。1.1 udf...

2019-01-21 13:37:32 661

Spark DAGScheduler 源码解析问题描述对与Spark执行原理有一定了解的同学对于DAG图(有向无环图，Directed Acyclic Graph的缩写)都会有一定的了解,它描述了RDD之间的依赖关系，和RDD的很多特性都有一定联系。而DAG的形成在Spark中对应的就是DAGScheduler。DAGScheduler的主要工作包括：创建Job，划分Stage，提交Stage...

2019-01-21 13:36:51 225

原创 Spark 读取数据源码解析

问题描述在使用spark读取HDFS上的数据时，经常使用load的方式（没有hive的情况下）spark.read.schema(schema).load(data_path)以前比较常见的是textFile读HDFS的方式，不同于此，load的方式可以直接形成DataFrame，使用上更方便一些。遇到的一个问题是在读取的目录下非常多的碎片文件时，1.load地方为什么单独形成了一个job...

2019-01-21 13:36:06 1019

Luis的博客