自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Luis的博客

大数据搬砖工/数据清洗工/工具人/NLP调包侠/脱发恐惧者

  • 博客(17)
  • 资源 (2)
  • 收藏
  • 关注

原创 jar包冲突排查

问题java 或者 scala开发中一个比较蛋疼的问题,jar包冲突,有时会表现出找不到类,报类似下面的错误:java.lang.NoSuchMethodError:org.apache.thrift.protocol.TBinaryProtocol$Factory.(ZZJJ)V整理一下排查问题的方法和思路1.报错类是否存在首先看一下找不到的类在ide里是不是可以导到这个包:im...

2019-11-21 16:39:59 692

原创 使用Spark发送统计数据邮件

问题有些时候希望spark计算完的统计数据直接已邮件的形式发送。在这其中有一些点和技巧记录一下1.拼接邮件HTML调取公司发邮件接口的时候,传入的是html格式的字符传,一开始这个地方最繁琐麻烦的可能就是拼接html,但是scala支持直接写html,这个比较实用,写起来很方便。包括标签,样式都可以直接写。 /** * 拼接HTML Table * @param...

2019-11-15 17:08:01 811

原创 maven打包替换依赖包的配置文件

问题今天遇到个头疼的问题,是zk的配置文件zookeeper.properties被替换了,选择maven,profiles没用。后来发现,打进jar包里的是依赖的jar包的配置文件,被覆盖了。因为提交spark任务的jar包通常是jar-with-dependencies。既需要这个jar又想用自己项目里的properties。解决方案是:通过assembly.xml文件的方式设置打包需...

2019-11-12 16:03:12 1038

原创 爬虫Spark UI(Spark streaming监控)

spark streaming作为实时任务,出了问题并不像离线任务重跑就可以了.对监控要求个方面要求较高.在任务失败 堵塞 卡死等情况下都需要发邮件或者短信报警.比较普遍的方式是利用spark streaming自带的StreamingListener接口来监控.如果前者不满足要求,我们也可以简单写个静态爬虫轮询爬取spark ui上的各种指标来diy监控.方案一 StreamingLi...

2019-11-07 14:55:59 491

原创 使用Spark+Hanlp进行简单的文本处理(中)-Kmeans文本聚类

文本聚类1. TFIDFTFIDF全程叫做term frequency–inverse document frequency,即文本频率与逆文档频率指数, TFIDF就是为了表征一个token的重要程度,如果这个token出现的频数很高,出现的频数这个因素就叫做TF,IDF即逆文档频率,就是所有文档的条数与有某词的文档条数的比值的对数,减少“的,了”等频率过高又无意义的词语干扰。TFIDF...

2019-11-07 14:44:13 595

原创 使用Spark+Hanlp进行简单的文本处理(上)-分词与提取关键词

使用Spark+Hanlp进行简单的文本处理(上)-分词与提取关键词本文使用spark和hanlp对中文文本进行简单的分词1.导包导入hanlp的依赖包此处只导入hanlp的基础包,没有导入data <dependency> <groupId>com.hankcs</groupId> &...

2019-11-07 14:41:33 1710

原创 Spark 程序启动

问题本文主要讲述了Spark启动的几种姿势。对于spark(streaming)程序,我们通常是用shell脚本进行启动,而脚本的调用通常是由crontab或者调度系统例如azkaban定时启动,当然azkaban还有创建依赖等等功能。如果我们的程序触发条件是由某个主动行为,而非固定时间点或者是依赖某个任务呢?比如我想调个接口就可以启动spark程序?姿势一Azkaban API ...

2019-01-29 17:07:13 707

原创 spark streaming 如何自动停止

问题众所周知spark streaming是7*24小时实时运行的程序。但是如果业务场景就是某天的某个时间段需要使用呢?时间点时长不固定。这个时候就需要我们代码逻辑上启动与停止spark streaming程序了。1.启动对于spark(streaming)程序,我们通常是用shell脚本进行启动,而脚本的调用通常是由crontab或者调度系统例如azkaban定时启动,当然azkaba...

2019-01-29 11:28:21 1333 1

原创 Hive入门(面向产品的Hive教程)

0.正经的前言这是一篇面向产品经理的Hive分享。目的是使受众更好的使用Hive client或其他封装Hive的产品。用HQL查询使用数据及应注意的问题和技巧。0.1.主要内容:Hive的基本原理Hive的使用教程Hive使用注意事项HQL的使用技巧0.2.建议读者:大数据相关产品经理初级数据分析师0.3.不涉及:Hive的安装与配置Hive的开发与调优H...

2019-01-21 13:43:52 620

原创 spark streaming调优-多线程并行处理任务

问题对于spark streaming程序和spark程序的区别,最大的一个问题就是spark streaming程序需要控制每次处理的时间。我们看以下两种场景,都很常见。场景1:程序每次处理的数据量是波动的,比如周末比工作日多很多,晚八点比凌晨四点多很多。一个spark程序处理的时间在1-2小时波动是OK的。而spark streaming程序不可以,如果每次处理的时间是1-10分钟...

2019-01-21 13:43:01 2873 1

原创 spark streaming + kafka实战

1.接收数据用spark streaming流式处理kafka中的数据,第一步当然是先把数据接收过来,转换为spark streaming中的数据结构Dstream。接收数据的方式有两种:1.利用Receiver接收数据,2.直接从kafka读取数据。1.1基于Receiver的方式这种方式利用接收器(Receiver)来接收kafka中的数据,其最基本是使用Kafka高阶用户API接...

2019-01-21 13:41:26 481

原创 spark-streaming快速入门

1.Overviewspark streaming是spark的一个拓展应用,对实时数据流进行:可拓展、高吞吐、 可容错的流处理。数据可以从多个来源得到,比如:Kafka,Flume,Kinesis或者TCP socket,并提供高级别的函数诸如map,reduce,join和window这样复合的算法。最终处理后的数据可以通过文件系统、数据库和实时dashboards输出。还支持Spark...

2019-01-21 13:40:59 271

原创 spark jvm调优学习笔记

问题一个spark streaming程序,在运行一段时间后会突然遇到批次处理暴增,然后大于batch时间,导致程序挂调甚至假死(sc stop但是ssc正常运行)查看日志看到gc OOM的错误,其他没有发现明显问题。(PS:程序数据量不大,资源够用。程序中有用到scala反射函数、调用java实现的文本模型)于是学习了下jvm的调优,希望能解决executor gc的问题。JVM调优不...

2019-01-21 13:39:04 163

原创 spark并行度学习笔记

问题spark是并行处理的大数据框架。所以,很多时候程序的运行速度,失败原因都和并行度有关。那什么是并行度?并行度怎么设置?并行度的概念资源并行度与数据并行度我理解的有两类并行度,一种时资源的并行度,由节点数(executor)和cpu数(core)决定的。另一种并行度就是task的数据,也就是partition大小。task又分为map时的task和reduce(shuffle)时...

2019-01-21 13:38:10 284

原创 Spark UDF 学习笔记

UDF(User-defined functions, UDFs),即用户自定义函数,在Spark Sql的开发中十分常用,UDF对表中的每一行进行函数处理,返回新的值,有些类似与RDD编程中的Map()算子,实际开发中几乎每个Spark程序都会使用的。今天梳理一下相关的知识点,每个分支下都有测试的示例代码。1.scala第一部分是scala进行Spark程序开发。1.1 udf...

2019-01-21 13:37:32 661

原创 Spark DAGScheduler 源码解析

Spark DAGScheduler 源码解析问题描述对与Spark执行原理有一定了解的同学对于DAG图(有向无环图,Directed Acyclic Graph的缩写)都会有一定的了解,它描述了RDD之间的依赖关系,和RDD的很多特性都有一定联系。而DAG的形成在Spark中对应的就是DAGScheduler。DAGScheduler的主要工作包括:创建Job,划分Stage,提交Stage...

2019-01-21 13:36:51 225

原创 Spark 读取数据 源码解析

问题描述在使用spark读取HDFS上的数据时,经常使用load的方式(没有hive的情况下)spark.read.schema(schema).load(data_path)以前比较常见的是textFile读HDFS的方式,不同于此,load的方式可以直接形成DataFrame,使用上更方便一些。遇到的一个问题是在读取的目录下非常多的碎片文件时,1.load地方为什么单独形成了一个job...

2019-01-21 13:36:06 1019

Spark大数据分析实战 .pdf

Spark大数据分析实战 ,高彦杰,倪亚宇著

2017-06-14

Spark核心技术与高级应用 ,于俊等著 ,P300.pdf(全)

Spark核心技术与高级应用 ,于俊等著 .pdf,这个是有二十章的,全

2017-06-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除