自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 udaf 函数使用例子

最近使用sparksql,需求是需要对一些非结构化的数据进行处理,具体的需求是:1 类似{“”,“”},合并此类数据,如果有相同的field,则把value累加,无则把field加入2 类似a,b,c ,需要聚合后累加去重统计字母出现的次数3 string 类型的数据 实现累加package com.dianyouimport com.dianyou.utl.JsonUtilimpor...

2018-06-09 11:44:38 1515

原创 ES删除数据

es 删除数据的三种方法1  因为高版本的es并不支持批量删除,所以第一个方法思路,首先查询es 获取主键id,然后根据id逐个删除def scrollScanDeleteByTopic(client:TransportClient,index:String,topic:String)= { var searchResponse = client.prepareSearch(index).se...

2018-05-23 17:14:09 22278 1

原创 sparksql dataFrame 关于列的增删改操作

最近项目中用到spark和ES的集成,涉及到一系列对dataFrame列的操作,时间主要花在列的增删改上面。整个类采用的是spark+ES+Redis架构,ES存基础数据,redis 存储条件,根据redis的条件从ES筛选出符合条件的记录。val sqlContex = SparkSession.builder().master("local[2]") .appName("spark2ES"...

2018-04-26 21:13:58 15923

原创 spark streaming 定时状态清除

最近遇到一个问题:用sparkstreaming的updateStateBykey算子保存当天状态,要求零点清除状态,为了解决这个问题想到了三个思路:1  零点重启程序,重启之后spark内存中的数据会被清除#!/bin/bashNum=`ps aux|grep SparkSubmit|grep xxxxxx|wc -l`if [ $Num -eq 1 ];then   PID=`ps aux|g...

2018-03-16 10:41:36 3182

原创 spark streaming 广播变量的测试

最近写的一个流式的程序需要从redis 中获取变量信息,并广播,其中redis里面的信息是变动的,要求广播变量也要跟着改变,下面是测试代码:val dStream = KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topic...

2018-02-26 18:28:51 2730

原创 spark Streaming +kafka 数据容错之 hbase保存offset

spark streaming 用direct 的方式有优势,但是也容易丢失数据,只能保证at least one ,不能保证exactly one ,要想保证后者,只能手动保存kafka的offset数据。实现方面参考了一位大神的java代码,把它改写成scala 代码,并修复相关bug。在此基础上进一步实现了事务机制import java.net.URLDecoderimport

2018-01-11 18:12:22 2471 4

原创 IP解析成地址 确定省市

最近领导要求i通过p解析确定城市,比较简单,难点是通过大学名称来确定城市 下面是代码:代码需要用到 全国高校数据库 package com.dianyou.ip;import com.sun.xml.internal.ws.policy.privateutil.PolicyUtils;import java.sql.*;/** * Created by Administr

2017-12-14 15:57:26 5995 1

原创 纯真IP数据库转txt

最近在解析ip数据库时,遇到一个问题。代码在本地可以运行,但是放在集群上时,却无法运行,问题可能出现在java 文件流无法加载hdfs 文件?之后转换下思路,试着先把ip解析出来。 主要代码来源于网上的一个博客,红色部分是本人修改部分package ip;import java.io.*;import java.nio.ByteOrder;import java.nio.Mapped

2017-11-27 10:13:43 17183

原创 java反射加载类,并转化为DataFrame

动态加载类,构造类的实例,并转化为DataFrame,同时还要解决入表时,类属性值与表字段一一对应,同时只有部分字段有值,其他字段提供根据字段类型提供默认值def mergeRDD(spark:SparkSession,countRDDs:RDD[(String, (Int,Int))],dtoName:String):DataFrame={ import spark.implicit

2017-11-24 11:06:18 1194

原创 迭代解决多层嵌套json 转map

最近工作需要用到json 转map ,在网上看到了一个方法,但并不能解决多层嵌套json,在此对这个方法进行了迭代处理,解决这个问题import net.minidev.json.{JSONObject}import net.minidev.json.parser.JSONParser/** * 将json转化为Map * @param json 输入json字符

2017-11-24 10:55:16 7577 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除