自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 saprk的udtf函数一列转多列应用

saprk的udtf函数一列转多列应用需求:查分outresult字段生成多个列代码:1.udtf部分import com.alibaba.fastjson.JSONException;import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLeng

2021-04-09 17:36:31 210

原创 用户画像-算法实例:朴素贝叶斯算法

##利用朴素贝叶斯算法来预测明星出轨概率package cn.doitedu.ml.bayesimport org.apache.spark.ml.linalg.Vectorsimport cn.doitedu.commons.util.SparkUtilimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql....

2020-02-21 17:12:24 861 1

原创 用户画像-算法实例KNN

import cn.doitedu.commons.util.SparkUtilimport org.apache.spark.ml.linalgimport org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object Kn...

2020-02-19 20:56:19 470 2

原创 hive中的窗口函数

函数 + over()over() :开窗口1.Row_Number,Rank,Dense_Rank 这三个窗口函数的使用场景非常多1.1 row_number()对分区内的数据排序,多出来一列数据,从1到分区结尾多用来求 连续天数,会用到date_sub函数例子:– 求有连续4天销售记录的店铺1)select*,row_number() over(partition b...

2020-01-08 16:38:47 252

原创 flume的核心组件及概念

1. agent: 核心的角色2. Event:flume内部数据传输的封装形式3. Transaction:事务控制机制4. 拦截器5. 选择器

2020-01-03 20:33:00 1755

原创 DataFrame数据运算操作

一. SQL风格操作核心要义:将DataFrame 注册为一个临时视图view,然后就可以针对view直接执行各种sql临时视图有两种:session级别视图,global级别视图;session级别视图是Session范围内有效的,Session退出后,表就失效了;全局视图则在application级别有效;注意使用全局表时需要全路径访问:global_temp.people// ap...

2020-01-02 22:33:38 1079 3

原创 Spark SQL中创建 DataFrame 方法

在Spark SQL中SparkSession是创建DataFrames和执行SQL的入口创建DataFrames有三种方式:(1) 从一个已存在的RDD进行转换(2) 从JSON/Parquet/CSV/ORC/JDBC等结构化数据源直接创建(3) 从Hive Table进行查询返回核心:创建DataFrame,需要创建 “RDD + 元信息schema定义”rdd来自于数据...

2020-01-02 21:53:34 421 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除