自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 pyspark中dataframe缺失值填充

在工作中我们经常面对各种缺失值的处理,当使用pandas,缺失值可以使用fillna,指定method=ffill或bfill就能实现缺失值的前向或后向填充。但是在spark应用中,需要稍微做一些改变。比如说我们先创建一个DataFrame:df = spark.createDataFrame( [("a", 1, '2019-06-15 13:20'), ("a",2, None),("...

2019-07-29 20:50:58 6501 4

原创 Spark入门

(一) Spark简介Spark 是专门为大数据处理而设计的快速、易用、通用和进行复杂分析的计算框架。Spark与Hadoop的对比(★★★★★)Hadoop和spark均是大数据框架,都提供了一些大数据任务的处理工具。但确切讲,他们执行的任务并不相同,彼此不是相互排斥的。虽然在特定的情况下,spark要比Hadoop的计算快很多,但它没有一个分布式的存储系统。而分布式存储系统是大数据处理...

2019-01-02 19:52:40 142

原创 HDFS架构

HDFS架构:hdfs是一个应用广泛的分布式文件系统。一个hdfs文件系统由一个NameNode,一个Secondary NameNode和多个DataNode组成。NameNode管理系统的元数据,DataNode是实际存储数据的单元,secondary NameNode用来管理edits文件。HDFS的优点:1,适合做大数据的处理(GB,TB,PB级的数据存储,百万以上的文件数量);2...

2019-01-02 19:51:36 117

原创 Hive常见知识点

1, Hive一行转多行:later view explode函数可以把一行数据通过split函数切为多片作为一个新的列呈现,示例:CREATE TABLE MY_TABLE1 AS SELECT MID,DEVICE,APP FROM BASE.TMP_TABLE LATER VIEW EXPLODE(SPLIT(APPLIST, ',')) R1 AS APP;表BASE.TM...

2019-01-02 19:36:04 249

goods_detail.sql

淘宝后台全品类商品分类明细名表。包含类目ID,类目名称,下下级关系,类目级别,path,pathid。

2020-03-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除