自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (4)
  • 收藏
  • 关注

原创 SparkSQL中的collect_set()函数对于输入类型的限制

在HQL中,collect_set() 支持各种类型的字段的聚合;-- HQL 中可以执行如下操作SELECT ssoid, collect_set(nickname)[0] AS nickname, collect_set(nat_code)[0] AS nat_code, collect_set(reg_brand)[0] AS reg_brand, collect_set(r...

2019-07-17 11:27:33 4663

转载 Eclipse中设置工程的所有文件的编码格式为UTF-8

Eclipse中设置工程的所有文件的编码格式为UTF-8将工程中的文件编码格式设置UTF-8则需要做以下工作:1. Text file encoding 设置windows->Preferences…打开"首选项"对话框,左侧导航树,导航到general->Workspace,右侧Text file encoding,选择Other,改变为UTF-8,以后新建立工程其属性对话框...

2018-10-10 19:50:13 3246 1

原创 SparkCore算子(实例)之---- action算子

Action Operation概述:SparkCore中的算子可以分为两类:Transformations Operation、Action Operation。在Spark的提交执行过程中,会将RDD及作用于其上的一系列算子(即:RDD及其之间的依赖关系)构建成一个DAG有向无环图。当遇到action类算子的时候就会触发一个job的提交,而Driver程序则会将触发的 job 提交给DA...

2018-09-21 17:21:50 791

原创 SparkCore算子(实例)之---- 交集、差集、并集(intersection, subtract, union, distinct, subtractByKey)

1. 交集 intersecion1.1 源码/** * Return the intersection of this RDD and another one. The output will not contain any duplicate * elements, even if the input RDDs did.//交集结果将会去重 * * @note T...

2018-09-21 09:35:19 1940

原创 SparkCore算子(实例)之----实现表格连接(cartesian, cogroup, flatMap)

笛卡尔积 cartesian笛卡尔积就是实现两个表格(数据集)的直接生硬拼接,具体过程为:对于左表的每一行数据,去拼接右表的每一行数据,将结果直接拼接。由于笛卡尔积的连接结果与连接顺序无关,即:没有驱动表和才从动表的区别,所以采用“左表”、“右表”这样的称呼,“左表”、“右表”只会影响最终的结果集中每一行记录的左右顺序,不影响整个结果的最终意义。首先创建两个RDD数据集: val rd...

2018-09-20 11:22:27 572

转载 史上最全的Maven Pom文件标签详解

<span style="padding:0px; margin:0px"><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance&

2018-09-20 09:49:09 188

《Spark快速大数据分析》高清文字(非扫描) 带完整书签目录

简体中文版由人民邮电出版社出版, 2015。英文原版的翻译得到 O’Reilly Media, Inc. 的授权。 全书的完整的目录概要可参考: https://img-blog.csdn.net/20170227090721579?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGZnMDIxOA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

2018-09-16

《深度学习Deep Learning 》去水印中文版 高清完整PDF版

资源分数只要5分! 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

2018-09-16

图解TCP/IP(第5版)

《图灵程序设计丛书:图解TCP/IP(第5版)》适合计算机网络的开发、管理人员阅读,也可作为大专院校相关专业的教学参考书。

2018-09-16

《数据结构与算法 Python语言描述》--裘宗燕

1世纪以来,Python已经发展成为世界上受欢迎的编程语言之一,使用非常广泛。由于其各方面的优点,Python正在被世界上越来越多的大学用作**门程序设计课程的语言,更多学校把它作为后续或者选修课程的内容。国内也开始出现这种情况。作者从几年前开始基于Python语言讲授数据结构课程,本书基于作者的教学经验和体会编写而成。 本书结合抽象数据类型的思想,基于Python面向对象机制,阐述了各种基本数据结构的想法、性质、问题和实现,讨论一些相关算法的设计、实现和特性。书中还结合研究了一些数据结构的应用案例。 本书加强了一些目前程序设计实践领域特别关注的内容,包括程序和数据结构设计中的安全性问题、正则表达式的概念和使用等。书中提供了大量编程练习题,特别关注数据结构的设计和实现技术,以及实际应用中各方面的问题。

2018-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除