自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark源码阅读2 —— Stage划分

阿里云的数据集成(DataWorks):https://help.aliyun.com/document_detail/188048.html一、为什么需要划分Stage因为程序是分布式集群中运行的,一个Stage依赖于另一个Stage的结果,并且执行是有先后顺序的,所以要划分。划分出来的stage是放在集群中运行的,其中每个stage有多个task,每个task的逻辑一样,只是对应的分区是不相同,这多个task被分布在不同的机器上并发执行.不同的资源调度框架:yarn、mesos、local等生成

2021-09-12 10:17:00 878

原创 Spark源码阅读1 —— Job提交

根据之前的经验,源码阅读大致可分为:1、Spark任务调度 -- 每个任务都会用到2、具体的task执行 -- 涉及具体的算法先从大框架——调度开始。一、大流程二、基本角色(自己理解)机器角色(jps能够看到的Java进程):Master、Driver、Executor、Task、Work程序内部角色:Application、JOB、Stage、DAGscheduler、TaskScheduler三、Spark Pi的示例大致经过的处理流程:1.Spark..

2021-08-16 10:56:45 240

转载 Scala Either, Left And Right

Scala中的Either是一个有趣的类,它代表两个可能的类型的其中一个类型的值。这两个值之间没有交集。Either是抽象类,有两个具体的实现类:Left和Right。Either可以作为scala.Option的替换,可以用scala.util.Left替换scala.None,用scala.Right替换scala.Some。一般在时实践中使用scala.util.Left作为Failure,而scala.util.Right作为成功的值。另一个类似的类是scala.util.Try举个例.

2021-04-20 10:05:00 554

原创 列存储ORC及与Parquet比较

一、ORCApache ORC(Optimized Row Columnar,优化行列)是Apache Hadoop生态系统的一种免费、开源、面向列的数据存储格式。类似于Hadoop生态系统中可用的其他列存储文件格式,例如RCFile和Parquet。它与Hadoop环境中的大多数数据处理框架兼容。2013年2月,Hortonworks与Facebook合作宣布了“优化行列”(ORC)文件格式。一个月后,Cloudera和Twitter开发了Apache Parquet格式。...

2021-03-20 13:19:21 1508

原创 敏捷开发之TDD

一、TDD概念Test Driven Development 大部分人认为 Test Driven Design Task Driven Development二、为什么要TDD单元测试,只要用例通过,随便重构。保证软件高质量的交付。①简单设计②活文档③快速反馈④安全网三、TDD三步走四、TDD三原则除非为了使一个失败的单元测试通过,否则不允许编写任何产品代码在一个单元测试中只允许编写刚好能够导致失败的内容只允许编写刚好能够使一个失败的单元测试通过的产品

2020-08-13 14:19:37 1061

原创 Scala核心编程(韩顺平)

一、Scala概述大数据核心:数据采集、海量数据存储、数据计算多范式的编程语言:面向对象/函数式编程(柯里化、偏函数、高阶函数、纯函数、函数作为参数传递,提倡递归)Spark的兴起带动了Scala的发展编程思想、语法思想提升高效、简洁,但降低维护性、阅读性大数据应用工程师、大数据算法工程师scala、java、JVM关系1.能够部分使用java的语法2.Scala特有语法(比如元组)3.增加了函数式编程4.从形式上看是Scala类,但实际上是对java的类/借口进

2020-08-11 21:00:39 551

原创 菜鸟教程_Scala学习笔记

一、Scala介绍Scala特性面向对象:Scala是一种纯面向对象的语言,每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径:一种途径是子类继承,另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。面向函数:Scala的case class及其内置的模式匹配相当于函数式编程语言中常用的代数类型。更进一步,程序员可以利用Scala的模式匹配,编写类似正则表达式的代码处理XML数据。静态类型:Scala具备类型系统,通过编译时检查,保证代码的安全性和一

2020-08-11 18:56:57 1165

转载 大数据 — 读书笔记

你们每个人,都可以拿了毕业证、走下这个讲台,然后去追求锦衣玉食等等这个金钱社会视为理所当然的东西。你可以选择只关心自己的喜怒哀乐,把你的生活和国家的发展割裂开来。但我不希望你这样做。这不仅仅是因为你对那些没有你幸运的人负有责任,尽管你确实负有责任;也不仅仅是因为你对帮助你走到今天的人欠有债,尽管你确实欠下了债。这是因为:你对你自己负有使命和责任。这是因为:我们个人的命运依赖于群体的命运。...

2020-01-07 16:34:35 270

转载 汪洋长篇讲话推荐《大数据》

转载自:徐绍峰的博客休息这几天,我看了两本书,其中有一本是《大数据》,看以后非常有启发。进入信息时代后,人们趋向把所有存储在计算机上的信息,无论是数字还是音乐、视频,都统称为数据。2010年,美国总统科学技术委员会给总统和国会的报告写了这么几句话:数据正在呈指数级增长,联邦政府的每个机构和部门,都需要制定一个应对“大数据”的战略。现在大数据战略被认为是世界下一个创新、竞争和生产力提高的前沿,是...

2020-01-07 09:01:32 164

原创 CDH+HBase Indexer+Solr为HBase数据创建二级索引

CDH+HBase Indexer+Solr为HBase数据创建二级索引文章目录0.前期声明1.HBase建表并添加数据,并且确定HBase表开启REPLICATION功能(1表示开启replication功能,0表示不开启,默认为0 )2.HBase启用复制(在CM的hbase上搜索复制,勾选启用复制)3.准备中文分词包(如果需要中文分词的话)4.创建的SolrCloud,生成实体配置文件5...

2019-04-06 00:17:16 1022

转载 mysql的逆袭:如何做oracle的start with connect by prior递归层次查询

mysql的逆袭:如何做递归层次查询 最近在做一个从oracle数据库到mysql数据库的移植,遇到一个这样的问题      在Oracle 中我们知道有一个 Hierarchical Queries 通过CONNECT BY 我们可以方便的查了所有当前节点下的所有子节点。但shi,在MySQL的目前版本中还没有对应的函数!!!  换句话来说,想

2015-01-30 15:42:57 17837 5

Java SE基础毕向东老师全程笔记pdf版

经典笔记,供学习参阅使用,请勿用于商业用途,侵删。

2017-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除