- 博客(8)
- 资源 (4)
- 收藏
- 关注
原创 persist和cache原理和使用
persist和cache原理和使用// org.apache.spark.rdd/rdd.scaladef cache(): this.type = persist()def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)cache基于persist实现,本文重点对persist进行研究1.persist原理1.1 persist初衷Spark基于内存进行计算,不会缓存中间结果,如果计算中多次引用同一个RDD,那么每一次对该
2020-07-17 10:19:05 599
原创 JDK源码阅读,调试,注释环境搭建
JDK源码阅读,调试,注释环境搭建基础环境macOS Catalina 10.15.4jdk-8u251IntelliJ IDEA 2020.1创建项目IDEA创建一个简单的Java项目,项目名称根据自己的情况指定添加jdk源码命令行执行 java -verbose 定位JDK安装路径java -verbose访达(Finder)cmd + shift + G,输入JDK安装路径,进入该目录项目中新建jdk8目录和test目录jdk8——jdk源码test——
2020-05-27 16:04:19 2189 2
原创 根据离散概率随机返回int值(i出现的概率为a[i])
根据离散概率随机返回int值问题描述给定数组a,数组a中n个元素之和等于1,a[i]作为i出现的概率,根据离散概率随机返回i值离散随机变量概率分布设离散型随机变量X所有可能的取值为x1,x2,...,则X取值为xi的概率 P=(X=xi)=pi,i=1,2,...就是离散随机变量X的概率分布。离散型随机变量概率分布性质pi >= 0,i=1,2,…p1 + p2 + … + pi + … = 1Xx1x2…xi…Pp3p2…pi…
2020-05-27 10:28:32 1003 1
原创 Spark RDD分区知识总结
Spark RDD分区知识总结1. RDD1.1 RDD定义RDD(Resilient Distributed Dataset)——弹性分布式数据集,是Spark中最基本的数据抽象不可变(只读)分区自动容错位置感知调度可伸缩1.2 RDD属性(1)一组分区(Partition),即数据集的基本组成单位。对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Co
2020-05-25 14:55:30 789
原创 IDEA创建第一个Maven项目
IDEA创建第一个Maven项目软件版本macOS Catalina 10.15.4jdk-8u251IntelliJ IDEA 2020.1Maven 3.6.3前置条件jdk正确安装Intel IDEA正确安装Maven安装配置# 存放maven的目录cd /Users/kevin/Apps # 下载mavenwget https://downloads.apache.org/maven/maven-3/3.6.3/binaries/apache-ma
2020-05-22 22:52:54 1270
原创 修改IDEA新建项目默认Maven配置
修改IDEA新建项目默认Maven配置IDEA新建项目默认配置File >> New Project Settings >> Preference for New ProjectsIDEA新建项目Maven默认配置Build, Execution, Deployment >> Build Tools >> Maven选择自己安装Maven的路径修改Maven运行JVM参数(MAVEN_OPTS)-Xms128m -Xmx512m -Duse
2020-05-22 20:56:58 2019 1
原创 五节点的Hadoop HA集群搭建
Hadoop高可用集群搭建1 集群规划1.1 节点(虚拟机)主机名IP操作系统安装软件vm110.211.55.11Centos 7JDK,Hadoopvm210.211.55.12Centos 7JDK,Hadoopvm310.211.55.13Centos 7JDK,Hadoop,Zookeepervm410.211.55.14Centos 7JDK,Hadoop,Zookeepervm510.211.55.15Cento
2020-05-13 17:32:36 496 1
原创 写出兼容Python2和Python3的代码
1.兼容范围大部分情况下开源社区的约定俗成是支持Python 2.7以及3.4+2.7以前的版本不兼容的部分较多,额外工作量太大且已经停止了更新支持使用Python 2.7的人占了绝大多数,从投入产出上比较划算。2.setup.py标记要兼容的版本setup( classifiers=[ 'License :: OSI Approved :: MIT License', 'Operating System :: OS Independent',
2020-05-08 18:07:00 222
hitchhikers python.pdf.zip
2019-09-15
apache-atlas-1.1.0编译成品
2019-01-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人