自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 Hadoop使用

hadoop使用

2021-12-29 11:15:09 1490

原创 spark源码之stage的创建与划分

大致的逻辑图,详细过程待写

2021-04-10 09:32:02 119

原创 spark源码之shuffle.write分析

先把大概逻辑描述下,详细过程待写......

2021-04-09 22:15:03 136

原创 spark源码之RDD源码分析

RDD的五大特性:1.partitions_:partition数组2.dependencies_:Dependency序列3. compute:计算函数4. Partitioner:分区器5. Preferred Locations:存储存取每个Partition的优先位置一、dependency在RDD中dependencies_是专门用来存储当前RDD的父dependency序列。dependencies方法,用于获取当前RDD的所有依赖的序列,源码如下:pack

2021-04-07 17:12:10 472 2

原创 SparkSQL:codegen

参考:https://blog.csdn.net/weixin_45906054/article/details/103249183?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachin

2020-12-11 19:38:25 701

原创 DAG有向无环图的构建和划分stage

Directed Acyclic Graph 有向无环图他是按照程序中的rdd之间的依赖关系,生成了一张有方向无环图1为什么要划分stage(调度阶段)?由于一个job任务中可能有大量的宽窄依赖,由于窄依赖不会产生shuffle,宽依赖会产生shuffle。后期划分完stage之后,在同一个stage中只有窄依赖,并没有宽依赖,这些窄依赖对应的task就可以相互独立的取运行。划分完stage之后,它内部是有很多可以并行运行task。2.如何划分stage?(宽依赖划分)(1)生成DAG有

2020-12-09 20:32:20 1026

原创 Linux基础:timedatectl命令

基础系统时钟:System Clock linux OS的时间,date命令可查看硬件时钟:RTC:Real Time Clock 主板上由电池供电的BIOS时间,hwclock -r可查看NTP: Network Time Protocol 本机时间和实际的时间之间的经常会有差别,一般使用NTP服务器进行时间校准使用timedatectl可以进行如下常见操作查看当前时间/日期/时区:timedatectl或者timedatectl status查看所...

2020-12-05 08:34:33 1405

原创 Centos使用chrony做时间同步

使用rpm -qa |grep chrony查看系统是否已安装chrony如果不存在使用yum安装即可: yum install chrony1.服务端1)vim /etc/chrony.confa.注释掉 pool 2.centos.pool.ntp.org iburst 加入新的的时间服务器 阿里云server 210.72.145.44 iburstserver ntp.aliyun.com iburstb.修改第22行,Allow NTP client access from.

2020-12-05 08:23:41 1791

原创 spark-yarn配置信息

conf/spark-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_144export YARN_CONF_DIR=/opt/module/hadoop/etc/hadoopspark-defaults.conf配置日志存储路径spark.eventLog.enabled truespark.eventLog.dir hdfs://linux1:8020/directory需要启动hadoop集群,.

2020-10-21 20:58:10 223

原创 6.hadoop-完全分布式

1.配置如下:2.编写了xsync脚本,方便同步到hadoop103,hadoop104中去脚本详情:https://blog.csdn.net/daxuddaai/article/details/1091650413.配置集群a.配置core-site.xml<!-- 指定HDFS中NameNode的地址 --><property> <name>fs.defaultFS</name> <value>hd

2020-10-20 20:30:00 83

原创 集群群发脚本配置

1.解释:在家目录下的bin目录下创建一个xsync文件这个文件名随便起,我是在hx账户下创建的集群所以我在/home/hx/bin/目录下创建的xsync文件,若配置ssh免密登录,就可以实现分发文件了2.脚本如下#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$

2020-10-19 17:36:45 230

原创 5.hadoop伪分布式

1.配置集群a.配置:hadoop-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_144b.配置:core-site.xml<!-- 指定HDFS中NameNode的地址 --><property><name>fs.defaultFS</name> <value>hdfs://hadoop101:9000</value></property>&l

2020-10-19 16:52:42 72

原创 4.hadoop-本地模式-wordcount官方案例

[hx@spark06 hadoop-3.1.4]$ mkdir input[hx@spark06 hadoop-3.1.4]$ vim /input wc.input随便输入点单词[hx@spark06 hadoop-3.1.4]$hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount input/wc.input wcoutput[hx@spark06 hadoop-3.1.4]cat wc.

2020-10-18 22:11:30 101

原创 ssh免密登录

设linux1、linux2、linux3三台机器实现在linux1免密登录到linux2、linux31.在linux1上ssh-keygen -t rsa三次回车2.将其公钥拷贝到linux2、linux3ssh-copy-id linux2输入linux2的密码 其中Linux2是在hosts中配置好了ip映射3.验证ssh linux2这样就可以在linux1上不输入密码就可以登录到linux2上linux3同样的操作...

2020-10-18 22:03:28 56

原创 3.安装hadoop

1.与安装jdk同理拷贝压缩包,解压到/opt/module/详情见:https://blog.csdn.net/daxuddaai/article/details/1091506502.配置环境[hx@spark06 ~]$ vim /etc/profile添加下面的内容##HADOOP_HOMEexport HADOOP_HOME=/opt/module/hadoop-3.1.4export PATH=$PATH:$HADOOP_HOME/binexport PATH=$P

2020-10-18 21:52:20 51

原创 2.安装jdk--linux

1.在/opt目录下创建module和software文件夹mkdir /opt/modulemkdir /opt/software2.利用xftp工具将jdk安装包放到software中,将其解压到module中[hx@spark06 software]$ tar -zxvf jdk-8u144-linux-x64.tar.gz /opt/module/3.查询现有的版本,卸载[hx@spark06 software]$ rpm -qa | grep java如果有自带的版

2020-10-18 21:44:13 49

原创 1.虚拟机环境准备

以下都是root下操作1.通过修改ifcfg-ens33配置文件来修改配置ip 命令:vim /etc/sysconfig/network-scripts/ifcfg-ens33修改为BOOTPROTO=staticONBOOT=yes添加IPADDR=172.16.1.115NETMASK=255.255.255.0GATEWAY=172.16.1.254DNS1=8.8.8.8[root@localhost ~]# systemctl restart network重启.

2020-10-18 21:25:50 99

原创 INFO ipc.Client: Retrying connect to server: hadoop03/192.168.31.133:8032. Already tried 0 time(s);

错误如下:解决办法:把hosts的一行注释掉如果不注释的话端口号前面的默认是127.0.0.1 导致无法连接参考:https://blog.csdn.net/zhugongshan/article/details/103819830没有注释前8032的端口:127.0.0.1:8032注释后:192.168.31.133:8032注释掉后就可以连接成功啦!理解:在配置中指定了192.168.31.133 执行命令的时候肯定是去找192.168.31.13.

2020-10-18 16:40:27 1747

原创 hadoop 8088端口无法访问 50070可以访问

参考https://blog.csdn.net/Zsigner/article/details/95050906Hadoop成功启动后ip:50070可以访问到页面,但是ip:8088提示无法访问该网站。问题出在hadoop文件夹下/etc/hadoop/目录下的配置文件:yarn-site.xml修改yarn-site.xml文件,将其<configuration></configuration>中的配置修改为:<configuration> .

2020-10-18 09:32:11 2319

原创 最长递增子序列

for(int i=1;i<=n;i++){ dp[i]=1; for(int j=1;j<i;j++){ if(h[j]<h[i]){ dp[i]=max(dp[i],dp[j]+1); } } }dp[i]求的结果是以i结尾的最长递增序列

2020-03-05 17:32:13 55

原创 模板

1.P1226 【模板】快速幂||取余运算给你三个整数b,p,kb,p,k,求b^p mod k#include<stdio.h> int main(){ long long b,p,k; long long ans=1; scanf("%lld%lld%lld",&b,&p,&k); printf("%lld^%lld mod %lld...

2020-03-05 17:31:50 107

原创 1002 写出这个数

读入一个正整数n,计算其各位数字之和,用汉语拼音写出和的每一位数字。输入格式:每个测试输入包含 1 个测试用例,即给出自然数n的值。这里保证n小于10​100​​。输出格式:在一行内输出n的各位数字之和的每一位,拼音数字间有 1 空格,但一行中最后一个拼音数字后没有空格。输入样例:1234567890987654321123456789输出样例:...

2020-01-28 17:47:44 90

原创 9-2激光样式

问题描述x星球的盛大节日为增加气氛,用30台机光器一字排开,向太空中打出光柱。安装调试的时候才发现,不知什么原因,相邻的两台激光器不能同时打开!国王很想知道,在目前这种bug存在的情况下,一共能打出多少种激光效果?显然,如果只有3台机器,一共可以成5种样式,即:全都关上(sorry, 此时无声胜有声,这也算一种)开一台,共3种开两台,只1种30台就不好算了,国王只好请你帮忙了。要...

2019-05-06 21:39:24 141

原创 算法训练 数的统计

问题描述  在一个有限的正整数序列中,有些数会多次重复出现在这个序列中。  如序列:3,1,2,1,5,1,2。其中1就出现3次,2出现2次,3出现1 次,5出现1次。  你的任务是对于给定的正整数序列,从小到大依次输出序列中出现的数及出现的次数。输入格式  第一行正整数n,表示给定序列中正整数的个数。  第二行是n 个用空格隔开的正整数x,代表给定的序列。输出格式  若...

2019-03-21 22:21:04 245

转载 算法训练 连续正整数的和

问题描述  78这个数可以表示为连续正整数的和,1+2+3,18+19+20+21,25+26+27。  输入一个正整数 n(<=10000)  输出 m 行(n有m种表示法),每行是两个正整数a,b,表示a+(a+1)+...+b=n。  对于多种表示法,a小的方案先输出。样例输入78样例输出1 1218 2125 27#include<stdio...

2019-03-21 21:15:35 159

转载 算法训练 和为T

问题描述  从一个大小为n的整数集中选取一些元素,使得它们的和等于给定的值T。每个元素限选一次,不能一个都不选。输入格式  第一行一个正整数n,表示整数集内元素的个数。  第二行n个整数,用空格隔开。  第三行一个整数T,表示要达到的和。输出格式  输出有若干行,每行输出一组解,即所选取的数字,按照输入中的顺序排列。  若有多组解,优先输出不包含第n个整数的;若都包含或都...

2019-03-20 21:35:51 187

原创 基础练习 矩形面积交

问题描述  平面上有两个矩形,它们的边平行于直角坐标系的X轴或Y轴。对于每个矩形,我们给出它的一对相对顶点的坐标,请你编程算出两个矩形的交的面积。输入格式  输入仅包含两行,每行描述一个矩形。  在每行中,给出矩形的一对相对顶点的坐标,每个点的坐标都用两个绝对值不超过10^7的实数表示。输出格式  输出仅包含一个实数,为交的面积,保留到小数后两位。样例输入1 1 3 ...

2019-03-18 22:52:55 131

转载 基础练习 芯片测试

问题描述  有n(2≤n≤20)块芯片,有好有坏,已知好芯片比坏芯片多。  每个芯片都能用来测试其他芯片。用好芯片测试其他芯片时,能正确给出被测试芯片是好还是坏。而用坏芯片测试其他芯片时,会随机给出好或是坏的测试结果(即此结果与被测试芯片实际的好坏无关)。  给出所有芯片的测试结果,问哪些芯片是好芯片。输入格式  输入数据第一行为一个整数n,表示芯片个数。  第二行到第n+1行为...

2019-03-18 15:24:10 85

原创 基础练习 FJ的字符串

问题描述  FJ在沙盘上写了这样一些字符串:  A1 = “A”  A2 = “ABA”  A3 = “ABACABA”  A4 = “ABACABADABACABA”  … …  你能找出其中的规律并写所有的数列AN吗?输入格式  仅有一个数:N ≤ 26。输出格式  请输出相应的字符串AN,以一个换行符结束。输出中不得含有多余的空格或换行、回车符。样例输入...

2019-03-15 20:55:56 83

转载 基础练习 分解质因数

问题描述  求出区间[a,b]中所有整数的质因数分解。输入格式  输入两个整数a,b。输出格式  每行输出一个数的分解,形如k=a1*a2*a3...(a1&lt;=a2&lt;=a3...,k也是从小到大的)(具体可看样例)样例输入3 10样例输出3=34=2*25=56=2*37=78=2*2*29=3*310=2*5提示  先筛出所有...

2019-03-15 20:35:24 276

原创 基础练习 回形取数

问题描述  回形取数就是沿矩阵的边取数,若当前方向上无数可取或已经取过,则左转90度。一开始位于矩阵左上角,方向向下。输入格式  输入第一行是两个不超过200的正整数m, n,表示矩阵的行和列。接下来m行每行n个整数,表示这个矩阵。输出格式  输出只有一行,共mn个数,为输入矩阵回形取数得到的结果。数之间用一个空格分隔,行末不要有多余的空格。样例输入3 31 2 3...

2019-03-15 20:05:12 92

转载 基础练习 完美的代价

问题描述  回文串,是一种特殊的字符串,它从左往右读和从右往左读是一样的。小龙龙认为回文串才是完美的。现在给你一个串,它不一定是回文的,请你计算最少的交换次数使得该串变成一个完美的回文串。  交换的定义是:交换两个相邻的字符  例如mamad  第一次交换 ad : mamda  第二次交换 md : madma  第三次交换 ma : madam (回文!完美!)输入格式 ...

2019-03-15 17:17:57 65

转载 算法训练 P0505

一个整数n的阶乘可以写成n!,它表示从1到n这n个整数的乘积。阶乘的增长速度非常快,例如,13!就已经比较大了,已经无法存放在一个整型变量中;而35!就更大了,它已经无法存放在一个浮点型变量中。因此,当n比较大时,去计算n!是非常困难的。幸运的是,在本题中,我们的任务不是去计算n!,而是去计算n!最右边的那个非0的数字是多少。例如,5!=1*2*3*4*5=120,因此5!最右边的那个非0的数字是...

2019-03-13 21:15:26 192

转载 算法训练 s01串

问题描述  s01串初始为"0"  按以下方式变换  0变1,1变01输入格式  1个整数(0~19)输出格式  n次变换后s01串样例输入3样例输出101数据规模和约定  0~19#include&lt;cstdio&gt;#include&lt;iostream&gt;#include&lt;algorithm&gt; using n...

2019-03-13 20:35:25 213

原创 算法训练 字符串变换

问题描述  相信经过这个学期的编程训练,大家对于字符串的操作已经掌握的相当熟练了。今天,徐老师想测试一下大家对于字符串操作的掌握情况。徐老师自己定义了1,2,3,4,5这5个参数分别指代不同的5种字符串操作,你需要根据传入的参数,按照徐老师的规定,对输入字符串进行格式转化。  徐老师指定的操作如下:  1 表示全部转化为大写字母输出,如abC 变成 ABC  2 表示全部转换为小写字母输...

2019-03-10 21:52:38 187

转载 算法训练 P0104

求方程ax2+bx+c=0的实数根。a, b, c由键盘输入, a!=0。若只有一个实数根(b2-4ac=0)则只输出x1,若无实数根(b2-4ac&lt;0)则输出Error。输入  2.5 7.5 1.0输出(注意等号前面后面都有一个空格)  x1 = -0.139853  x2 = -2.860147#include &lt;iostream&gt;#include &lt;i...

2019-03-10 19:45:17 243

转载 算法训练 P0501

输入两个无符号整数x, y, 用位操作实现无符号整数的乘法运算。不用考虑整数的溢出。输入:  235 657输出:  154395#include&lt;stdio.h&gt;#include&lt;iostream&gt;#include&lt;cctype&gt;#include&lt;algorithm&gt; using namespace std;int main(i...

2019-03-10 19:43:44 288

转载 算法训练 P0502

编写一个程序,读入一组整数,这组整数是按照从小到大的顺序排列的,它们的个数N也是由用户输入的,最多不会超过20。然后程序将对这个数组进行统计,把出现次数最多的那个数组元素值打印出来。如果有两个元素值出现的次数相同,即并列第一,那么只打印较小的那个值。例如,假设用户输入的是“100 150 150 200 250”,则输出为150。输入:  6  100 150 150 200 200 250输...

2019-03-10 19:41:57 209

转载 算法训练 P0504

 Anagrams指的是具有如下特性的两个单词:在这两个单词当中,每一个英文字母(不区分大小写)所出现的次数都是相同的。例如,Unclear和Nuclear、Rimon和MinOR都是Anagrams。编写一个程序,输入两个单词(只包含英文字母),然后判断一下,这两个单词是否是Anagrams。每一个单词的长度不会超过80个字符,而且是大小写无关的。  Input:长度不超过80个字符的两个单词...

2019-03-10 19:39:47 147

原创 算法训练 二元函数

问题描述  令二元函数f(x,y)=ax+by,a和b为整数,求一个表达式S的值。  只有满足以下要求的表达式才是合法的:  1.任意整数x是一个合法的表达式;  2.如果A和B都是合法的表达式,则f(A,B)也是一个合法的表达式。输入格式  第一行两个数a和b;  第二行一个字符串S表示要求的表达式。输出格式  一行一个数表示表达式S的值。样例输入1 2f(...

2019-03-10 19:37:59 655

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除