自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 scala集合学习

本文章用于记录scala学习经历

2021-07-01 17:49:08 148

转载 java IO流总结

参考: http://blog.csdn.net/zhaoyanjun6/article/details/54292148流的概念:流是一组有顺序,有起点和终点的字节集合,是对数据传输的抽象和总称。即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输的特性将流抽象为各种类,方便更直观的进行数据操作。IO流的分类:根据处理数据的不同,可以分为字节流和字符流;跟俊数据的流向分类,可以分为输入流和输出流。字符流和字节流的区别:因为数据编码的不同,而有了对字符进行高效操作的流对象,本质其实是基

2021-06-09 17:48:55 114

原创 scala方法与函数

函数式编程:解决问题时将问题分解成一个一个的步骤,将每个步骤进行封装(函数),通过调用这些封装好的步骤,解决问题。函数的本质:函数可以当作一个值传递一、函数基础 基本语法 def sum(x : Int, y :Int):Int={x+y}var a:Int=sum(1,2) 2.核心概念: 函数:为完成某一功能的程序语句的集合成为函数 方法:类中的函数称为方法 函数没有重写和重载的概念,方法可以进行重...

2021-05-31 18:21:16 104

原创 Spark统计文本中全大写(不含小写字母)的单词的数量

object MyScalaWordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("MyScalaWordCount"); //创建一个SparkContext对象 val sc = new SparkContext(conf) //读取文件及分割单词 val res = sc.textFile("/home/luohuan/in.

2021-05-31 14:00:37 215

原创 mysql安装

操作系统:centos7mysql版本: mysql 5.7下载地址: https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar解压命令: tar -zxvf mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar安装前需要将 系统自带的mariadb-lib卸载:rpm -qa|grep mariadbmariadb-libs-5...

2021-05-19 18:40:55 113

原创 spark第一步之通过idea工具开发spark——maven构建scala工程

先码

2021-05-19 18:33:09 178

原创 hive正则及案例解析

今天来说一下hive中的正则表达式,主要包含:元字符匹配、位置匹配、频率匹配1、元字符匹配(.)表示匹配除换行符以外的任意字符。(\w) 表示匹配字母、下划线、数字或汉字(\\W)。(\d) 表示匹配数字(\s) 表示匹配任意的空白符([ ])表示匹配方括号中任一字符([^匹配内容]) 表示匹配方括号中任一字符2、位置匹配(^) 表示匹配字符串的开始,...

2020-05-28 17:20:38 626

原创 python调用shell脚本常用方法

一、os.system(shell_command)首先补充shell命令或者一个进程执行完成时返回的状态码,0 表示执行成功;1 表示执行出现异常或非正常退出。多说一句,在shell脚本中,最后执行的的一条命令决定整个shell脚本状态,返回shell脚本的状态码。所以使用os.system(shell_command)返回值是shell命令执行的状态码,int类型,0表示成功二、os.popen(shell_command)该方法以文件的形式返回shell指令运行后的结果,需要获..

2020-05-28 17:14:07 742

原创 java知识点之数组

在大部分编程语言中都有数组这种数据存储结构,而且通俗易懂,对于数据结构初学着来说数组作为起步点最适合不过了。那么什么是数组呢?网上定义挺多的,这里我借用了《java编程思想第四版》的一段话:相同类型的,用同一个标识符名称封装到一起的一个对象序列或基本类型数据序列,使用方括号下标操作符 []来定义和使用。我们为什么要用数组呢?假如我们要记录一个班60个同学的名字,一个变量一个变量定义就要定义60次了,使用数组的话我们只需要定义一个变量,工作量大大减少。下面我把自己梳理出来的要点总结一下:...

2020-05-27 22:02:41 213

原创 live datanode数量与集群配置不一致问题

hadoop分布式集群搭建是一个主节点,两个从节点,运行后发现hdfs dfsadmin -report 只有一个节点处于激活状态,从节点jps 发现datanode进程都正常最后解决办法:将slave1 hdfs-site.xml 文件参数修改为前后同slave2 修改为node2重启后显示两个节点都已激活...

2020-05-10 12:04:22 387

原创 hadoop格式化系统后datanode无法启动问题解决

执行bin/hdfs namenode -format 格式化完文件系统后slave 的datanode无法启动,具体查询可以用命令hdfs dfsadmin -report 查询,表现为live datanode 为0,slave 查询日志表现为ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid 5c0f6

2020-05-10 11:56:22 673

原创 python 实现时间日期和会员日活动维表

活动周期为七天,周二开始到下周一结束,维表两个字段,日期及对应活动名称,一个周期活动名称不变,都为下周一的日期。代码如下:import pandas as pdimport datetimedd1=datetime.datetime.strptime("2019-09-10 00:00:00","%Y-%m-%d %H:%M:%S")dd2=datetime.datetime.st...

2020-01-17 11:35:39 239

原创 ArrayList三种遍历方式

1.Iterator方法遍历Integer value = null;Iterator iter = list.iterator();while (iter.hasNext()) { value = (Integer)iter.next();}2. for 第一种循环方式遍历for(int i = 0;i < list.size(); i ++){ S...

2020-01-08 18:59:46 427

原创 java实现三种排序-冒泡排序、快速排序、插入排序

package com.lh.cn;import java.util.Arrays;public class Sort { public static void BubbleSort(int[] args) { int n=0; for(int i=0;i<args.length;i++) { for(int j=0;j<args.length-1-i;j++...

2020-01-06 23:22:09 129

原创 在windows 环境用pycharm开发pyspark项目

最近家里新买了台电脑,环境什么的又得重新安装,干脆沉淀下一篇博客记录下整个过程,省得再去搜索。 在windows环境用pycharm开发pyspark首先我们得知道什么是pyspark。首先Apache Spark用Scala编程语言编写。为了支持带有Spark的Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,你就可以使用Python编...

2020-01-04 15:38:54 854 1

原创 windws10 安装spark

安装spark版本2.44下载链接这里使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用。下载完成后将文件进行解压(可能需要解压两次),最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。在hadoop添加完环境变量后还是会出现如下报错,此时需要在hadoop bin 目录下添加一个文件点...

2019-12-26 16:39:36 95

原创 Hive的动态分区

以前hive 建动态分区的时候由于分区数比较少,所以一直都是设置两个参数:set hive.exec.dynamic.partition=true;------是否开启动态分区功能,默认值是false,使用动态分区所以设置为trueset hive.exec.dynamic.partition.mode=nonstrict;-----动态分区的模式,默认strict,表示必须指定至少一...

2019-09-24 13:31:37 1473

原创 我的第一篇博客-种一棵树最好的时间是十年前,其次是现在

一直不知道自己在焦虑什么,也不知道什么时候才是自己的开始,哪里才是自己的起点。昨天27周岁了,记性不好,竟不知道这些年学了什么发生了什么,csdn这篇博客就当一个能看到能摸到的开始吧。...

2019-08-26 15:43:50 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除