轻风细雨-CSDN博客

原创面试题：hive sql 用户连续登录7天用户

【代码】面试题：hive sql 用户连续登录7天用户。

2023-03-16 15:41:50 326

原创 c++ 一个学习小组有5个人，每个人有三门课（高数、英语和C语言）的考试成绩，求每人的平均成绩。按行输出每个学生的各科成绩及平均成绩。

【问题描述】一个学习小组有5个人，每个人有三门课（高数、英语和C语言）的考试成绩，求每人的平均成绩。按行输出每个学生的各科成绩及平均成绩。【输入形式】按高数、英语和C语言课程顺序输入每个学生的成绩。【输出形式】按行输出每个同学每个同学的每门课成绩及平均成绩。

2022-10-31 17:52:34 3393

原创 C++ 含n个元素的数组，编程找出相邻的3个数，其相加之和最大的第一个序列。打印出这3个数和它们的起始位置（用数组下标表示），如果数组长度小于3，输出error。

【问题描述】含n个元素的数组，编程找出相邻的3个数，其相加之和最大的第一个序列。打印出这3个数和它们的起始位置（用数组下标表示），如果数组长度小于3，输出error。【输出形式】打印出这3个数，及它们的起始位置。每个数据之间用单个空格隔开，数据保留两位小数。【输入形式】输入n，以及n个数组元素，数组元素类型是实数类型，数据之间用空格隔开。

2022-10-31 17:50:40 468

原创从0到1搭建一个Spring Boot项目【swagger 功能实现】

上一个文章已经开发接口功能。这里增加swagger 功能

2022-10-28 16:37:27 415

原创从0到1搭建一个Spring Boot项目【第一个接口】

从0到1搭建一个Spring Boot项目【第一个接口】

2022-10-28 16:16:14 448

原创从0到1搭建一个Spring Boot项目【创建项目详细】

能够运行，先完成第一步小目标，下一步添加依赖并尝试打包。项目类型选pom工程(因为是聚合工程)

2022-10-27 12:19:34 455

原创 Hadoop3.3.1 HA配置多个namenode（5个Namenode）详细

Hadoop3.3.1 HA配置多个namenode（5个Namenode

2022-09-27 11:26:21 3331 2

原创 Hive 多数组合并 CONCAT_WS

Hive 多数组合并使用CONCAT_WS和split 完成多个数组合成一个数组

2022-08-30 11:50:39 6430

原创 MapReduce执行流程

两个阶段：1、mapper阶段：提取数据，赋予特征映射 value ====> key,value mapreduce框架是怎么把相同特征的数据组合到一起来，然后交给reduceTask执行一次聚合操作（这里到底是怎么操作的呢？）2、reducer阶段: 把相同特征的数据进行聚合操作 key, (value, value, ...)...

2022-08-16 14:30:03 567

原创关于面试--【namenode&fsimage&edits】

namenode和镜像文件之间的一些过程和考点

2022-08-15 15:21:42 452

原创 HUDI（搭建详细记录附加jar）

hudi +flink + hive 部署和简单实验

2022-06-28 15:09:26 995

不一定详细，只是记录下，增加下理解。之前也有记录过，做个补充吧。知识点Partition：topic物理上的分组，一个topic可以分为多个partition，每个partition都是一个有序的独立的不可变的记录序列，新的消息会不断-的追加到序列末尾，分区的offset都是从0开始。kafka只能保证消息在单个分区的有序 Segment：partition物理上由多个segment组成 Offset：偏移量通过offset+partition+topic可以定位到唯一一条消息 bro.

2022-04-06 11:16:38 2228

原创 flink的timeWindowAll流无法输出数据

//不设置这个会导致无数据输出environment.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);

2022-03-28 14:52:15 2239 3

原创 JAVA 观察者模式【个人理解】

当对象间存在一对多关系时，则使用观察者模式（Observer Pattern）。比如，当一个对象被修改时，则会自动通知依赖它的对象。观察者模式属于行为型模式。介绍意图：定义对象间的一种一对多的依赖关系，当一个对象的状态发生改变时，所有依赖于它的对象都得到通知并被自动更新。主要解决：一个对象状态改变给其他对象通知的问题，而且要考虑到易用和低耦合，保证高度的协作。何时使用：一个对象（目标对象）的状态发生改变，所有的依赖对象（观察者对象）都将得到通知，进行广播通知。核心代码在抽象类里..

2021-12-09 12:02:57 496

转载 python open 写入模式介绍

模式描述 t 文本模式 (默认)。 x 写模式，新建一个文件，如果该文件已存在则会报错。 b 二进制模式。 + 打开一个文件进行更新(可读可写)。 U 通用换行模式（不推荐）。 r 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 rb 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。 r+ 打开一个文件用于读写。文件指针将会放在文件的开头。 r

2021-12-08 17:01:31 1133

原创 Flume自定义Source 代码和详细步骤

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的source类型已经很多，但是有时候并不能满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些source。搭建maven项目pom.xml<project xmlns="http://ma

2021-12-08 16:26:52 2001

原创 hive max和min计算跨天最早最晚登录时间

with loin_format as( selectuser_id,dt,case when cast(hour(login_time) as int) <=4 then concat( (cast(hour(login_time) as int) + 24),'@',login_time) else concat(hour(login_time) ,'@',login_time) end as login_time_formatfrom ods.user_login ..

2021-12-06 15:15:20 1453

原创 hive 根据记录表，获取开始时间和结束时间，时间差

表结构id int 主键 projectid int 项目id createdate string 创建时间id projectid createdate 8 179 2019-01-03 1...

2021-11-19 09:24:55 1753

原创 Java 面试中提到RUNTIME和Checked异常

参考：https://segmentfault.com/u/lslove记录下回答：java异常般分为 hacked异常和 Runtime异常,所有 RuntimeException类及其子类的实例被称为 Runtime异常,不属于该范畴的异常则被称为 CheckedException 。java认为 hecked异常都是可以被处理的异常,所以ava程序必须显示处理 Checked异常。如果程序没有处理 Checked异常,该程序在编译时就会发生错误无法编译而 RuntimeExcepti

2021-01-11 16:33:15 197 1

原创使用 TiUP 扩容缩容 TiDB 集群

TiDB 集群可以在不中断线上服务的情况下进行扩容和缩容。本文介绍如何使用 TiUP 扩容缩容集群中的 TiDB、TiKV、PD、TiCDC 或者 TiFlash 节点。如未安装 TiUP，可参考升级文档中的步骤，将集群 Import 到 TiUP 环境中，再使用 TiUP 进行扩容缩容。你可以通过tiup cluster list查看当前的集群名称列表。例如，集群原拓扑结构如下所示：主机 IP 服务 10.0.1.3 TiDB + TiFlash 10.0.1.4...

2020-12-16 19:21:56 1238

原创 TiUP 常见运维操作

本文介绍了使用 TiUP 运维 TiDB 集群的常见操作，包括查看集群列表、启动集群、查看集群状态、修改配置参数、关闭集群、销毁集群等。查看集群列表TiUP cluster 组件可以用来管理多个 TiDB 集群，在每个 TiDB 集群部署完毕后，该集群会出现在 TiUP 的集群列表里，可以使用 list 命令来查看。Copytiup cluster list启动集群启动集群操作会按 PD -> TiKV -> Pump -> TiDB -> TiFlash

2020-12-16 18:07:18 2042

原创一篇文章浅析filebeat+kafak+es

目录安装部署filebeat配置文件实例一：kafka作为输出实例二：logstash作为输出logstash配合配置实例三：elasticsearch作为输出安装部署filebeatwgethttps://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.10.1-linux-x86_64.tar.gz官网地址：https://www.elastic.co/cn/downloads/beats..

2020-12-16 14:51:59 1955

原创 hivesql 大全记得收藏

1. 等值比较: =语法：A=B操作类型：所有基本类型描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive>select 1 from test_table where 1=1;2. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A与表达式B不相等，则为TRUE；否则为FALSE举例：hive> select1 from tes

2020-12-10 16:27:32 1025

原创 spark foreachRDD 实现批量提交避免频繁插入

DStream是抽象类，它把连续的数据流拆成很多的小RDD数据块，这叫做“微批次”， spark的流式处理，都是“微批次处理”。 DStream内部实现上有批次处理时间间隔，滑动窗口等机制来保证每个微批次的时间间隔里，数据流以RDD的形式发送给spark做进一步处理。因此，在一个为批次的处理时间间隔里， DStream只产生一个RDD。dstream.foreachRDD { rdd => val connection = createNewConnection() // exe.

2020-12-08 15:32:54 1684

原创 Supervisor 进程守护

下载安装先看下本机是否有我的本机已经有了。[root@a1 supervisord.d]# whereis supervisordsupervisord: /usr/bin/supervisord /etc/supervisord.d /etc/supervisord.conf[root@a1 supervisord.d]#yum方式安装yum install supervisorpython方式wget https://pypi.python.org/pac...

2020-08-17 11:04:57 852

原创重装ambari 2.6.2

卸载关闭ambari-server，ambari-agentambari-server stopambari-agent stopyum删除所有Ambari组件yum remove -y hadoop_2* hdp-select* ranger_2* zookeeper* bigtop*atlas-metadata* ambari* spark* slide* strom* hive*检查下是否有遗漏rpm -qa|grep ambari删除文件和用户...

2020-08-07 18:01:49 1157

原创 hive 计算两个时间相差的分钟

select unix_timestamp(checktime,'yyyy-MM-dd HH:mm')- unix_timestamp(applytime,'yyyy-MM-dd HH:mm')/60,checkuser from tableau.home_person_check_time limit 10;

2020-07-13 15:27:13 11335 1

原创【Python3笔记】八、Python 字典

字典介绍字典是“键值对”的无序可变序列，字典中的每个元素都是一个“键值对” ，包含：“键对象”和“值对象” 。可以通过“键对象”实现快速获取、删除、更新对应的“值对象”列表中我们通过“下标数字”找到对应的对象。字典中通过“键对象”找到对应的“值对象” 。 “键”是任意的不可变数据，比如：整数、浮点数、字符串、元组。但是：列表、字典、集合这些可变对象，不能作为“键” 。并且“键”不可重复。“值”可以是任意的数据，并且可以重复。字典的创建1我们可以通过{}、dict（）来创建字典...

2020-07-08 15:38:06 789

原创【Python3笔记】七、Python 元组tuple

元组tuple列表属于可变序列，可以任意修改列表中的元素。元组属于不可变序列，不能修改元组中的元素。因此，元组没有增加元素、修改元素、删除元素相关的方法。因此，我们只需要学习元组的创建和删除，元组中元素的访问和计数即可。元组支持如下操作： 1. 索引访问2. 切片操作3.连接操作4. 成员关系操作 5. 比较运算操作...

2020-07-03 16:09:30 1917

原创【Python3笔记】六、Python 序列

列表简介列表：用于存储任意数目、任意类型的数据集合。列表是内置可变序列，是包含多个元素的有序连续的内存空间。列表定义的标准语法格式： a = [10,20,30,40]其中，10,20,30,40 这些称为：列表 a 的元素。列表中的元素可以各不相同，可以是任意类型。比如： ...

2020-07-03 10:42:01 1882

原创【Python3笔记】五、Python 字符串

字符串基本特点很多人初学编程时，总是担心自己数学不行，潜意识里认为数学好才能编程。实际上，大多数程序员打交道最多的是“字符串”而不是“数字”。因为，编程是用来解决现实问题的，因此逻辑思维的重要性远远超过数学能力。字符串的本质是：字符序列。Python 的字符串是不可变的，我们无法对原字符串做任何修改。但，可以将字符串的一部分复制到新创建的字符串，达到“看起来修改”的效果。 Python 不支持单字符类型，单字符也是作为一个字符串使用的。字符串的编码Python3 直接支持 Unicode

2020-07-02 11:26:38 2136

原创【Python3笔记】四、Python整数

整数Python 中，除 10 进制，还有其他三种进制：·0b 或 0B，二进制 0 1·0o 或 0O，八进制 0 1 2 3 4 5 6 7·0x 或 0X，十六进制 0 1 2 3 4 5 6 7 8这三种进制可以非常方便的进行“位运算”操作。>>> 0o108>>> 0x1925>>>使用 int()实现类型转换：1. 浮点数直接舍去小数部分。如：int(11.11)结果是：112. 布尔值 True

2020-07-01 14:32:34 2109

原创【Python3笔记】三、Python的对象

Python 中，一切皆对象。每个对象由：标识（identity）、类型（type）、value（值）组成。1. 标识用于唯一标识对象，通常对应于对象在计算机内存中的地址。使用内置函数 id(obj) 可返回对象 obj 的标识。2. 类型用于表示对象存储的“数据”的类型。类型可以限制对象的取值范围以及可执行的操作。可以使用 type(obj)获得对象的所属类型。3. 值表示对象所存储的数据的信息。使用 print(obj)可以直接打印出值对象的本质就是：一个内存块，拥有特定的值，支持特

2020-06-30 20:14:31 2152

原创【Python3.8笔记】二、开发入门

Python 下载安装和配置1. 进入官网：http://www.python.org/downloads/2. 下载3. 安装4. 环境变量问题勾选：“Add Python to environment variable”。这样就会将 Python 添加到环境变量 Path 中，我们可以在 windows 的命令行模式下运行 Python 解释器。Python开发工具其他编辑器也可以。上边两种是我常用的。shell交互窗口(1) Ctrl+Z 和回车(2)..

2020-06-29 10:25:52 2085

原创【Python3笔记】三、Python第一程序画出奥迪车标

编程# -*- coding: utf-8 -*-import turtledef Audilogo(): turtle.width(5) #笔的宽度 turtle.color("blue") #笔的颜色 turtle.penup() #抬笔 turtle.goto(-60,0) #将笔拿到这个坐标 turtle.pendown() #下笔 turtle.circle(50) #画圆 turtle.color("blue") .

2020-06-28 12:14:18 8067

原创【Python3笔记】一、Python介绍

· 简介 Python 是一种解释型、面向对象的语言。由吉多·范罗苏姆（Guido van Rossum）于 1989 年发明，1991 年正式公布。官网：https://www.python.org/Python的创始人为荷bai兰人吉多·范罗苏姆[3] （duGuido van Rossum）。1989年圣诞节期间zhi，在阿姆斯特丹，Guido为了打发圣dao诞节的无趣，决心开发一个新的脚本解释程序，作为ABC 语言的一种继承。之所以选中Python（大蟒蛇的意...

2020-06-28 11:04:05 2373

原创关于面试--【hadoop 和 spark 在处理数据时，处理出现内存溢出的方法有哪些？】

1. map过程产生大量对象导致内存溢出这种溢出的原因是在单个map中产生了大量的对象导致的。例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)，这个操作在rdd中，每个对象都产生了10000个对象，这肯定很容易产生内存溢出的问题。针对这种问题，在不增加内存的情况下，可以通过减少每个Task的大小，以便达到每个Task即使产生大量的对象Executor的内存也能够装得下。具体做法可以在会产生大量对象的map操作之前调用repartit

2020-06-24 11:17:13 3351

原创关于面试--【项目中为什么通常flume和kafka要共同使用?】

1整体来说我们很多人在在使用Flume和kafka时，都会问一句为什么要将Flume和Kafka集成？那首先就应该明白业务需求，一般使用Flume+Kafka架构都是希望完成实时流式的日志处理，后面再连接上Flink/Storm/Spark Streaming等流式实时处理技术，从而完成日志实时解析的目标。1. 生产环境中，往往是读取日志进行分析，而这往往是多数据源的，如果Kafka构建多个生产者使用文件流的方式向主题写入数据再供消费者消费的话，无疑非常的不方便。2. 如果Flume直接对...

2020-06-23 12:15:47 2858

原创关于面试--【flume介绍已官网为基础】

在官网上有很多的介绍所以面试的时候少点自己理解多说写官网上已经有的，给面试会带来更多亮点。flume介绍Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming da

2020-06-22 09:59:59 2804