王一1995-CSDN博客

原创 hive表加字段

CASCADE关键字在Hive的ALTER TABLE操作中用得相对较少，它的主要作用是在修改表结构时级联应用到分区表的所有分区。在大多数情况下，当你对表进行结构更改时，如添加或删除列，这些更改自动应用到所有分区，而无需显式使用CASCADE。然而，在某些特定的场景下，比如使用复杂的数据类型或者在特定的Hive版本和配置下，CASCADE关键字的使用可能会变得更加重要。但是，在一些特殊情况下，如果你遇到了因为分区未更新导致的问题，或者你的Hive环境有特定的要求，使用CASCADE可能就变得必要了。

2024-02-04 11:28:38 596

原创 hive的join优化

根据具体场景和集群配置，调整一些Hive的配置参数来优化性能，如hive.tez.container.size、hive.vectorized.execution.enabled等。在此语句中，Table_B表已根据key字段分区，并且使用WHERE子句过滤出day='20220101’的记录。如果表已根据Join键进行了分区，直接对分区进行Join操作，以减少需要比较的数据量。对于频繁用作Join条件的列，可以在表上创建索引，加快Join操作的速度。根据表的大小和数据分布情况，选择合适的Join策略。

2023-09-18 15:22:45 442

原创 Spark的JVM调优

spark的jvm调优

2023-03-20 01:38:09 546 1

原创 [Hadoop]万字长文Hadoop相关优化和问题排查总结

Hadoop问题排查相关

2023-03-18 18:37:46 1580 2

原创 Spark SQL到底支持什么SQL语句？

sparksql支持的sql语句

2023-03-11 01:45:31 290

原创 [HDFS]hdfs——安全模式

1）达到副本数量要求的block比例满足要求；2）可用的datanode节点数满足配置的数量要求；3） 1、2 两个条件满足后维持的时间达到配置的要求。

2022-10-09 18:46:24 685

原创 flink篇——Time和watermark机制

优化方案：Flink允许跳过对齐这一步，或者说一个算子子任务不需要等待所有上游通道的Checkpoint Barrier，直接将Checkpoint Barrier广播，执行快照并继续处理后续流入的数据。为了保证数据一致性，Flink必须将那些较慢的数据流中的元素也一起快照，一旦重启，这些元素会被重新处理一遍。周期性地生成 Watermark 的生成，默认是 200ms。（1）每次进行Checkpoint前，都需要暂停处理新流入数据，然后开始执行快照，假如状态比较大，一次快照可能长达几秒甚至几分钟。

2022-08-22 10:33:19 656

原创 Flink的job提交全流程及web ui提交任务方式

Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给 JobManager 进行处理，JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobManager 根据 ExecutionGraph 对 Job 进行调度。其实本来觉得这篇文章不需要写的，但是在网上搜了一下，有的提交的时候参数写的不全，还有的居然是收费文章！随后左边的就可以看见tm和jm的状态了。

2022-08-19 11:32:09 2919

原创 Flink CDC介绍和简单实用

CDC是Change Data Capture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。...............

2022-08-09 18:01:16 3651 1

原创 [jmx]zookeeper/kafka/hive/hadoop/presto/presto等组件的jmx监控汇集

jmx的jar包是：jmx_prometheus_javaagent-0.16.0.jar 或 jmx_prometheus_javaagent-0.15.0.jar。项目借用jmx监控，也调研了一些时间，那就记个笔记吧，有些之前整理过，直接上链接了~ 都测试过了，均可使用。修改配置文件promtail.yaml：http_listen_port: 9080。修改配置文件loki.yaml：http_listen_port: 3100。，通过curl http://ip:port可以进行访问的。......

2022-08-05 15:56:38 1537

原创 [ZOOKEEPER]zookeeper基础知识笔记

回顾一下zookeeper基础知识，然后梳理一下zookeeper源码~~~

2022-08-02 11:21:52 299

原创 [ansible]playbook结合项目解释执行步骤

playbook是由一个或多个"play"组成的列表，play的主要功能在于将预定义的一组主机，装扮成事先通过ansible中的task定义好的角色。个人理解就是在task定义好执行流程，然后执行ansible的时候定义怎么去执行。...............

2022-08-01 17:10:58 1124

原创 Apache文件管理自学笔记——映射文件夹和基于单ip多域名配置apache虚拟机

如果某条件既匹配Deny语句又匹配Allow语句，则Allow语句会起作用（因为Allow语句覆盖了Deny语句）。如果某条件既匹配Deny语句又匹配Allow语句，则Deny语句会起作用（因为Deny语句覆盖了Allow语句）。例如把自己的产品卖给用户，用户去修改自己的配置文件的时候，去修改了别人的配置文件，导致别人的配置文件无法使用，所以apache把一部分配置文件让用户去完成。既匹配Deny语句又匹配Allow语句，由于allow语句覆盖了deny语句，所以是允许所有客户机访问。......

2022-07-28 17:59:47 1219

原创 [Python]pycharm报错Cannot set up a python SDK at Python 3.9

PyCharm中下载类库File——Settings——ProjectDesktop——PythonInterpreter——add并设置下面的内容——然后点击“+”进行添加包。

2022-07-26 10:55:14 1799

原创 ModuleNotFoundError: No module named ‘pip‘解决办法

pip下载速度慢修改国内镜像解决办法https//blog.csdn.net/MyNameIsWangYi/article/details/123712400。

2022-07-25 10:18:01 244

原创 [pytho-flask笔记5]蓝图简单使用

蓝图创建最简单过程多文件蓝图注意import导包死锁多文件在ini的py文件创建蓝图。在类的py文件写route路由（定义蓝图路由）。在调用的时候注册蓝图。启动后可以使用

2022-07-21 21:20:23 333

原创 [python-flask笔记4]路由说明和指定请求方式

方法一终端操作进入cd到py文件所在的目录(wy0713)D\王一的笔记\myPythonLearn\pythonProject\wy0713\day01>setFLASK_APP=demo5_flask_run.py(wy0713)D\王一的笔记\myPythonLearn\pythonProject\wy0713\day01>flaskrun注如果版本不一致，可以通过export代替setctrl+c结束程序运行。......

2022-07-21 18:04:44 275

原创 [hive报错] 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

代码】[hive报错]找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster。

2022-07-20 11:27:33 807

原创 [python-flask笔记3]run方法参数简单使用debug/port/ip

debug=True的时候，修改print打印的内容，然后刷新界面，debug模式可以帮助我们自动跟踪文件的变化。也可以使用ip和port修改web的地址！web端口的信息也会发生对应的变化。

2022-07-19 18:03:14 684

原创设计模式之七大原则

目的增强程序的健壮性）实际项目中，每个子类对应不同的业务含义，使父类作为参数，传递不同的子类完成不同的业务逻辑。【接口的设计粒度越小，系统越灵活，但是灵活的同时结构复杂性提高，开发难度也会变大，维护性降低】当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。一个类或者一个方法只负责一项职责，尽量做到类的只有一个行为原因引起变化；子类可以扩展父类的功能，但不能改变原有父类的功能；（扩展为类也是一种接口，一切皆接口）最少知道原则，尽量降低类与类之间的耦合；........

2022-07-19 17:44:44 89

原创 [python-flask笔记2]工厂模式加载配置

在项目中，配置信息的使用方式工厂模式：1.定义工厂函数，封装创建程序实例的代码2.定义函数的参数，可以根据参数的不同创建不同的appdemo_run.pyset.py

2022-07-19 17:02:55 363

原创 [python-flask笔记1]python加载配置的五种方式

项目中一般使用13种第一种一般存储业务相关信息，如数据库配置，连接信息，各种初始化信息第三种密钥。签名等信息放在环境变量，一般不跟业务代码放在一起。

2022-07-18 17:57:49 999

原创 hadoop的fs shell命令

一个HDFS文件或目录比如/parent/child可以表示成hdfs//namenodenamenodeport/parent/child，或者更简单的/parent/child（假设你配置文件中的默认值是namenodenamenodeport）。接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。改变一个文件的副本系数。显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小。...

2022-07-18 17:03:37 317

原创 [swagger]springboot结合swagger

file-》new-》project-》spring initializr -》直接下一步选择java8-》选择web ，spring web我pom中引用的是2.4.0版本3.添加swagger配置配置完就可以尝试启动程序了，访问localhost:8080出现如下界面再次执行就有如下界面application.yml文件可以修改端口号和访问时候的路径，默认端口是8080...

2022-07-13 15:24:11 377

原创 systemctl-service服务添加环境变量及模板

systemd.exec 中文手册：http://www.jinbuguo.com/systemd/systemd.exec.html#%E7%8E%AF%E5%A2%83%E5%8F%98%E9%87%8F设置进程的环境变量，接受一个空格分隔的 VAR=VALUE 列表。可以多次使用此选项以增加新的变量或者修改已有的变量(同一个变量以最后一次设置为准)。设为空表示清空先前所有已设置的变量。注意： (1)不会在字符串内部进行变量展开(也就是"$“没有特殊含义)； (2)如果值中包含空格或者等号，那

2022-07-11 18:07:58 7613

原创 [Doris]配置和基本使用contens系统（有时间继续补充内容）

ps：priority_networks = 192.168.0.149/16记得修改对应的ip！be的配置（多节点需要修改ip）ps：priority_networks = 192.168.0.149/16记得修改对应的ip！systemctl方式的启动fe所在几点 be所在节点依次启动然后直接start、stop、status就可以be的systemctl脚本然后直接start、stop、status就可以be的启动访问doris的web192.168.0.149

2022-06-30 16:30:16 926

原创 [HADOOP]我所遇到的Hadoop报错(更新中)

我得集群上安装了三套hadoop，所以冲突的时候也属于意料之中了。删除namenode格式化所需要目录这样就可以显示succeefully然后进入bin目录会出现successfully就是ok了原因：由于配置了ha模式，执行命令的机器不是active节点下面是换成第一个节点，执行以下命令，输入Y。然后切换到nn1的节点阿这，不报错了。..................

2022-06-21 16:10:31 1385

原创 [Hudi]hudi的编译及hudi&spark和hudi&flink的简单使用

hudi的编译

2022-06-12 18:02:39 1438

原创 [部署]presto-server-0.261.tar.gz的集群部署和启动

目录安装包的下载和解压节点的相关配置配置文件可以先配置主节点然后scp到其他节点config.properties的配置主节点config.properties的配置从节点config.properties的配置三个节点jvm.config的配置一样node.properties的配置主节点从节点hive.properties的配置启动安装包的下载和解压presto-server包下载地址：https://prestodb.io/download.html本文用的是presto-server-0.2

2022-05-30 17:00:53 271

原创 [监控部署实操]基于granfana展示Prometheus的图表和loki+promtail的图表

目录本文安装版本loki的日志监控安装包版本pometheus的监控安装包版本pometheus的监控node_exporter的启动Prometheus的安装和启动granfana的启动loki的日志监控编写配置文件（启动需要）promtail的启动loki的启动granfana添加loki遇到的问题1.需要机器之间的时间同步。2.检查Prometheus的配置文件3.检查loki，promtail的配置4.granfana添加source的时候ip错误5.只有个别图标显示no data本文安装版本g

2022-05-27 03:17:04 1754 2

原创 [zookeeper]zookeeper3集群部署及jmx监控及systemctl添加zookeeper服务

目录1.三台机器2.包的部署和解压3.zookeeper的配置4.jmx的配置5.启动zkServer6.Prometheus的配置并启动7.systemctl添加zookeeper服务1.三台机器yxkj153yxkj155yxkj1572.包的部署和解压apache-zookeeper-3.5.7-bin.tar.gz这步就是将包上传到一台机器上，然后tar -zxvf 。。。掠过~3.zookeeper的配置zoo.cfgclientPort=2000initLimit=10

2022-05-21 22:57:44 841

原创 [flink]flink on yarn和standalone模式简单配置

注：jobmanager.memory.heap.size和jobmanager.memory.process.size二选一，且后者比前者大。classloader.check-leaked-classloader: false和taskmanager.memory.process.size: 5120m是程序启动时候遇到的问题，所以配置上env.hadoop.conf.dir: /opt/hadoop/etc/hadoop，env.java.home: /usr/lib/jvm/java-1.8

2022-05-11 18:15:29 2819

原创 [metric]使用Prometheus监控flink1.13org.apache.flink.metrics

目录1 Prometheus安装使用2 pushgateway安装使用3 flink配置Prometheus查看到如下指标1 Prometheus安装使用prometheus下载地址：https://prometheus.io/download/打开http://localhost:9090/就可以访问使用2 pushgateway安装使用解压后直接运⾏ ./prometheus 就可以启动 prometheusprometheus pushgateway下载地址：https://prome

2022-05-10 17:14:42 1368

原创 [JMX]jmx监控hadoop3.x和Hadoop2.x（一步到位）

目录背景实现过程1 环境的准备2 jmx在hadoop中的编写2.1 hdfs——jmx2.2 yarn——jmx3.jmx相关参数的yaml文件编写4.Prometheus部分5.最后操作启停其他背景Prometheus+jmx_prometheus_javaagent-0.16.1.jar+hadoop3.2.1实现过程1 环境的准备jmx下载地址：https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent

2022-05-10 16:55:35 2356 3

原创 [linux]NTP实现外网时间同步并且多台机器之间的时间同步

目录1.环境准备三台节点2.每台机器下载ntp2.主节点bdp01的配置4.修改本机的是区间为上海4.1 使用4.2 使用Systemd更改Linux系统时区1.环境准备三台节点bdp01bdp02bdp032.每台机器下载ntpyum -y install ntp*2.主节点bdp01的配置主要部分：1.注释掉四个server（#部分）；2.设置外网的时间同步（后面追加的部分）# For more information about this file, see the man pa

2022-05-03 22:19:25 1418

原创 [Hadoop]hadoop3的hdfs和yarn模式高可用配置

目录1.三台机器2.wokers配置3.core-site.xml配置4.hdfs-site.xml配置5.yarn-site.xml配置6.hadoop-env.sh配置7.mapred-site.xml配置8.环境变量 /etc/profile配置1.三台机器bdp01bdp02bdp032.wokers配置bdp01bdp02bdp033.core-site.xml配置<configuration> <property> <name&g

2022-05-03 21:54:06 1331

原创 [Flink]flink1.13 on yarn的HA部署配置及测试

目录1.安装包准备（需要的可以联系我）1.1 flink安装包1.2 zookeeper和Hadoop的安装1.3 flink on yarn需要的hadoop包2.解压并配置内容2.1 /etc/profile配置2.2 flink的配置3.启动3.1 先启动yarn-session3.2 flink的启动3.2.1 session方式启动demo3.2.2 per-job方式启动demo3.2.3 flink启动参数说明1.安装包准备（需要的可以联系我）1.1 flink安装包本文用的是：flin

2022-05-03 21:40:13 2538

kylin的playbook

Prometheus-2.35.0相关资源

空空如也