雷禄辉-CSDN博客

原创 pyspark消费Kafka写入Hive数据库

pyspark消费Kafka写入Hive数据库

2023-02-27 20:16:49 446 1

如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等，系统在后台都为该应用程序分配了一个文件描述符，该文件描述符提供了大量关于这个应用程序本身的信息。（1）cwd：表示current work dirctory，即：应用程序的当前工作目录，这是该应用程序启动的目录，除非它本身对这个目录进行更改。（2）txt ：该类型的文件是程序代码，如应用程序二进制文件本身或共享库，如上列表中显示的 /sbin/init 程序。（5）-：表示该文件的状态模式为unknow，且被锁定。

2023-01-30 17:49:07 481

原创回顾2022

接下来2023年我给自己的一个字是做，行动起来，有时想的太多，做的太少，做着做着就有了出路，还有不要计较一时的得失，眼光放长远，人生就像马拉松，笑到最后的才是赢家。回望过去的一年，有迷茫、有无奈、有惊喜，迷茫是人已步入中年，上有老下有小，身上有更多的责任和担当，无奈更多的出现在工作中，做的多结果不一定如意，惊喜是生活中。疫情三年，随着国家全面开放，相信在不久的将来就会迎来曙光，在这三年中我完成了人生当中非常重要的几件事，结婚、成家、也当了父亲。

2022-12-30 14:37:54 234

原创 Git 分支管理详解

我们先来说一个简单的案例吧，你们团队中有多个人再开发一下项目，一同事再开发一个新的功能，需要一周时间完成，他写了其中的30%还没有写完，如果他提交了这个版本，那么团队中的其它人就不能继续开发了。但是等到他全部写完再全部提交，大家又看不到他的开发进度，也不能继续干活，这如何是好呢？

2022-11-26 11:18:27 2441

原创 10月吐槽篇

10月吐槽篇

2022-10-29 14:12:34 309

原创 Spark SQL调用regexp_extract的处理方式

Spark SQL调用regexp_extract的处理方式

2022-09-13 11:36:49 2863

原创 Hive分区表和分桶表

Hive分区表和分桶表

2022-08-01 19:35:48 423

原创 Linux常用命令

Linux常用命令

2022-07-31 07:35:00 202

原创 SQL:你真的懂union all和union的使用

你真的懂union all和union的使用

2022-06-30 17:01:30 2280

原创 Airflow 报警邮件定制化

使用过airflow的应该都知道，通过在DAG文件中配置default_args可以设置邮件，但是收到过邮件的人都会发现邮件内容非常的少，有些必要信息并不会显示出来，这样就不能满足我们的生产需求，因此本文主要讲解如何定制化自己的邮件内容。1. 配置参数，如下所示default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': days_ago(1), 'email': ['xxx

2022-05-23 19:07:50 1647 1

原创 Airflow DAG声明的3种方式

先说明一下我使用的airflow 2.2.4版本第一种使用标准构造函数，将dag通过参数传递进去 import pendulumfrom airflow import DAGfrom airflow.operators.python import PythonOperatordag = DAG( dag_id='hello_world', start_date=pendulum.datetime(2022, 1, 1), schedule_interval=N...

2022-04-30 20:17:53 662

原创 pyspark报java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST的解决办法

今天我在本地使用Pycharm编写spark程序的时候，去连接hive数据库读取数据，然后报java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST问题最后发现是pip安装的pyspark版本和集群的版本不一致，我本地安装的pyspark=2.4.4，而我的集群是spark=2.3.0解决办法：先卸载之前的pyspark版本，然后安装对应的pyspark版本pip3 uninstall pys

2022-03-31 19:39:43 4713

原创大数据离线数据采集(sqoop)

拉取数据开源框架目前挺多的，本文主要讲述如何使用sqoop来拉取数据。sqoop当时是专门为了hadoop而来的，所以和hadoop结合比较好，sqoop常用是从mysql或者oracle数据库拉取数据到hadoop，接下来说明如何从这两者采集数据到hive中。sqoop从mysql采集到hivesqoop import --hive-import \ #指定导入到hive表 --connect jdbc:mysql://10.10.26.22:3306/xxsc \ #mysq

2022-02-19 17:07:15 2850

原创 RabbitMQ常用命令

默认访问页面：http://127.0.0.1:156721. 启动RabbitMQ服务service rabbitmq-server restart2. 查看RabbitMQ服务状态rabbitmqctl status3. 启用web插件rabbitmq-plugins enable rabbitmq_management4. 重启RabbitMQ服务service rabbitmq-server restart5. 添加页面用户及密码rabbitm

2022-01-20 18:54:52 3314

原创 2021收官之作

取这个标题我觉得有夸大嫌疑！！！挺难的今年，为什么这么说呢，就拿我写博客来说，今年总共写了差不多十几篇文章，基本上是一个月一篇，其中很长一段时间断断续续都不想写了，都是到最后咬紧牙关写的，不想写的原因有很多，其中之一就是人变的懒惰了，另外一方面学习到的东西不多吧回想今年，有收获也有遗憾，生活上收获挺大的，算是我角色的转变，工作上呢今年一年还是比较充实的，遗憾的也是工作之余没有大的进步，来这家公司也有一年多了，从我的同事身上学到了很多，比如精益求精，逐步完善，算是我的一点安慰吧在来说说对自己不满意的地

2021-12-30 20:32:11 225

原创 Linux新磁盘分区及挂载

当一台Linux服务器给到我们，并且插入了新磁盘，我们要怎么使用这个磁盘呢，接下来说明如何挂载磁盘，提供给我们写文件使用

2021-11-30 20:33:42 1643

原创程序员1024

都忘记了今天是一个特别的日子，刚才才突然想起来今天是1024，程序员节日，在这里祝所有程序员节日快乐，永远有一头乌黑的秀发，不知不觉，我已经在程序员道路上走过了7个春秋了。今天写这篇文章主要纪念一下自己走过的岁月，希望自己能不忘初心，砥砺前行。加油吧，为了我自己，为了我爱的人及爱我的人！！！...

2021-10-24 20:52:00 113

原创 sqoop导入数据到hive为空的解决办法

说下我当时遇到的情况，我在使用sqoop从mysql导入数据到hive，之前都是正常的，突然某一天发现一个字段导入到hive时为空，但是mysql是有值的，仔细观察发现这个字段类型有点特殊，特殊在哪里呢，他是tinyint(1)，这种类型是比较少见的接下来直接说解决办法：在sqoop连接mysql的url中加上tinyInt1isBit=false，完整的url示例：jdbc:mysql://localhost/test?tinyInt1isBit=false解释一下加这个得含义，默认sqo

2021-09-29 20:48:56 1290

原创 MySQL关于插入数据优化

话不多说，直接进入主题我们经常使用insert进行插入数据，但是当表中数据主键存在时，插入就会报错，所以我们会想到使用replace来进行插入数据，当数据不存在时插入，存在时更新，这样确实可以解决插入失败的问题，不过效率不高，接下来我来说三种插入方式insert示例：-- 根据数据值插入insert into test(id, name) values(1, 'zhang');-- 从另外一张表插入insert into test select id, name from tmp;

2021-08-31 20:56:25 275

原创 2021上半年个人小结

时间真是飞快，转眼2021年上半年已经过去了，回想自己这半年的时间，更多的精力是放在工作上，年初还学习了一些知识，最近这一个月没学习了，上班的时候把工作做好，下班基本就玩手机了，这个要改变了。今年还是有收获的，暂时保密，接下来我希望自己把握时间，争取时间，完成接下来的任务，明年打一个漂亮翻身仗，减少玩手机的时间和次数，做一些有利于身心健康的事情加油吧！...

2021-07-31 21:36:25 104

原创 airflow的安装部署

1. 安装python3.6.8http://www.voidcn.com/article/p-pxlwdned-byr.html， yum -y安装对应的依赖2. 在线安装airflowpip3 install apache-airflow3. 执行airflow命令，在哪里执行就会在哪里生成配置文件mysql要创建一个airflow库，同时my.cnf 设置explicit_defaults_for_timestamp=1修改airflow.cfg配置文件4.初始化数据库配置.

2021-06-30 12:32:04 851

原创 elasticsearch常用的文档命令

文章目录一、前言二、操作命令含义三、使用示例2.1 PUT添加数据2.2 GET查询数据2.3 PUT和POST修改数据2.4 DELETE删除数据一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一、前言elasticsearch相信大家都不陌生，他是一款分布式搜索分析引擎，在搜索领域有着霸主地位，今天本文要说的是常用的文档命令，主要包含PUT、GET、POST和DELETE二、操作命令含义PUT：添加数据GET：查询数据PUT和POST：修改数据DELETE：删除数据这里

2021-05-27 23:30:12 335

原创 Flink基础学习(Scala):时间语义与水位线(Watermark)

文章目录一、时间语义1.1 几个时间概念1.2 如何设置时间语义二、前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一、时间语义1.1 几个时间概念Event Time : 事件时间，记录的是设备生产(或者存储)事件时间Ingestion Time : 摄取时间，Flink读取事件的时间Processing Time : 处理时间，执行操作算子的本地系统时间，与机器有关在生成环境中我们往往更关心事件时间1.2 如何设置时间语义二、提示：这里可以添加系列文章的所有文章的

2021-04-05 09:38:41 782

原创 Flink基础学习(Scala):窗口函数window

文章目录一、前言二、窗口类型2.1 时间窗口(Time Window)2.1.1 滚动时间窗口2.1.2 滑动时间窗口2.1.3 会话窗口2.2 计数窗口(Count WIndow)2.2.1 滚动计数窗口2.2.2 滑动计数窗口三、总结一、前言窗口就是将无限流切割成有限流的一种方式，它会将流数据分发到有限大小的桶中进行分析二、窗口类型2.1 时间窗口(Time Window)2.1.1 滚动时间窗口所谓滚动窗口就是将数据依据固定的窗口的长度对数据进行切分（注意切分数据段是前闭后开），所以窗口长

2021-04-04 23:53:51 1180

原创 Flink基础学习(Scala):数据输出Sink

文章目录一、前言二、数据输出2.1 输出到文件2.2 输出到Kafka2.3 输出到Redis2.4 输出到ElasticSearch2.5 输出到MySQL三、总结系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一、前言前面我们已经学习了Flink的读取及转换，这篇文章将讲讲如何将转换后的数据输出，也就是数据落地，落地后给第三方进行使用二、数据输出数据落地多种方式，我们将从以下几个方面来说明2.1 输出到文件import org.apache.flink.api.

2021-04-02 23:07:00 1445

原创 Flink基础学习(Scala):数据转换算子Transform

文章目录一、前言二、算子2.1 简单算子2.2 聚合算子2.3 多流转换算子系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一、前言前言二、算子2.1 简单算子常见的简单算子有map、flatmap、filter等等，下面通过代码来实现一下import org.apache.flink.streaming.api.scala._object StreamTransform { def main(args: Array[String]): Unit = {

2021-03-22 21:53:52 977 1

原创 Flink基础学习(Scala):获取数据来源Source

文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例

2021-03-18 22:46:45 621

原创 Flink基础学习(Scala):设置并行度

文章目录一、前言二、如何设置并行度三、并行度的优先级四、总结一、前言说到并行度，应该不陌生，其实很多程序的优化到最后都是在优化这个，接下来说说如何设置并行度二、如何设置并行度要知道如何设置并行度，就先要知道哪些地方可以设置并行度，只要知道了哪些地方可以设置并行度，也就知道如何设置了，有点绕，接下来我列举出来集群配置文件flink-conf.yaml配置文件中有parallelism.default这么个参数，就是配置并行度，默认是1，这个是针对所有程序，没有给并行度是的默认并行度例如: p

2021-03-13 21:37:58 1174

原创 Flink基础学习(Scala): 提交作业到集群上

文章目录一、前言二、打包三、提交作业的方式前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一级目录二级目录三级目录一、前言前面已经编写了Flink第一个代码程序，并且也运行了，但是你会发现只是在IDEA上运行的，这种只适合开发，真正工作中我们更多的是要将写好的程序部署到集群上去跑，所以接下来说说如何将作业提交到集群上。二、打包三、提交作业的方式提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的

2021-03-13 16:27:51 527 2

原创 Flink基础学习(Scala): 简单入门World Count

文章目录一、前提准备二、使用步骤2.1 添加flink依赖2.2系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一、前提准备这里将以IDEA作为开发软件，首先我们得创建一个maven项目(如何创建maven请自行百度)二、使用步骤2.1 添加flink依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</

2021-03-08 23:22:55 918 1

原创 Flink的安装部署

文章目录一、前提条件二、安装步骤2.1 下载安装包2.2 解压安装包2.3 启动flink2.4 提交任务测试2.5 停止flink三、安装包目录结构介绍四、总结一、前提条件本文将以本地安装来说明，也就是standalone模式，以flink-1.12.0为例，java version: >= 8.0scala version: >= 2.11查看java版本命令： java -version二、安装步骤2.1 下载安装包下载flink，这边选择1.12.0版本, scala版本

2021-03-07 11:14:49 542

原创不知道你想表达啥

转眼间，又是二月的最后一天，马上又到三月份了，我发现自己2020年写的博客基本是以转眼间开头【哭笑】。回想自己的2020其实自己做的很平庸，没有突破，反而养成了很多小毛病，比如懒惰、拖延、上进心不足等，以上的这样足以摧毁我的2020。2021我要从每件小事情做起，做对长远有意义的事情，比如运动、看书、写博客，认识学习优秀的人。2021对我来说非常重要，2021对我来说非常重要，2021对我来说非常重要。这种力量要发至内心才更加有力量。因为我发现我的很多计划开始都认真去做，去执

2021-02-28 14:53:36 165 4

原创解决sqoop导入hive表失败问题

用sqoop从关系型数据库（mysql、oracle）将数据导入hive时，当同时导入多个不同数据库，同名表时，需要指定--target-dir参数，不然会导致任务失败，因为sqoop导入数据时，默认会在hdfs上根据表名创建一个临时目录，这样相同表名在hdfs上的路径就冲突了。因此这种情况下需要指定临时存放数据目录或路径，方式一：指定临时目录，--target-dir dbName_tableName比如hive用户，当导入数据时会在hdfs上创建/user/hive/dbName_t

2021-01-26 19:35:00 2094

原创 2020，再见

今天是2020年12月31号，也就是2020年的最后一天，时间过的真快，小时候常常觉得时间很慢，一年时间很长很长，每年最期盼的就是过年了，因为过年会有压岁钱，对于小时候的我来说那就是巨大的一笔财富，有很多很多的零食，那时候简简单单就觉得很幸福，现在成人了，发现每年的时间过得特别快，一转眼间一年又过去了，现在虽然有吃不完的零食，但是却很难真正的快乐起来，不知道是自己的欲望变高了，还是长大了就不容易快乐呢回想这一年，开年出遇到了疫情，在加整整待了两个月，可把人憋坏了，那段时间确实难熬，每天就顶着那一串串数字

2020-12-31 20:17:35 165 1

原创浅谈Airflow调度系统

一、调度系统1.1 为什么需要调度系统？因为⼤数据的任务多、复杂化就会有不同的需求：单个任务串联、并联任务要⽀持⼦节点、依赖节点数据抽取任务失败重试机制补数机制发邮件等任务种类多、需求多样化所以说我们需要调度系统1.2 调度系统有⼏多⼯作之后，很多童鞋和我⼀样最先接触到的应该是Linux⾃带的定期执⾏程序命令 crontab，使⽤简单、运⾏稳定、上⼿容易但是也有⾃⼰的缺点⽐如任务多了之后⽆法管理、没有依赖关系。因此我们在这⾥对crontab不做过多介绍，主

2020-11-29 20:00:29 1307

原创 2020特殊的十月

时间还是过的非常的快，转眼间已经到了十月份了，离2021年还有两个月了，在这个月我完成了我人生中很重要的一件大事，是什么呢，就是我结婚啦，当然这个月我也完成了跳槽，在今年这种特殊情况下，市场确实不是很好，在很多人看来今年大环境不好，我身边有好些朋友劝我不要跳槽，等明年开春在看，我也看到更多人是选择观望，每个人想法不一样吧，我觉得这其实恰恰是一个机会，找工作的好机会，我相信明年肯定会有更多、更好的岗位出来，但是竞争的程度也会增加，所以各有利弊，自己权衡。最后我祝愿大家都能找到一个满意的工作！

2020-10-31 23:14:10 733

原创 Group coordinator cdhtest002.sendinfo.com:9092 (id: 2147483581 rack: null) is unavailable or invalid

今天我在Windows下写了一个scala代码，用spark去消费kafka的数据，然后报Group coordinator cdhtest002.sendinfo.com:9092 (id: 2147483581 rack: null) is unavailable or invalid, will attempt rediscovery 这个错误，这个是集群（kafka）中ip和hostname对应关系没有配置，解决办法如下：Windows下修改C:\Windows\System32\driver

2020-09-29 10:12:18 4170

空空如也

空空如也