梦痕长情-CSDN博客

原创记一次python爬虫多线程报错问题(多线程优先级别问题)。

我的报错是t1线程先运行，t2线程排在后面，当t2线程向t1线程发送消息时报错的，也就是说线程t1的优先级较高。因为我代码里面开启了两个线程，用2个线程去跑，即2个进程。这两个线程的优先级是不一样的。优先级低的是不能向优先级高的发送消息，即使他们是在同一个用户的权限下运行。原因：网上查了下是由于windows安全机制导致 integrity level低的进程不能向高的进程发消息。第三种方案：在源代码本身修改注册表，来提高代码本身的权限，然后去运行。但是我的代码是爬虫代码，我不想设置管理员运行。

2024-02-02 16:56:53 342

原创记一次Flink通过Kafka写入MySQL的过程

这个方法是测试成功了，但是跑了一会儿就出现数据的积压和内存oom了，因为我设定的是1毫秒生产一条数据，写入kafka也需要一定的时间，加上电脑内存不足，有点卡，这个方案也被pass了。总体思路：source -->transform -->sink ,即从source获取相应的数据来源，然后进行数据转换，将数据从比较乱的格式，转换成我们需要的格式，转换处理后，然后进行sink功能，也就是将数据写入的相应的数据库DB中或者写入Hive的HDFS文件存储。至此，Transform_1部分结束~~~！

2024-01-23 17:00:50 1337

转载记一次hive执行报错问题

如果select一张表，这张表则会进入shared模式，增加、插入、删除、修改数据和修改表名等操作都会在shared锁被释放之后再执行，会一直等待。采取的措施：在代码里面添加：set hive.support.concurrency=false;如果插入、删除、修改数据则进入Exclusive锁模式，进入排他锁模式之后不允许增删改操作，会报错。Hive中有两种锁模式，分别为：共享锁（S）和排它锁（X）。多个共享锁(S)可以同时获取，排它锁(X)会阻塞其它所有锁。释放掉Exclusive锁模式即可操作。

2024-01-22 11:22:40 65

转载 Centos7 升级python3.6

11.1：Python3.6.5是自带了pip，我们可以进入python3.6的bin目录下进行查看你所安装的Python版本是否自带pip。指定安装目录(prefix=/usr/lib64/python3.6为python的真正安装目录）8：编译安装包，指定安装目录，进入python3.6目录，执行。11.4 ：检查pip版本（注：正常情况pip版本9.0.3）6：移动python目录到/usr/lib64/下。

2023-11-23 18:26:13 228

原创 CDH 6.3.2升级Flink到1.17.1版本

cd 到/opt/cloudera/parcels/FLINK-1.17.1-BIN-SCALA_2.12/lib/flink/bin目录下，执行./yarn-session.sh -jm 1024 -tm 1024 -s 2 -d命令。2.4 将flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar 复制到/opt/cloudera/parcels/FLINK/lib/flink/lib/下。FlINK-1.12.1 属于旧的版本的东西，做备份用。

2023-09-27 16:45:41 857 2

原创 CDH6.3.2 的pyspark读取excel表格数据写入hive中的问题汇总

主要原因是pyspark直接读取excel的话，设计到版本的冲突问题。commons-collections-3.2.2.jar 我的CDH中这个的版本是3.2.2.但是pyspark读取excel要求要collections4以上的版本，然后我下载放进去也没作用，因为时间成本的问题，所以没有做过多的尝试了，直接转为csv后再读吧。采取的措施是：循环列，采用trim函数、regexp_replace函数处理。需求：内网通过Excel文件将数据同步到外网的CDH中，将CDH的文件数据写入hive中。

2023-09-26 17:47:52 856

原创记一次hive开发过程出现的错误及解决方法

关系型数据库中，对分区表Insert数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用Hive的动态分区，需要进行相应的配置。原文链接：https://blog.csdn.net/qq_36908872/article/details/102685311。原因是：源数据中包含了一年的数据，即day字段有365个值，那么该参数就需要设置成大于365，如果使用默认值100，则会报错。

2023-05-31 15:52:00 823

原创 Centos7单机部署Flink13.6及测试FinkCDC同步MySQL

但是升级版本是个大工程，要编译、要parcel制作工具，而且是生产环境的升级，没办法因为要测试FlinkCDC，所以只能搭建个单机测试，等后面生产环境升级后再迁移；原因：flink部署到集群上，standalone模式，需要指定TaskManager主机的地址：修改flink-conf.yaml配置并添加配置 taskmanager.host: localhost。打开${flink}/conf/flink-conf.yaml文件，修改一下信息。发现无法打开，原因是防火墙未关闭，联系运维开放8081端口。

2023-05-19 18:42:52 1260

原创 FlinkCDC之DataStream的反序列自定义

1、封装成JSON对象。反序列：CustomDebeziumDeserializationSchema。2.自定义反序列：CustomerDeserializationSchema。封装成JSON对象。3.自定义反序列3：CustomerDeserialization，封装成String。一、FlinkDataStream的优缺点就不做过多的累赘了。先来看三个简单的反序列例子吧，测试以MySQL数据源为主。自定义反序列的好处就是得到自己想要的数据格式。2.1 输出的数据格式。

2023-05-17 09:58:54 265

原创 FlinkCDC之初体验

查看指定binlog文件的内容。变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下。#只查看第一个binlog文件的内容。在/var/mysql下可以看到mysql-bin.index的文件（一般）#查看当前正在写入的binlog文件。没插入数据之前，mysql-bin.000001的位置是在695.更新前和更新后的数据。我的是在/data/mysql/mysql-bin。

2023-05-04 15:50:12 762

原创 dolphinscheduler源码添加SAP HANA数据源实记

需要修改的模块：dolphinscheduler-ui 前端页面模块、dolphinscheduler-task-plugin 任务插件、dolphinscheduler-datasource-plugin 数据源插件中添加一个dolphinscheduler-datasource-saphana、dolphinscheduler-dao。打包完之后，在dolphinscheduler-ui 模块下会发现多了一个dist文件，将该文件内的文件拷贝到linux系统中的ui目录（覆盖）即可。

2023-04-02 00:58:20 751

原创 Centos7.9安装docker实记

安装依赖包：（yum-utils 提供了 yum-config-manager ，并且 device mapper 存储驱动程序需要 device-mapper-persistent-data 和 lvm2。3.2 首次安装先设置仓库，后续可以从仓库安装和更新 Docker。本次选择18.06.3.ce-3.el7。3.3 设置稳定的仓库（更新yun源）一、查看内核版本(要求大于3.10)注意：安装需要使用root用户操作。二、检验是否有旧版的docker。3.5、设置开机启动。

2023-03-27 17:16:54 1410 1

原创 hive执行出现问题：Ended Job = job_1667594872527_3123 with errors Error during job, obtaining debugging info

hive执行问题及解决

2022-11-22 13:50:59 2194

原创 java使用idea操作HDFS

java和hdfs

2022-10-10 19:23:03 2415

原创 Java读取HDFS上的Excel文件

Java的poi

2022-10-07 23:01:26 533

原创 MySQL执行查询语句时出现停滞状态，出现Waiting for table metadata lock的问题

MySQL

2022-09-28 15:51:05 1387

原创 CDH6.3.2安装python3

CDH安装python3.6

2022-09-23 17:20:46 1438

原创 MySQL对varchar类字段的排序

mysql

2022-09-14 09:49:04 805

翻译 Flink批流一体API（Sink示例）【转载】

转载：Flink批流一体化API

2022-09-06 09:03:19 157

转载 Flink Sink JDBC 源码分析【转载】

转载 Flink Sink JDBC

2022-09-06 08:42:11 1064

原创 Java学习第一章：Java语言概述

Java学习

2022-08-25 14:12:12 139

转载 CDH安装过程中出现：主机 cdh04 上的内存被调拨过度。总内存分配额是 4.0 艾字节个字节，但是 RAM 只有 62.8 吉字节个字节（其中的 12.6 吉字节个字节是保留给系统使用的）。

CDH安装出现的问题

2022-08-15 16:29:53 1202

原创数据库--【基础篇】

MySQL

2022-08-13 20:58:46 1063

转载解决Permission denied: user=root, access=WRITE, inode=“/“:hdfs:supergroup:drwxr-xr-x 问题方法

hadoop

2022-08-12 14:20:22 9129

原创 azkaban启动时出现错误：Could not find or load main class 12321

记录一次azkaban启动时出现的错误：找不到或无法加载主类 12321Azkaban无法启动错误Error: Could not find or load main class 12321网上查找了很久，都是说：A 检查自己的配置文件是否有多个端口配置B 换个端口试一下，看看是否能够启动我都尝试了，没有用。最后发现竟然时我在配置端口号的时候在前面多了一个空格，如图：把空格去掉然后重新启动就好了。...

2022-02-23 18:23:40 604

转载 hive中对带分号的字符串做split分割

转载：https://blog.csdn.net/chenKFKevin/article/details/87934606直接对字段进行split(’;’)操作会报错，其原因是因为：分号默认是sql的结束字符，因此需要用分号的二进制\073来表示。如果此时对字段进行此操作是没有问题的，比如：-- column1里的字符串是以分号分割的select split(column1,'\073') from xxx但是如果是以字符串进行尝试还是会报错，比如：select split('aa;bb;cc

2022-02-17 16:54:36 1184

原创关于hive on spark安装出现的问题。

问题：In order to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=In order to limit the maximum number of reducers:set hive.exec.reducers.max=In order to set a constant number of reducers:set mapreduce.job.reduc

2022-02-13 17:23:18 1033

原创 broker.id变更导致kafka启动不起来的问题

问题：启动kafka时，出现以下错误提示：ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)kafka.common.InconsistentBrokerIdException: Configured broker.id 1 doesn’t match stored broker.id Some(0) in meta.properties. If you moved y

2022-01-29 17:08:14 2520

原创 pyspark练习（学习笔记）

import findsparkfindspark.init()from pyspark import SparkConf,SparkContextif name == ‘main’:conf = SparkConf()conf.setMaster(‘local’)conf.setAppName(‘test’)sc = SparkContext()lines = sc.textFile(’./worldcount.txt’)words = lines.flatMap(lambda line

2021-12-10 10:51:54 585

原创 pyspark通过JDBC链接mysql(DataFrame)

一前言Mysql版本：8.0.21spark版本：3.1.1hadoop版本：2.7.5JDBC驱动程序版本：mysql-connector-java-5.1.46.tar.gz二、正文1、先在mysql里建立spark数据库，同时建立一个student表，向表中插入一些数据mysql> create database spark;mysql> use spark;mysql> create table student (id int(4), name char(20),

2021-12-01 20:17:26 4482

转载在Hive中‘InputFormat，OutputFormat‘和‘Stored as‘之间有什么区别？

Hive有很多关于如何存储数据的选项。您可以使用外部存储，其中Hive只是从其他地方包装一些数据，或者您可以从hive仓库中的start开始创建独立表。输入和输出格式允许您指定这两种类型的表的原始数据结构或如何物理存储数据。从客户端开始，您将使用sql继续使用表，但在低级别，它可以是文本文件或序列文件或hbase表或其他一些数据结构。InputFormat和OutputFormat - 允许您描述原始数据结构，以便Hive可以正确地将其映射到表视图SerDe - 表示从表视图到低级输入输出格式结构执

2021-09-24 15:22:28 2682

原创 JAVA学习二之---方法构造

一、构造方法创建实例的时候，我们经常需要同时初始化这个实例的字段，例如：Person wang = new Person();wang.setName("小王");wang.setAge(15);初始化对象实例需要3行代码，而且，如果忘了调用setName()或者setAge()，这个实例内部的状态就是不正确的。能否在创建对象实例时就把内部字段全部初始化为合适的值？完全可以。这时，我们就需要构造方法。创建实例的时候，实际上是通过构造方法来初始化实例的。我们先来定义一个构造

2021-09-16 20:29:38 216

原创电商推荐系统（二）---实时推荐服务

前言：1、实时推荐服务实时计算与离线计算应用于推荐系统上最大的不同在于实时计算推荐结果应该反映最近一段时间用户近期的偏好，而离线计算推荐结果则是根据用户从第一次评分起的所有评分记录来计算用户总体的偏好。用户对物品的偏好随着时间的推移总是会改变的。比如一个用户u 在某时刻对商品p 给予了极高的评分，那么在近期一段时候，u 极有可能很喜欢与商品p 类似的其他商品；而如果用户u 在某时刻对商品q 给予了极低的评分，那么在近期一段时候，u 极有可能不喜欢与商品q 类似的其他商品。所以对于实时推荐，当用户

2021-05-28 00:01:21 1349

转载 MongoDb 命令查询所有数据库和表

MongoDb 命令查询所有数据库列表 CODE: > show dbs 如果想查看当前连接在哪个数据库下面，可以直接输入db CODE: > db Admin 想切换到test数据库下面 CODE: > use test switched to db test > db Test 想查看test下有哪些表或者叫collection，可以输入 CODE: > show collect...

2021-05-20 11:22:00 9508 1

原创电商推荐系统（一）

一、数据加载基本框架package com.lzl.recommender/** * Product数据集 * 3982 商品ID * Fuhlen 富勒 M8眩光舞者时尚节能商品名称 * 1057,439,736 商品分类ID，不需要 * B009EJN4T2 亚马逊ID，不需要 * https://images-cn-4.ssl-image

2021-05-20 00:40:09 609

原创 Hive实战

一、需求分析统计抖音视频网站的常规指标，各种TopN指标：– 统计视频观看数Top10– 统计视频类别热度Top10– 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数– 统计视频观看数Top50所关联视频的所属类别排序– 统计每个类别中的视频热度Top10,以Music为例– 统计每个类别视频观看数Top10– 统计上传视频最多的用户Top10以及他们上传的视频观看次数在前20的视频二、数据准备1、video_info(视频表)2、user_info(用户

2021-05-14 13:08:29 143

转载 hive启动异常:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

一、问题描述：hive (default)> show databases;FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient二、原因：Hive元数据保存在NameNode节点上的Mysql中，直接在NameNode节点上启动Hive没问题，但是在其它的节点上就报错。报错是在hi

2021-05-08 23:12:08 807

原创 kafka高级API普通生产者

一、Producer API1.1、消息发送流程Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中，涉及到了两个线程——main线程和Sender线程，以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator，Sender线程不断从RecordAccumulator中拉取消息发送到Kafka broker。相关参数：batch.size：只有数据积累到batch.size之后，sender才会发送数据。li

2021-05-02 00:46:51 122

原创 Centos8 安装详细步骤

一、CentOS 8 的新特性1)DNF 成为了默认的软件包管理器，同时 yum 仍然是可用的2)使用网络管理器（nmcli 和 nmtui）进行网络配置，移除了网络脚本3)使用 Podman 进行容器管理4)引入了两个新的包仓库：BaseOS 和 AppStream5)使用 Cockpit 作为默认的系统管理工具6)默认使用 Wayland 作为显示服务器7)iptables 将被 nftables 取代8)使用 Linux 内核 4.189)提供 PHP 7.2、Python 3.6、

2021-04-27 23:56:53 4539 1

原创 kafka命令行操作练习

1）查看当前服务器中的所有topic[root@hadoop101 kafka]# bin/kafka-topics.sh --zookeeper hadoop101:2181 --listfirstliang2）创建topic[root@hadoop101 kafka]# bin/kafka-topics.sh --zookeeper hadoop101:2181 --create --replication-factor 3 --partitions 1 --topic testCreat

2021-04-04 01:37:44 194