自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 数据写入mysql报错 ‘\xF0\x9F\x92\xAB’ for column ‘realName’

工作中遇到的问题,使用spark写入mysql报错:\xF0\x9F\x92\xAB,一般这种情况是由于插入mysql的字段含有生僻字、表情符号emoji等。ps: 我发现我的 mysql-connector-java-5.1.46.jar 是这个版本的,估计替换成。(1)确定该字段的编码格式是否为utf8mb4,如果不是就修改为utf8mb4,然后重新插入。实际情况mysql表和该字段的字符集是 utf8mb4,当时就emo了,不应该插入不进去啊。,并且将该字段的编码格式改为utf8mb4。

2024-03-20 16:58:49 149 1

转载 多线程的优点缺点

广义上的多线程是指在一个程序中,可以同时运行多个不同的任务(线程)。这是通过将cpu的运行时间分成很小的片段,然后轮流让各个线程使用cpu,从而实现看似“同时”执行多个任务的效果。

2024-02-22 18:33:33 58 1

原创 sqoop 导hive数据到mysql报错:Job job_1678187301820_35200 failed with state FAILED due to: Task failed task_

明显把 这一条数据当作一个字段处理,解析不了,说明--input-fields-terminated-by '\001' \ 分隔符有问题,我查看了下hive表分隔符使用的是 \t。然后把分割符改为 --input-fields-terminated-by '\t' \问题解决。2.如果上面一致的话,寻找错误需要查看yarn运行日志,因为sqoop是靠yarn调度的。1.首先确保hive表的字段和数据类型和mysql一致。ps:遇到这些问题别慌,找日志,找到日志就很好解决了。

2023-04-13 23:51:16 522 2

原创 clickhouse遇到本地表不能删除,其它表也不能创建ddl被阻塞 情况。

clickhouse ddl报错。

2022-11-09 14:13:20 1622 7

原创 Exception in thread “dag-scheduler-event-loop“ java.lang.OutOfMemoryError: Java heap space

dag-scheduler-event-loop" java.lang.OutOfMemoryError: Java heap space

2022-08-24 09:24:06 726 1

原创 clickhouse 单机、集群安装

click house安装

2022-03-22 15:47:11 1897

原创 linux datax安装

一、DataX介绍:DataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。二、安装时环境1、IDK1.8(我这个datax安装包需要jdk1.8以上)2.python2.* (我没有安装python,使用的是liunx自带的python)查看linux python版本:python -V三、安装包下载下载页面地址: https:

2022-03-17 13:23:26 5186

原创 spark sql 写udf 几种方式总结及遇到的问题

遇到复杂逻辑的时候,如果hivesql 或者sparksql中的自带的函数无法满足你的需求,这时候使用udf能很快的解决你的问题。方法一、使用scala写一个函数,通过sparksql 注册这个函数。//比如我在spark 代码中定义了一个函数 val f:Int=>Int = (x:Int) =>{ 2*x}//使用udf之前,先注册sparkSession.udf.register("pro_text2", f)//在spark sql 中使用val aa:Data

2022-02-23 21:14:26 1674

原创 spark写es 报错 Could not write all entries for bulk operation [47/1081

报错详细日志信息:es报错org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 55.0 failed 4 times, most recent failure: Lost task 0.3 in stage 55.0 (TID 4643, 192.168.1.203, executor 3): org.elasticsearch.hadoop.EsHadoopException: Coul

2022-02-11 14:04:35 2150

原创 spark-sql 能够读取hive表

在服务器中直接使用spark-sql 来读取hive表的数据,使用spark引擎进行hive表数据查询,既快又方便。实现起来很简单,只需要把 安装hive的hive-site.xml 配置文件,复制到spark安装的conf/ 目录下即可,然后执行 spark-sql ,在交互界面你就能读取hive 的库和表。...

2022-01-28 17:35:47 2756

原创 spark写ck报错: Too many parts (300). Merges are processing significantly slower than inserts

之前一个spark写ck的任务,某天开始频繁报错如下:Too many parts (300). Merges are processing significantly slower than inserts (version 21.6.5.37 (official build))。之前在网上查了查该问题,了解到:当数据插入到clickhouse时,会生成parts文件,clickhouse后台会有合并小文件的操作。当插入速度过快,生成parts小文件过快时,clickhouse无法以适当的速度合并

2022-01-17 14:16:58 7567 4

原创 spark写ck报错:SparkContext has been shutdown

以前这个任务没有出过错,随着时间的增加,到12月份的时候,报了上面错误。因为是跑一年的数据,就是1月1号-12月x号,数据量随着时间是慢慢增大的。这个任务按着以前的调度重新启动几次,调度命令如下:/home/data/office/spark-2.1.3-bin-2.6.0-cdh5.14.0/bin/spark-submit --class com.ybs.online.HealthServiceCount --master spark://bd-node01:7077,bd-node02:7077 --

2022-01-05 17:05:22 2525

原创 【无标题】clickhouse Cannot open file /home/data/***.sql.tmp

Caused by: ru.yandex.clickhouse.except.ClickHouseException: ClickHouse exception, code: 76, host: ***.***.**.**, port: ***; Code: 76, e.displayText() = DB::Exception: There was an error on [qmjk-data03:9 000]: Code: 76, e.displayText() = DB::ErrnoExce...

2021-12-08 09:31:19 1534 1

原创 hive可以进行查询,当涉及reduce操作时不能执行

增大reduce内存:hive-site.xml

2021-11-15 18:52:10 1236

原创 遇到hadoop 集群挂掉情况处理情况分析

早上起来发现我们的spark调度任务挂掉(spark运行报错日志报错是数据块丢失),当时查看hadoop集群节点状态,发现bd-node01节点是Down状态(当时是挂掉了)。但是节点挂掉不应该导致任务运行不了,因为正常情况下hadoop集群数据都是有备份的,至少得是2份,即使bd-node01挂掉,也会在其它节点找bd-node01上数据的备份数据就行读取。于是带着疑问看了下overview页面发现确实是有块丢失。于是查看hadoop集群相关数据的副本数:hiveods库副...

2021-11-15 18:39:47 3651

原创 2021-07-26

一、在105服务器进行简单磁盘挂载(liunx或者中标麒麟)1.查看各个盘符的使用情况:lsblk2.查看未挂载磁盘的情况(包含文件类型,是否格式化)parted -l (我的文件系统类型是xfs的)3.比如我的sdb盘符(xfs类型的),不分区而直接挂载数据盘,首先格式化mkfs.xfs /dev/sdb (这个命令使用root用户,其它用户前面加sudo试一下)如果有其它文件系统在此盘符创建过分区比如是sdb1,你想格式化它:mkfs.xfs -f...

2021-07-26 22:37:56 74

原创 启动hdfs的时候,namenode不能启动,而secondnamenode和datanode能启动。

我hdfs的元数据节点namenode和数据节点datanode的启动命令是:start-dfs.sh,当我命令行启动完后jps发现,主节点namenode没有起来,从节点的datanode启动正常,有这个进程。解决思路:1.查看hadoop的logs日志:    进入 cd  install/hadoop-2.8.3/logs  中,找到 hadoop-root-namenode-h...

2019-02-16 10:02:19 1900

原创 spark-shell 启动出现 error not found 报错问题

首先前提是:在虚拟机上Linux运行的spark1.先检查你的 ifconfig 命令 看里面的IP是否和 /etc/hosts    ip一样;(一般是没错的)2.主要看看你spark中 conf里面的配置 有没有错:查看  conf中 spark-env.sh.....里面的  export SPARK_MASTER_HOST=hdp00hdp00 ip是否和 /etc/hosts...

2018-07-23 11:53:34 2268

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除