- 博客(18)
- 收藏
- 关注
原创 数据写入mysql报错 ‘\xF0\x9F\x92\xAB’ for column ‘realName’
工作中遇到的问题,使用spark写入mysql报错:\xF0\x9F\x92\xAB,一般这种情况是由于插入mysql的字段含有生僻字、表情符号emoji等。ps: 我发现我的 mysql-connector-java-5.1.46.jar 是这个版本的,估计替换成。(1)确定该字段的编码格式是否为utf8mb4,如果不是就修改为utf8mb4,然后重新插入。实际情况mysql表和该字段的字符集是 utf8mb4,当时就emo了,不应该插入不进去啊。,并且将该字段的编码格式改为utf8mb4。
2024-03-20 16:58:49 149 1
转载 多线程的优点缺点
广义上的多线程是指在一个程序中,可以同时运行多个不同的任务(线程)。这是通过将cpu的运行时间分成很小的片段,然后轮流让各个线程使用cpu,从而实现看似“同时”执行多个任务的效果。
2024-02-22 18:33:33 58 1
原创 sqoop 导hive数据到mysql报错:Job job_1678187301820_35200 failed with state FAILED due to: Task failed task_
明显把 这一条数据当作一个字段处理,解析不了,说明--input-fields-terminated-by '\001' \ 分隔符有问题,我查看了下hive表分隔符使用的是 \t。然后把分割符改为 --input-fields-terminated-by '\t' \问题解决。2.如果上面一致的话,寻找错误需要查看yarn运行日志,因为sqoop是靠yarn调度的。1.首先确保hive表的字段和数据类型和mysql一致。ps:遇到这些问题别慌,找日志,找到日志就很好解决了。
2023-04-13 23:51:16 522 2
原创 Exception in thread “dag-scheduler-event-loop“ java.lang.OutOfMemoryError: Java heap space
dag-scheduler-event-loop" java.lang.OutOfMemoryError: Java heap space
2022-08-24 09:24:06 726 1
原创 linux datax安装
一、DataX介绍:DataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。二、安装时环境1、IDK1.8(我这个datax安装包需要jdk1.8以上)2.python2.* (我没有安装python,使用的是liunx自带的python)查看linux python版本:python -V三、安装包下载下载页面地址: https:
2022-03-17 13:23:26 5186
原创 spark sql 写udf 几种方式总结及遇到的问题
遇到复杂逻辑的时候,如果hivesql 或者sparksql中的自带的函数无法满足你的需求,这时候使用udf能很快的解决你的问题。方法一、使用scala写一个函数,通过sparksql 注册这个函数。//比如我在spark 代码中定义了一个函数 val f:Int=>Int = (x:Int) =>{ 2*x}//使用udf之前,先注册sparkSession.udf.register("pro_text2", f)//在spark sql 中使用val aa:Data
2022-02-23 21:14:26 1674
原创 spark写es 报错 Could not write all entries for bulk operation [47/1081
报错详细日志信息:es报错org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 55.0 failed 4 times, most recent failure: Lost task 0.3 in stage 55.0 (TID 4643, 192.168.1.203, executor 3): org.elasticsearch.hadoop.EsHadoopException: Coul
2022-02-11 14:04:35 2150
原创 spark-sql 能够读取hive表
在服务器中直接使用spark-sql 来读取hive表的数据,使用spark引擎进行hive表数据查询,既快又方便。实现起来很简单,只需要把 安装hive的hive-site.xml 配置文件,复制到spark安装的conf/ 目录下即可,然后执行 spark-sql ,在交互界面你就能读取hive 的库和表。...
2022-01-28 17:35:47 2756
原创 spark写ck报错: Too many parts (300). Merges are processing significantly slower than inserts
之前一个spark写ck的任务,某天开始频繁报错如下:Too many parts (300). Merges are processing significantly slower than inserts (version 21.6.5.37 (official build))。之前在网上查了查该问题,了解到:当数据插入到clickhouse时,会生成parts文件,clickhouse后台会有合并小文件的操作。当插入速度过快,生成parts小文件过快时,clickhouse无法以适当的速度合并
2022-01-17 14:16:58 7567 4
原创 spark写ck报错:SparkContext has been shutdown
以前这个任务没有出过错,随着时间的增加,到12月份的时候,报了上面错误。因为是跑一年的数据,就是1月1号-12月x号,数据量随着时间是慢慢增大的。这个任务按着以前的调度重新启动几次,调度命令如下:/home/data/office/spark-2.1.3-bin-2.6.0-cdh5.14.0/bin/spark-submit --class com.ybs.online.HealthServiceCount --master spark://bd-node01:7077,bd-node02:7077 --
2022-01-05 17:05:22 2525
原创 【无标题】clickhouse Cannot open file /home/data/***.sql.tmp
Caused by: ru.yandex.clickhouse.except.ClickHouseException: ClickHouse exception, code: 76, host: ***.***.**.**, port: ***; Code: 76, e.displayText() = DB::Exception: There was an error on [qmjk-data03:9 000]: Code: 76, e.displayText() = DB::ErrnoExce...
2021-12-08 09:31:19 1534 1
原创 遇到hadoop 集群挂掉情况处理情况分析
早上起来发现我们的spark调度任务挂掉(spark运行报错日志报错是数据块丢失),当时查看hadoop集群节点状态,发现bd-node01节点是Down状态(当时是挂掉了)。但是节点挂掉不应该导致任务运行不了,因为正常情况下hadoop集群数据都是有备份的,至少得是2份,即使bd-node01挂掉,也会在其它节点找bd-node01上数据的备份数据就行读取。于是带着疑问看了下overview页面发现确实是有块丢失。于是查看hadoop集群相关数据的副本数:hiveods库副...
2021-11-15 18:39:47 3651
原创 2021-07-26
一、在105服务器进行简单磁盘挂载(liunx或者中标麒麟)1.查看各个盘符的使用情况:lsblk2.查看未挂载磁盘的情况(包含文件类型,是否格式化)parted -l (我的文件系统类型是xfs的)3.比如我的sdb盘符(xfs类型的),不分区而直接挂载数据盘,首先格式化mkfs.xfs /dev/sdb (这个命令使用root用户,其它用户前面加sudo试一下)如果有其它文件系统在此盘符创建过分区比如是sdb1,你想格式化它:mkfs.xfs -f...
2021-07-26 22:37:56 74
原创 启动hdfs的时候,namenode不能启动,而secondnamenode和datanode能启动。
我hdfs的元数据节点namenode和数据节点datanode的启动命令是:start-dfs.sh,当我命令行启动完后jps发现,主节点namenode没有起来,从节点的datanode启动正常,有这个进程。解决思路:1.查看hadoop的logs日志: 进入 cd install/hadoop-2.8.3/logs 中,找到 hadoop-root-namenode-h...
2019-02-16 10:02:19 1900
原创 spark-shell 启动出现 error not found 报错问题
首先前提是:在虚拟机上Linux运行的spark1.先检查你的 ifconfig 命令 看里面的IP是否和 /etc/hosts ip一样;(一般是没错的)2.主要看看你spark中 conf里面的配置 有没有错:查看 conf中 spark-env.sh.....里面的 export SPARK_MASTER_HOST=hdp00hdp00 ip是否和 /etc/hosts...
2018-07-23 11:53:34 2268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人