上杉仓南-CSDN博客

原创数据写入mysql报错 ‘\xF0\x9F\x92\xAB’ for column ‘realName’

工作中遇到的问题，使用spark写入mysql报错：\xF0\x9F\x92\xAB，一般这种情况是由于插入mysql的字段含有生僻字、表情符号emoji等。ps: 我发现我的 mysql-connector-java-5.1.46.jar 是这个版本的，估计替换成。（1）确定该字段的编码格式是否为utf8mb4，如果不是就修改为utf8mb4，然后重新插入。实际情况mysql表和该字段的字符集是 utf8mb4，当时就emo了，不应该插入不进去啊。，并且将该字段的编码格式改为utf8mb4。

2024-03-20 16:58:49 149 1

转载多线程的优点缺点

广义上的多线程是指在一个程序中，可以同时运行多个不同的任务（线程）。这是通过将cpu的运行时间分成很小的片段，然后轮流让各个线程使用cpu，从而实现看似“同时”执行多个任务的效果。

2024-02-22 18:33:33 58 1

原创 sqoop 导hive数据到mysql报错：Job job_1678187301820_35200 failed with state FAILED due to: Task failed task_

明显把这一条数据当作一个字段处理，解析不了,说明--input-fields-terminated-by '\001' \ 分隔符有问题，我查看了下hive表分隔符使用的是 \t。然后把分割符改为 --input-fields-terminated-by '\t' \问题解决。2.如果上面一致的话，寻找错误需要查看yarn运行日志，因为sqoop是靠yarn调度的。1.首先确保hive表的字段和数据类型和mysql一致。ps:遇到这些问题别慌，找日志，找到日志就很好解决了。

2023-04-13 23:51:16 522 2

原创 clickhouse遇到本地表不能删除，其它表也不能创建ddl被阻塞情况。

clickhouse ddl报错。

2022-11-09 14:13:20 1622 7

原创 Exception in thread “dag-scheduler-event-loop“ java.lang.OutOfMemoryError: Java heap space

dag-scheduler-event-loop" java.lang.OutOfMemoryError: Java heap space

2022-08-24 09:24:06 726 1

原创 clickhouse 单机、集群安装

click house安装

2022-03-22 15:47:11 1897

原创 linux datax安装

一、DataX介绍：DataX 是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。二、安装时环境1、IDK1.8(我这个datax安装包需要jdk1.8以上)2.python2.* （我没有安装python,使用的是liunx自带的python）查看linux python版本：python -V三、安装包下载下载页面地址： https:

2022-03-17 13:23:26 5186

原创 spark sql 写udf 几种方式总结及遇到的问题

遇到复杂逻辑的时候，如果hivesql 或者sparksql中的自带的函数无法满足你的需求，这时候使用udf能很快的解决你的问题。方法一、使用scala写一个函数，通过sparksql 注册这个函数。//比如我在spark 代码中定义了一个函数 val f：Int=>Int = (x:Int) =>{ 2*x}//使用udf之前，先注册sparkSession.udf.register("pro_text2", f)//在spark sql 中使用val aa:Data

2022-02-23 21:14:26 1674

原创 spark写es 报错 Could not write all entries for bulk operation [47/1081

报错详细日志信息：es报错org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 55.0 failed 4 times, most recent failure: Lost task 0.3 in stage 55.0 (TID 4643, 192.168.1.203, executor 3): org.elasticsearch.hadoop.EsHadoopException: Coul

2022-02-11 14:04:35 2150

原创 spark-sql 能够读取hive表

在服务器中直接使用spark-sql 来读取hive表的数据，使用spark引擎进行hive表数据查询，既快又方便。实现起来很简单，只需要把安装hive的hive-site.xml 配置文件，复制到spark安装的conf/ 目录下即可，然后执行 spark-sql ，在交互界面你就能读取hive 的库和表。...

2022-01-28 17:35:47 2756

原创 spark写ck报错： Too many parts (300). Merges are processing significantly slower than inserts

之前一个spark写ck的任务，某天开始频繁报错如下：Too many parts (300). Merges are processing significantly slower than inserts (version 21.6.5.37 (official build))。之前在网上查了查该问题，了解到：当数据插入到clickhouse时，会生成parts文件，clickhouse后台会有合并小文件的操作。当插入速度过快，生成parts小文件过快时，clickhouse无法以适当的速度合并

2022-01-17 14:16:58 7567 4

原创 spark写ck报错：SparkContext has been shutdown

以前这个任务没有出过错，随着时间的增加，到12月份的时候，报了上面错误。因为是跑一年的数据，就是1月1号-12月x号，数据量随着时间是慢慢增大的。这个任务按着以前的调度重新启动几次，调度命令如下：/home/data/office/spark-2.1.3-bin-2.6.0-cdh5.14.0/bin/spark-submit --class com.ybs.online.HealthServiceCount --master spark://bd-node01:7077,bd-node02:7077 --

2022-01-05 17:05:22 2525

原创【无标题】clickhouse Cannot open file /home/data/***.sql.tmp

Caused by: ru.yandex.clickhouse.except.ClickHouseException: ClickHouse exception, code: 76, host: ***.***.**.**, port: ***; Code: 76, e.displayText() = DB::Exception: There was an error on [qmjk-data03:9 000]: Code: 76, e.displayText() = DB::ErrnoExce...

2021-12-08 09:31:19 1534 1

weixin_42489619的博客