自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(253)
  • 资源 (4)
  • 收藏
  • 关注

原创 idea编译thingsboard报错yarn (yarn install) on project ui-ngx: Failed to run task: ‘yarn install‘ failed.

yarn (yarn install) on project ui-ngx: Failed to run task: 'yarn install' failed.

2023-05-08 08:38:45 1701 1

原创 thingsboard学习过程记录

thingsboard学习过程记录。

2023-04-28 13:58:49 304

原创 MR Shuffle过程归并排序和快速排序

最近回顾hadoop,一个简单MapReduce shuffle过程,MapTask经历了一次快排和一次归并,ReduceTask经历了一次归并排序,回顾一下两个排序算法。

2023-03-14 16:35:00 337

原创 Scala2.12.10 arrayBuffer与 java List互转

以前一些隐式函数过时。

2023-01-30 13:40:46 430

原创 scala语法(五)

在scala2.10后提供了隐式类,可以使用implicit声明类,隐式类的非常强大,同样可以扩展类的功能,比前面使用隐式转换丰富类库功能更加的方便,在集合中隐式类会发挥重要的作用。隐式值也叫隐式变量,将某个形参变量标记为implicit,所以编译器会在方法省略隐式参数的情况下去搜索作用域内的隐式值作为缺省参数。隐式转换函数是以implicit关键字声明的带有单个参数的函数。如果需要为一个类增加一个方法,可以通过隐式转换来实现。使用隐式函数可以优雅的解决数据类型转换。高精度-> 低精度 需要强制转换。

2022-12-29 09:48:21 350 4

原创 scala语法(四)(有java基础速学)

scala 特质

2022-12-28 10:48:20 150

原创 scala语法(三)(有java基础速学)

包可以包含类、对象和特质trait,但不能包含函数/方法或变量的定义。封装(encapsulation)就是把抽象出的数据/属性和对数据的操作/方法封装在一起,数据被保护在内部,程序的其它部分只有通过被授权的操作(成员方法),才能对数据进行操作。抽象类可以拥有抽象字段,抽象字段/属性就是没有初始值的字段。与java类似,实际上就是把一类事物的共有的属性和行为提取出来,形成一个物理模型(模板)。这种研究问题的方法称为抽象。类似java,可以通过包含带有定义或重写的代码块的方式创建一个匿名的子类.

2022-12-14 10:32:08 324

原创 scala语法(二)(有java基础速学)

scala面向对象 上篇 示例

2022-12-05 09:29:09 313

原创 python将dataframe指定列更新至Mysql

【代码】python将dataframe指定列更新至Mysql。

2022-11-30 14:29:13 1429

原创 scala语法(一)(有java基础速学)

在拥有java基础上学习scala,注意以下几点var | val 变量名 [: 变量类型] = 变量值Unit类型用来标识过程,类似java里的void,只有一个实例()null可以赋值给任意引用类型(AnyRef),但是不能赋值给值类型(AnyVal)Nothing可以作为没有正常返回值的方法的返回类型,是其他任意类型的子类${i}${j}${k}

2022-11-25 10:34:39 462

原创 bulkload写入Hbase导致 Region in transition问题解决

/apps/hbase/data/data/default/A” 次路径为hbase存储路径,生成hfile文件时覆盖掉创建hbase表时目录下生成的。本人由于HbaseBulkloader方式写数据至hbase存储路径错误,导致Region in transition。导致虽然当时数据可以查询,但是过一段时间 region信息丢失 导致regionserver挂掉,表中数据丢失。

2022-09-16 14:51:48 649

原创 NoNode for /hbase/meta-region-server错误解决

本人使用hdp3.1.1搭建hbase,spark读取hbase时,获取地址为/hbase/meta-region-server。

2022-08-09 16:50:36 1645

原创 bulkload方式将hive数据存储至hbase表

bulkload将hive数据存储至hbase表。

2022-08-04 14:47:36 608

原创 dataframe 插入mysql报错mysqlpymysql.err.OperationalError: (2006, “MySQL server has gone away (Connection

mysql一个字段内文本较长超过4m导致dataframe存入mysql报错

2022-07-13 16:49:50 329

原创 sql 行转列和列转行常用方法及案例

示例1:sql2. 列转行案例示例1sql题目来自leetcode每个产品在不同商店的价格计算特殊奖金

2022-06-29 09:27:00 799

原创 spark GC调优

spark GC调优CMS垃圾回收器使用并行的mark-sweep垃圾回收机制,用来保持GC低开销。虽然并行的GC会降低吞吐量名单时还是建议使用它来减少batch的处理时间。–《Spark大数据商业实战三部曲》

2022-06-20 08:49:30 540

原创 将mysql数据通过canal+kafka+sparkstructedstreaming写入hudi并同步hive

1 配置canal 读取mysql日志正则将数据分发(动态分区)至对应kafka topic2 sparkstructedstreaming获取kafka数据 并将数据存储至hudi本人有大量表名为 document_xxx(document_1,document_2,document_3…)通过canal将数据存储kafka topic (document)object SSSHudiETL { case class Model_Document(table: String, sql_typ

2022-03-08 08:25:52 2511

原创 shell脚本获取昨天0点等时间戳

time=`date +%s`ZERO_TIME=$(((${time}+3600*8)/86400*86400-3600*8))#昨天0点(毫秒) 秒去掉'000'ddd=$(((${time}+3600*8)/86400*86400-3600*32))'000'#今天9点时间戳d1=$(((${time}+3600*8)/86400*86400+3600))'000'#今天16点时间戳d2=$(((${time}+3600*8)/86400*86400+3600*8))'000'

2022-03-04 16:41:26 1246

原创 hudi mor表数据ro和rt表问题 rt更新数据表无法使用count

本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。想利用hive查询hudi数据。hudi 在hive中有两张表:xxx_ro:历史xxx_rt:实时查询ro表发现更新数据未与历史数据合并查询rt表为实时数据,但是无法使用count()hudi在 hdfs以 log+parquet格式保存,更新数据存储至log读取rt表时 compact log 和 parquet 所以显示实时更新数据可本人

2022-03-01 16:12:17 6521 5

原创 canal匹配两类前缀相同表放入不同kafka topic中

需求描述:有两类表tbl_ec_document_xxx(tbl_ec_document_11 tbl_ec_document_12 tbl_ec_document_xbk…)tbl_ec_document_item_xxx(tbl_ec_document_item_11 tbl_ec_document_item_12 tbl_ec_document_item_xbk…)普通perl正则可使用如下分别匹配含有item 和不含有item的所有表^tbl_ec_document.((?!(item))

2022-02-15 15:36:08 1137

原创 spark使用外部配置文件yarn cluster模式提交sparkstructedstreaming任务,解决流式日志过大问题

spark 提交脚本:nohup /opt/soft/spark3/bin/spark-submit \--master yarn \--deploy-mode cluster \--driver-memory 1g \--num-executors 3 \--total-executor-cores 2 \--executor-memory 2g \--queue spark \--conf spark.eventLog.enabled=false \--conf spark.dri

2022-02-15 15:07:05 1207 1

原创 正则匹配开头相同的字符串

需求描述:两正则开头相同,唯一区别是某一类匹配规则串含有特殊字符串比如tbl_ec_document_item_xxxtbl_ec_document_xxx"item"字符串为第一类特有,并且第二类中不会含有此字符串实现方式:object test { def main(args: Array[String]): Unit = { println(table_match("tbl_ec_document_11")) println(table_match("tbl_ec_d

2022-02-14 09:27:34 619

原创 apache spark3.0.2 on yarn cluster(HDP3.1.4) :bad substitution问题

bad substitutionspark yarn-cluster 运行 在hdp上

2022-02-10 15:09:31 1332 2

原创 sparkstructedStreaming将DF写入hudi报format(“hudi“)错

hudi

2022-02-09 14:47:01 710

原创 hive查询hudi表使用count报java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat

java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat

2022-02-09 13:38:37 3007 3

原创 canal Failed to update metadata after 60000 ms 等问题解决

Failed to update metadata after 60000 mscom.alibaba.fastsql.sql.parser.ParserException: syntax error, error in : 'cur ;UNKNOWN_TOPIC_OR_PARTITIONINVALID_TOPIC_EXCE

2022-02-08 15:47:56 6266

原创 org.apache.spark.sql.adapter.Spark3Adapter 问题以及spark-hudi提交yarn脚本

问题描述:sparkstructedstreaming 将kafka数据写入hudi 并与hive同步执行报错如下:Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.adapter.Spark3Adapter解决办法:问题显示没有发现适配器这个包?spark也没这个包啊?查看启动脚本,忘记添加hudi --jars了…--jars /opt/soft/hudi/hudi-0.9.0/packaging/hu

2022-02-07 16:34:27 3125 5

原创 配置windows hadoop3.1.x开发环境

(其他版本同理,将官网对应版本hadoop下载,传入winutils配置bin目录)现以3.1.x为例下载hadoop依赖包提取码:1111解压至指定目录例如配置环境变量重启后双击winutils.exe文件如果没报错,即正常可以继续开发,如若报错缺少Msvcr120.dll Msvcr100.dll文件,则可能为盗版系统导致文件损坏或缺失,按照下方解决方法即可:下载安装c++环境...

2022-01-24 10:26:44 1440

原创 Exception in thread “main“ ExitCodeException exitCode=-1073741515 缺失Msvcr120.dll

问题描述:idea执行操控本地hadoop环境报错本人已按照网上配置windows 配置hadoop开发环境运行程序报错Exception in thread "main" ExitCodeException exitCode=-1073741515查看本地hadoop配置的环境下双击winutils.exe报 缺失Msvcr120.dll 错误解决办法:可能由于本人使用的是盗版windows系统,导致缺少或损坏msvcr120.dll文件网上寻找 windows C++库环境提

2022-01-24 10:11:01 2273 3

原创 IDEA执行hadoop相关报错xxx from xxx is not a valid DFS filename.

首先确保本地hadoop环境正常运行环境:spark 3.0.2 | hdfs 3.1.1 | kafka 2.0.0问题描述:执行idea sss读取kafka报错如下Exception in thread "main" java.lang.IllegalArgumentException: Pathname /C:/Users/LZX/AppData/Local/Temp/temporary-e832fafa-8da6-4250-bdc7-31b91d9be96e from hdfs://xx

2022-01-24 09:52:50 1577

原创 安装部署编译hudi-0.9.0

hudi 0.9.0 需要->spark3.0.xspark3.0.x需要->scala 2.12.x / jdk1.8u25x+一. 配置所需环境配置java1.8环境 scala2.12.10环境 spark3.0.2环境变量二. 安装配置maven解压maven 包到指定位置tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /opt/soft添加maven环境变量vim /etc/profilesource /etc/.

2022-01-20 16:03:24 1976

原创 scala.Product.$init$(Lscala/Product;)V 问题解决

问题描述: 升级spark3.0.2 后 也升级了scala 2.12.10 项目对应的pom文件也更新至scala、spark对应版本。linux环境spark 3.0.2 jdk8u281scala2.12window开发环境linux本地pom.xml文件 也配置正确 类似如下按照网上查看spark 和scala版本对应 ,没有问题,查看开发环境与集群环境一致,都没有问题。然后查看了开发环境的jdk 1.8u121Spark 在 Java 8/11、Scala 2.

2022-01-20 09:41:16 3615

原创 升级ambari spark至spark3.0.2 bad substitution 和scala.MatchError: x.x (of class java.lang.String)错误解决

场景描述:由于业务要求想要使用Hudi,而hudi需要spark2.4.5+版本,canal+kafka+sss+hudi当前版本:hdp3.1.4hadoop 3.1.0hive 3.1.0spark 2.3.0scala 2.11.8原计划升级ambari,但发现ambari2.7.5spark版本为2.3.3(好像)不满足要求后决定在现有基础上升级spark1. 升级scala官网下载 scala.2.12.10解压到linux上并配置环境变量,scala -version

2022-01-19 10:21:31 2466 3

原创 sqoop导入更改后的hive表字段decimal类型精度问题

问题描述原始数据mysql 通过sqoop导入 hdfs lzo压缩 存储,然后通过load data inpath xxx overwrite xxx写入 hive ods层表。mysql数据表 hive 外部表 原来字段A 类型为Decimal(18,2)后来业务需求mysql表改为decimal(18,3)alter table hive对应外部表字段 A decimal(18,3)后再通过上述导数据流程发现数据精度不生效比如sqoop从mysql导入2021-12-01日期数据至hiv

2022-01-05 13:33:49 1510

原创 pycharm python连接oracle 部署oracleclient并配置环境

一. 安装oracle client并配置环境下载oracle客户端并解压到本地文件夹https://www.oracle.com/cn/database/technologies/instant-client/winx64-64-downloads.html配置path环境变量将客户端解压地址增加到path种e.g. 本人客户端解压地址为 D:\develop\oracleClient\instantclient_21_3将oracle客户端目录下.dll文件复制到pyth

2022-01-05 08:55:24 2761

原创 ambari2.7.4 spark2.3.0整合hive3.1.0

环境:HDP 3.1ambari 2.7.4hive 3.1.0spark 2.3.01. 添加hive-site.xml 到spark下cp /usr/hdp/3.1.4.0-315/hive/conf/hive-site.xml /usr/hdp/3.1.4.0-315/spark2/conf2. 添加hdfs core 配置到spark下cp /usr/hdp/3.1.4.0-315/hadoop/conf/hdfs-site.xml core-site.xml /usr/hdp/3

2021-12-21 10:31:40 1694

原创 RDD combineByKey()算子理解

combineByKey 对数据集按照 Key 进行聚合combineByKey(createCombiner, mergeValue, mergeCombiners, [partitioner], [mapSideCombiner], [serializer])参数:createCombiner 将 Value 进行初步转换mergeValue 在每个分区把上一步转换的结果聚合mergeCombiners 在所有分区上把每个分区的聚合结果聚合partitioner 可选, 分区函数mapSi

2021-12-20 13:50:04 175

原创 Akka简单案例(1)

一、pom依赖 <!-- 添加akka的actor依赖 --> <dependency> <groupId>com.typesafe.akka</groupId> <artifactId>akka-actor_2.11</artifactId> <version>2.4.17</version> &

2021-12-16 13:58:45 435

原创 sqoop导入数据至hdfs错误 You have an error in your SQL syntax;

21/11/19 10:14:37 ERROR manager.SqlManager: Error executing statement: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to u

2021-11-19 10:59:37 2397

原创 21年了,Idea springboot打jar包发布linux还能不会吗?

一 、启动类二、其他层类注解controller@Controllerpublic class DashboardController {}service /implservicepublic interface DashboardService extends IService<Dashboard> {}impl@Servicepublic class DashboardServiceImpl extends ServiceImpl<Dashboard

2021-11-19 08:38:07 85

hadoop-lzo-0.4.21-SNAPSHOT.jar

编译完成lzo jar包,支持hdp3.1.4 (ambari2.7.4),编译步骤 安装lzo 步骤都可以省略,ambari 直接将Jar包放到所有节点/usr/hdp/3.1.4.0-315/hadoop/ 目录下即可,然后再修改对应配置文件

2020-10-22

seaborn-data-master.zip

Python数据科学手册第3章用到的案例数据-seaborn程序库所包含。titanic.csv/planets.csv

2020-06-09

planets.csv

python数据科学手册Pandas-3.9.1,sns.load_dataset('planets')数据

2020-06-08

Linux jar包开机启动

Linux jar包开机自启脚本 ,更改linux的jdk目录 更改jar包名即可,然后在rc.local添加此脚本位置

2020-06-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除