风是外衣衣衣-CSDN博客

原创 streaming读取kafka数据再保存到es7.7.0代码及踩过的坑

代码import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.st

2020-05-26 10:58:13 467

原创 MYSQL/HiveSQL left join练习

1.数据-- ------------------------------ Records of table_1-- ----------------------------INSERT INTO `table_1` VALUES ('1');INSERT INTO `table_1` VALUES ('2');INSERT INTO `table_1` VALUES ('3');-- ------------------------------ Table structure for

2021-07-01 19:18:18 419

转载 postgresql copy from、copy to

http://postgres.cn/docs/12/sql-copy.html

2021-05-31 18:53:43 636

原创 idea常用快捷键

1 执行(run) alt+r2 提示补全 (Class Name Completion) alt+/3 单行注释 ctrl + /4 多行注释 ctrl + shift + /5 向下复制一行 (Duplicate Lines) ctrl+alt+down6 删除一行或选中行 (delete line) ctrl+d7 向下移动行(move statement down) alt+down8 向上移动行(move statement up) alt+up9 向下开始新的一行(start n

2021-04-14 15:59:47 296

原创简单使用kibana查询es

简单使用kibana：1. 点击-- management --> 索引模式2. 开始创建新的索引3. 取名字的方法：比如你的数据是按照日期生成的，如：test-20200901,test-20200902,test-20200903.......那么索引名称可以写成：test-*,类似于写SQL语句中的模糊匹配。也可以创建查询一天的索引：test-20200902。时间筛选字段名称：@timestamp 可选可不选到此索引就创建好了。下面是使用：1..

2020-09-27 13:52:38 6566

原创 org.apache.spark 各个版本(组件)的依赖

https://search.maven.org/search?q=g:org.apache.spark%20AND%20v:2.2.0

2020-08-26 14:56:51 1640

转载 SparkStreaming整合KafkaCDH6.3.2版本（Offset保存在zookeeper上，Spark2.4 + kafka0.10.X）

依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>

2020-08-25 11:41:43 535

转载 hdfs append的AlreadyBeingCreatedException异常

lease机制导致hdfs创建文件失败：https://www.jianshu.com/p/6139577f4c81https://blog.csdn.net/PTtaoge/article/details/85259327

2020-08-24 11:41:14 518

转载 hdfs-数据流之写入

根据下图介绍HDFS的写入流程。步骤1. create客户端通过对DistributedFileSystem对象调用create()方法来发起创建文件流程。2. createDistributedFileSystem对象对namenode创建一个RPC调用，在文件系统中的命名空间中创建一个文件，此时还没有对此文件创建相应的数据块。namenode执行各种检查确保这个文件不存在以及客户端有新建该文件的权限。如果检查通过namenode就会创建这个文件并添加一条记录。否则，文件创建失败并

2020-08-24 11:22:57 507

转载 spark常见问题处理

1、spark thriftserver报以下错误，其他诸如hive/sparksql等方式均正常ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.default-dispatcher-379] shutting down ActorSystem [sparkDriverActorSystem]java.lang.OutOfMemoryError: Java heap

2020-08-24 11:20:16 3665

原创用azkaban执行.sh文件（在linux中输出前十分钟的时间戳单位是毫秒）

1.先写个.job文件因为我把.job和test.sh都放到一个文件夹下面，然后打成zip包，所以写相对路径了。（若是用Notepad++编辑需要注意）注意: 需要把文件转成 Unix类型的，不然会报错。Edit -> EOL Conversion -> Unix2.写test.sh，也记得改成unix3.把两个都放到同一文件夹，然后打成zip包4.上传执行省略，看结果...

2020-08-14 23:19:20 548

转载计算国内Gcj02坐标系两点之间的直线距离（高德地图）

代码：import java.math.BigDecimal;/** * @Auther: sss * @Date: 2020/7/23 13:53 * @Description: */public class DistanceTest { private final static double EARTH_RADIUS = 6378.137;//地球半径 private static double rad(double d) { return d *

2020-07-23 15:13:17 5967

原创用spark获取前一行数据，DF.withColumn(colName,lag(colName,offset).over(Window.partitionBy().orderBy(desc())))

数据：1,11,1112,22,2223,33,3331,22,3331,22,444代码：package com.emg.etp.analysis.preproces.nullphotoimport com.emg.etp.analysis.preproces.nullphoto.pojo.EcarDataimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSes

2020-07-22 11:39:42 1788

原创 ES命令： “track_total_hits“:true

搜索type全部数据GET test/movie/_search结果{ "took": 2, //耗费时间毫秒 "timed_out": false, //是否超时 "_shards": { "total": 5, //发送给全部5个分片 "successful": 5, "skipped": 0, "failed": 0 }, "hits": { "total": 3, //命中3条数据 "max_score

2020-07-07 14:15:01 22016 2

原创 java.lang.NoClassDefFoundError: org/apache/commons/pool2/PooledObjectFactory

用GenericObjectPool来连接postgres数据库，在pom.xml中也加入了依赖  <dependency> <groupId>org.apache.commons</groupId> <artifactId>c

2020-07-06 15:00:49 1928

原创创建hive表时（分区表、内外表都适用），遇到双符号的切分符怎么办，比如：||

两个字段的例子# 1. 建表create EXTERNAL table b(id double,name string)PARTITIONED BY (ds STRING) row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'with serdeproperties('input.regex'='(.*)\\|\\|(.*)','output.format.string'='%1$s %2$s %3$s')stor.

2020-07-02 01:05:40 345 2

转载每月的最后一天使用crontab 定时执行任务

需求：有一个程序，需要在每个月的最后一天执行例如：每个月的最后一天早上8:00 打印 dede 到 /tmp/test.txt初步分析：要么直接使用crontab一句命令实现，要么在脚本里面判断时间，再使用crontab执行方法一：直接实现crontab -e23 16 28-31 * * [[ "$(date --date=tomorrow +\%d)" == "01" ]] && echo 'dede' >> /data/modu...

2020-06-05 16:23:12 3458

转载根据日期字符串判断当月第几周

package com.emg.matchs.utils;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;/** * @Auther: sss * @Date: 2020/6/3 14:41 * @Description: * 注意问题: * 在Calendar中每周是从我们中国人的周日(星期七)开始计算的. * 所以Calendar的周一实际为我们中国人的上周的星期.

2020-06-03 14:56:04 489

转载 Spark JDBC系列--取数的四种方式

本文旨在介绍 Spark 通过JDBC读取数据库数据的四种API调用前准备对于不同的数据库，需要在spark的环境中添加对应的依赖包，如： <dependency> <groupId>org.postgresql</groupId> <artifactId>postgresql</artifactId> <version>42.1..

2020-06-02 16:39:28 4028

原创 idea导入springBoot项目，lombok包报错

gradle中lombok包的依赖 compileOnly "org.projectlombok:lombok:${lombokVersion}" annotationProcessor "org.projectlombok:lombok:${lombokVersion}"解决办法：将@Getter @Setter换成 @Data

2020-06-01 14:36:01 970

转载简单上手版使用oozie提交spark程序(不带定时)

做这个实验之前你的服务器上最好装了cdh集群，以及添加必要的组件，如hadoop，oozie，spark，yarn等。必须都启动成功。需要准备一个关于spark的demo架包、job.propertie、workflow.xml。创建一个文件夹将三个放入其中，然后将文件夹put到HDFS指定的路径下面。(*注意每次在linux下修改完后，记得put到HDFS中 *)准备一个job.propertie和workflow.xml，内容如下3.1job.propertie## Licensed .

2020-05-12 17:58:54 808 1

转载使用命令行往GItLab提交一个固定分支的流程

默认git下载、安装、公钥都做好了。1.新建本地仓库，在你想要存放你们公司项目的目录下新建一个文件夹（也可以直接放到项目的目录下），名字自拟，进去该文件夹后右键 Git Bash ，输入：$ git init // 这个操作的意思就是将这个目录当成你的本地仓库2.配置完公钥。我们就可以从 GitLab 上面克隆项目了（进去自己本地的仓库右键选择 Git Bash ，注意不要点...

2020-04-29 17:19:38 557

转载详细介绍log4j的使用

点击下面链接https://www.cnblogs.com/ITtangtang/p/3926665.html

2020-03-31 16:22:56 90

原创 java读取postgres数据库配置jdbc.properties、log4j.properties文件

log4j.properties文件#log4j.rootLogger=ERROR, stdout#log4j.appender.stdout=org.apache.log4j.ConsoleAppender#log4j.appender.stdout.layout=org.apache.log4j.PatternLayout#log4j.appender.stdout.layout....

2020-03-31 10:35:02 1393

原创 postgres数据库中获取当前日期、周几，还有列转行和hive中获取当前日期、string转成map、列转行的代码

--postgresSQL写法需求都是同一roadid下，求每15分钟的均速km/h create table if not exists avg_speed_week_day0 as ( select c.roadid,c.week_day, max(case when cast(btrim(c.times,'h')as int) = 000 then c.avg_sp...

2020-03-27 10:50:21 330

原创 scala中伴生类和伴生对象的使用（为什么new可以省略）

package com.cxb.demo.chapter11/** * @Auther: sss * @Date: 2020/1/2 15:59 * @Description: */object ApplyDemo { def main(args: Array[String]): Unit = { //这里new出来的是伴生类的一个实例 val d...

2020-01-02 16:26:17 497

转载 Git、GitHub、GitLab三者之间的联系以及区别

在讲区别以及联系之前先简要的介绍一下，这三者都是什么(本篇文章适合刚入门的新手，大佬请出门左转)1.什么是 Git?Git 是一个版本控制系统。版本控制是一种用于记录一个或多个文件内容变化，方便我们查阅特定版本修订情况的系统。以前在没有使用版本控制的时候，我们通常在我们的项目根目录下这样命名项目：project_v1、project_v1.1、project_v2等等，通过这种...

2019-12-05 15:02:22 122

转载 Scala中Case Class与匹配模式是怎么回事

一.匹配模式Scala中匹配模式，类似与Java中的Switch。不过，Scala中匹配模式避免了Java Switch忘记Break时，穿透的问题。演示如下： for(i <- 1 to 100){ i match{ case 10 => println(10) case 50 => println(50) ...

2019-12-03 15:04:58 319

转载 Scala中 class和case class的区别

在Scala中存在case class，它其实就是一个普通的class。但是它又和普通的class略有区别，如下：　　1、初始化的时候可以不用new，当然你也可以加上，普通类一定需要加new；scala> case class Iteblog(name:String)defined class Iteblog scala> val iteblog = Iteblog("i...

2019-12-03 14:02:32 826

转载用java代码来理解scala中的伴生类、伴生对象

初次接触这两个概念觉得怪怪的。写了段代码测试了一下，帮助自己理解。scala里面没有 static 关键字。那么如果想实现static的效果要怎么做呢？ ==》可以使用伴生对象在同一个scala文件中定义一个类，同时定义一个同名的object，那么它们就是伴生类和伴生对象的关系，可以互相直接访问私有的field。伴生对象通常会使用apply函数定义伴生类的构造方法。这样在创建伴生...

2019-12-02 18:34:23 364

转载 scala中的foldLeft、foldRight

fold, foldLeft, and foldRight之间的区别　　主要的区别是fold函数操作遍历问题集合的顺序。foldLeft是从左开始计算，然后往右遍历。foldRight是从右开始算，然后往左遍历。而fold遍历的顺序没有特殊的次序。case class Foo(val name: String, val age: String, val sex: String)Obj...

2019-12-02 18:31:59 458

转载 scala中split(" ") 和 split(" ", -1) 区别

做实验表明： 1.如果字符串最后一位有值，则没有区别， 2.若干最后n位都是切割符，split(" ")不会继续切分，split(" ", -1)会继续切分String line = "a b c "; String [] tmp = line.split(" "); System.out.println(tmp.length+"...

2019-11-29 16:56:20 1619 2

原创 scala中zip、case你不知道的用法

zip的用法 def main(args: Array[String]): Unit = { /*val buf = new StringBuilder // buf += "a" //添加单个字符用 += 多个字符用 ++= buf ++= "11_12,22_23,33_34,11_13,33_35," buf ++= "12_11,11_134...

2019-11-28 17:15:01 242

转载 Scala中for循环的yield用法

**概念**for循环中的yield会将for循环中的值保存下来，保存到一个集合中，在循环结束的时候会将集合全部输出，如果被循环的是map，则输出的就是map。如果被循环的是list，则输出的就是list，以此类推。使用println进行输出scala> for (i <- 1 to 5) | println (i)12345使用yield...

2019-11-27 17:31:03 1027

原创 scala中substring使用

object Test { def main(args: Array[String]) { val buf = new StringBuilder; // buf += "a" //添加单个字符用 += 多个字符用 ++= buf ++= "LINESTRING(109.378906132593 24.302867,109.379106202465...

2019-11-27 16:33:06 4419

转载 try{}catch{}

2019-11-18 16:52:14 81

转载【Scala】数组Array、列表List、集合Set、元组Tuple

1、数组数组可以用来存储固定大小的同一个类型的元素。定义之后可以通过下标来访问元素值，下标从0开始。下面的代码定义了一个可以存放2个元素的字符串数组（默认情况下会自动import 长度不可变化的数组），当给下标为2的元素赋值时会报错，因为越界了：scala> var x:Array[String] = new Array[String](2)x: Array[String]...

2019-11-18 12:03:36 495

转载 Scala可变数组与不可变数组的区别、可变集合与不可变集合的区别、Array与ArrayBuffer的区别、List与ListBuffer的区别

不可变数组与可变数组的区别Array与ArrayBuffer的区别Array为不可变数组，ArrayBuffer为可变数组，两则的区别比较好理解：不可变指的是长度不可变。Array不能添加或删除元素，没有+=和-=方法；而ArrayBuffer可以添加或删除元素。注意点：Array和ArrayBuffer都可以修改元素，修改方法：array(0)=12，0为下标，12为新值。测试如下...

2019-11-13 17:24:48 1695 2

原创 spark读取excel表格

参考资料：https://blog.csdn.net/qq_38689769/article/details/79471332参考资料：https://blog.csdn.net/Dr_Guo/article/details/77374403?locationNum=9&fps=1pom.xml:  <dep...

2019-10-29 18:03:55 9734 9

原创 sparkSQL读取Excel表格

转自：https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化SparkSessionstatic{ System.setProperty("hadoop.home.dir", HADOOP_HOME); spark = SparkSession.builder() .appName("...

2019-10-29 17:44:58 2987 1

空空如也

空空如也