自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(169)
  • 收藏
  • 关注

原创 streaming读取kafka数据再保存到es7.7.0代码及踩过的坑

代码import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.st

2020-05-26 10:58:13 467

原创 MYSQL/HiveSQL left join练习

1.数据-- ------------------------------ Records of table_1-- ----------------------------INSERT INTO `table_1` VALUES ('1');INSERT INTO `table_1` VALUES ('2');INSERT INTO `table_1` VALUES ('3');-- ------------------------------ Table structure for

2021-07-01 19:18:18 419

转载 postgresql copy from、copy to

http://postgres.cn/docs/12/sql-copy.html

2021-05-31 18:53:43 636

原创 idea常用快捷键

1 执行(run) alt+r2 提示补全 (Class Name Completion) alt+/3 单行注释 ctrl + /4 多行注释 ctrl + shift + /5 向下复制一行 (Duplicate Lines) ctrl+alt+down6 删除一行或选中行 (delete line) ctrl+d7 向下移动行(move statement down) alt+down8 向上移动行(move statement up) alt+up9 向下开始新的一行(start n

2021-04-14 15:59:47 296

原创 简单使用kibana查询es

简单使用kibana:1. 点击-- management --> 索引模式2. 开始创建新的索引3. 取名字的方法:比如你的数据是按照日期生成的,如:test-20200901,test-20200902,test-20200903.......那么索引名称可以写成:test-*,类似于写SQL语句中的模糊匹配。也可以创建查询一天的索引:test-20200902。时间筛选字段名称:@timestamp 可选可不选到此索引就创建好了。下面是使用:1..

2020-09-27 13:52:38 6566

原创 org.apache.spark 各个版本(组件)的依赖

https://search.maven.org/search?q=g:org.apache.spark%20AND%20v:2.2.0

2020-08-26 14:56:51 1640

转载 SparkStreaming整合KafkaCDH6.3.2版本(Offset保存在zookeeper上,Spark2.4 + kafka0.10.X)

依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>

2020-08-25 11:41:43 535

转载 hdfs append的AlreadyBeingCreatedException异常

lease机制导致hdfs创建文件失败:https://www.jianshu.com/p/6139577f4c81https://blog.csdn.net/PTtaoge/article/details/85259327

2020-08-24 11:41:14 518

转载 hdfs-数据流之写入

根据下图介绍HDFS的写入流程。步骤1. create客户端通过对DistributedFileSystem对象调用create()方法来发起创建文件流程。2. createDistributedFileSystem对象对namenode创建一个RPC调用,在文件系统中的命名空间中创建一个文件,此时还没有对此文件创建相应的数据块。namenode执行各种检查确保这个文件不存在以及客户端有新建该文件的权限。如果检查通过namenode就会创建这个文件并添加一条记录。否则,文件创建失败并

2020-08-24 11:22:57 507

转载 spark常见问题处理

1、spark thriftserver报以下错误,其他诸如hive/sparksql等方式均正常ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.default-dispatcher-379] shutting down ActorSystem [sparkDriverActorSystem]java.lang.OutOfMemoryError: Java heap

2020-08-24 11:20:16 3665

原创 用azkaban执行.sh文件(在linux中输出前十分钟的时间戳 单位是毫秒)

1.先写个.job文件因为我把.job和test.sh都放到一个文件夹下面,然后打成zip包,所以写相对路径了。(若是用Notepad++编辑需要注意)注意: 需要把文件转成 Unix类型的,不然会报错。Edit -> EOL Conversion -> Unix2.写test.sh,也记得改成unix3.把两个都放到同一文件夹,然后打成zip包4.上传执行省略,看结果...

2020-08-14 23:19:20 548

转载 计算国内Gcj02坐标系两点之间的直线距离(高德地图)

代码:import java.math.BigDecimal;/** * @Auther: sss * @Date: 2020/7/23 13:53 * @Description: */public class DistanceTest { private final static double EARTH_RADIUS = 6378.137;//地球半径 private static double rad(double d) { return d *

2020-07-23 15:13:17 5967

原创 用spark获取前一行数据,DF.withColumn(colName,lag(colName,offset).over(Window.partitionBy().orderBy(desc())))

数据:1,11,1112,22,2223,33,3331,22,3331,22,444代码:package com.emg.etp.analysis.preproces.nullphotoimport com.emg.etp.analysis.preproces.nullphoto.pojo.EcarDataimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSes

2020-07-22 11:39:42 1788

原创 ES命令: “track_total_hits“:true

搜索type全部数据GET test/movie/_search结果{ "took": 2, //耗费时间 毫秒 "timed_out": false, //是否超时 "_shards": { "total": 5, //发送给全部5个分片 "successful": 5, "skipped": 0, "failed": 0 }, "hits": { "total": 3, //命中3条数据 "max_score

2020-07-07 14:15:01 22016 2

原创 java.lang.NoClassDefFoundError: org/apache/commons/pool2/PooledObjectFactory

用GenericObjectPool来连接postgres数据库,在pom.xml中也加入了依赖 <!-- https://mvnrepository.com/artifact/org.apache.commons/commons-pool2 --> <dependency> <groupId>org.apache.commons</groupId> <artifactId>c

2020-07-06 15:00:49 1928

原创 创建hive表时(分区表、内外表都适用),遇到双符号的切分符怎么办,比如:||

两个字段的例子# 1. 建表create EXTERNAL table b(id double,name string)PARTITIONED BY (ds STRING) row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'with serdeproperties('input.regex'='(.*)\\|\\|(.*)','output.format.string'='%1$s %2$s %3$s')stor.

2020-07-02 01:05:40 345 2

转载 每月的最后一天使用crontab 定时执行任务

需求:有一个程序,需要在每个月的最后一天执行例如:每个月的最后一天早上8:00 打印 dede 到 /tmp/test.txt初步分析:要么直接使用crontab一句命令实现,要么在脚本里面判断时间,再使用crontab执行方法一:直接实现crontab -e23 16 28-31 * * [[ "$(date --date=tomorrow +\%d)" == "01" ]] && echo 'dede' >> /data/modu...

2020-06-05 16:23:12 3458

转载 根据日期字符串判断当月第几周

package com.emg.matchs.utils;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;/** * @Auther: sss * @Date: 2020/6/3 14:41 * @Description: * 注意问题: * 在Calendar中每周是从我们中国人的周日(星期七)开始计算的. * 所以Calendar的周一实际为我们中国人的上周的星期.

2020-06-03 14:56:04 489

转载 Spark JDBC系列--取数的四种方式

本文旨在介绍 Spark 通过JDBC读取数据库数据的四种API调用前准备对于不同的数据库,需要在spark的环境中添加对应的依赖包,如: <dependency> <groupId>org.postgresql</groupId> <artifactId>postgresql</artifactId> <version>42.1..

2020-06-02 16:39:28 4028

原创 idea导入springBoot项目,lombok包报错

gradle中lombok包的依赖 compileOnly "org.projectlombok:lombok:${lombokVersion}" annotationProcessor "org.projectlombok:lombok:${lombokVersion}"解决办法:将@Getter @Setter换成 @Data

2020-06-01 14:36:01 970

转载 简单上手版使用oozie提交spark程序(不带定时)

做这个实验之前你的服务器上最好装了cdh集群,以及添加必要的组件,如hadoop,oozie,spark,yarn等。必须都启动成功。需要准备一个关于spark的demo架包、job.propertie、workflow.xml。创建一个文件夹将三个放入其中,然后将文件夹put到HDFS指定的路径下面。(*注意每次在linux下修改完后,记得put到HDFS中 *)准备一个job.propertie和workflow.xml,内容如下3.1job.propertie## Licensed .

2020-05-12 17:58:54 808 1

转载 使用命令行往GItLab提交一个固定分支的流程

默认git下载、安装、公钥都做好了。1.新建本地仓库,在你想要存放你们公司项目的目录下新建一个文件夹(也可以直接放到项目的目录下),名字自拟,进去该文件夹后右键 Git Bash ,输入:$ git init // 这个操作的意思就是将这个目录当成你的本地仓库2.配置完公钥。我们就可以从 GitLab 上面克隆项目了(进去自己本地的仓库右键选择 Git Bash ,注意不要点...

2020-04-29 17:19:38 557

转载 详细介绍log4j的使用

点击下面链接https://www.cnblogs.com/ITtangtang/p/3926665.html

2020-03-31 16:22:56 90

原创 java读取postgres数据库配置jdbc.properties、log4j.properties文件

log4j.properties文件#log4j.rootLogger=ERROR, stdout#log4j.appender.stdout=org.apache.log4j.ConsoleAppender#log4j.appender.stdout.layout=org.apache.log4j.PatternLayout#log4j.appender.stdout.layout....

2020-03-31 10:35:02 1393

原创 postgres数据库中获取当前日期、周几,还有列转行和hive中获取当前日期、string转成map、列转行的代码

--postgresSQL写法 需求都是同一roadid下,求每15分钟的均速km/h create table if not exists avg_speed_week_day0 as ( select c.roadid,c.week_day, max(case when cast(btrim(c.times,'h')as int) = 000 then c.avg_sp...

2020-03-27 10:50:21 330

原创 scala中 伴生类和伴生对象的使用(为什么new可以省略)

package com.cxb.demo.chapter11/** * @Auther: sss * @Date: 2020/1/2 15:59 * @Description: */object ApplyDemo { def main(args: Array[String]): Unit = { //这里new出来的是 伴生类 的一个实例 val d...

2020-01-02 16:26:17 497

转载 Git、GitHub、GitLab三者之间的联系以及区别

在讲区别以及联系之前先简要的介绍一下,这三者都是什么(本篇文章适合刚入门的新手,大佬请出门左转)1.什么是 Git?Git 是一个版本控制系统。版本控制是一种用于记录一个或多个文件内容变化,方便我们查阅特定版本修订情况的系统。以前在没有使用版本控制的时候,我们通常在我们的项目根目录下这样命名项目:project_v1、project_v1.1、project_v2等等,通过这种...

2019-12-05 15:02:22 122

转载 Scala中Case Class与匹配模式是怎么回事

一.匹配模式Scala中匹配模式,类似与Java中的Switch。不过,Scala中匹配模式避免了Java Switch忘记Break时,穿透的问题。演示如下: for(i <- 1 to 100){ i match{ case 10 => println(10) case 50 => println(50) ...

2019-12-03 15:04:58 319

转载 Scala中 class和case class的区别

在Scala中存在case class,它其实就是一个普通的class。但是它又和普通的class略有区别,如下:  1、初始化的时候可以不用new,当然你也可以加上,普通类一定需要加new;scala> case class Iteblog(name:String)defined class Iteblog scala> val iteblog = Iteblog("i...

2019-12-03 14:02:32 826

转载 用java代码来理解scala中的伴生类、伴生对象

初次接触这两个概念觉得怪怪的。写了段代码测试了一下,帮助自己理解。scala里面没有 static 关键字。那么如果想实现static的效果要怎么做呢? ==》 可以使用伴生对象在同一个scala文件中定义一个类,同时定义一个同名的object,那么它们就是伴生类和伴生对象的关系,可以互相直接访问私有的field。伴生对象通常会使用apply函数定义伴生类的构造方法。 这样在创建伴生...

2019-12-02 18:34:23 364

转载 scala中的foldLeft、foldRight

fold, foldLeft, and foldRight之间的区别  主要的区别是fold函数操作遍历问题集合的顺序。foldLeft是从左开始计算,然后往右遍历。foldRight是从右开始算,然后往左遍历。而fold遍历的顺序没有特殊的次序。case class Foo(val name: String, val age: String, val sex: String)Obj...

2019-12-02 18:31:59 458

转载 scala中split(" ") 和 split(" ", -1) 区别

做实验表明: 1.如果字符串最后一位有值,则没有区别, 2.若干最后n位都是切割符,split(" ")不会继续切分,split(" ", -1)会继续切分String line = "a b c "; String [] tmp = line.split(" "); System.out.println(tmp.length+"...

2019-11-29 16:56:20 1619 2

原创 scala中zip、case你不知道的用法

zip的用法 def main(args: Array[String]): Unit = { /*val buf = new StringBuilder // buf += "a" //添加单个字符用 += 多个字符用 ++= buf ++= "11_12,22_23,33_34,11_13,33_35," buf ++= "12_11,11_134...

2019-11-28 17:15:01 242

转载 Scala中for循环的yield用法

**概念**for循环中的yield会将for循环中的值保存下来,保存到一个集合中,在循环结束的时候会将集合全部输出,如果被循环的是map,则输出的就是map。如果被循环的是list,则输出的就是list,以此类推。使用println进行输出scala> for (i <- 1 to 5) | println (i)12345使用yield...

2019-11-27 17:31:03 1027

原创 scala中substring使用

object Test { def main(args: Array[String]) { val buf = new StringBuilder; // buf += "a" //添加单个字符用 += 多个字符用 ++= buf ++= "LINESTRING(109.378906132593 24.302867,109.379106202465...

2019-11-27 16:33:06 4419

转载 try{}catch{}

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-11-18 16:52:14 81

转载 【Scala】数组Array、列表List、集合Set、元组Tuple

1、数组数组可以用来存储固定大小的同一个类型的元素。定义之后可以通过下标来访问元素值,下标从0开始。下面的代码定义了一个可以存放2个元素的 字符串数组(默认情况下会自动import 长度不可变化的数组),当给下标为2的元素赋值时会报错,因为越界了:scala> var x:Array[String] = new Array[String](2)x: Array[String]...

2019-11-18 12:03:36 495

转载 Scala可变数组与不可变数组的区别、可变集合与不可变集合的区别、Array与ArrayBuffer的区别、List与ListBuffer的区别

不可变数组与可变数组的区别Array与ArrayBuffer的区别Array为不可变数组,ArrayBuffer为可变数组,两则的区别比较好理解:不可变指的是长度不可变。Array不能添加或删除元素,没有+=和-=方法;而ArrayBuffer可以添加或删除元素。注意点:Array和ArrayBuffer都可以修改元素,修改方法:array(0)=12,0为下标,12为新值。测试如下...

2019-11-13 17:24:48 1695 2

原创 spark读取excel表格

参考资料:https://blog.csdn.net/qq_38689769/article/details/79471332参考资料:https://blog.csdn.net/Dr_Guo/article/details/77374403?locationNum=9&fps=1pom.xml: <!--读取excel文件--> <dep...

2019-10-29 18:03:55 9734 9

原创 sparkSQL读取Excel表格

转自:https://www.cnblogs.com/shenyuchong/p/10291604.html编码初始化SparkSessionstatic{ System.setProperty("hadoop.home.dir", HADOOP_HOME); spark = SparkSession.builder() .appName("...

2019-10-29 17:44:58 2987 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除