自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq_43193797的博客

眼界,决定了你的高度

  • 博客(524)
  • 资源 (1)
  • 收藏
  • 关注

原创 scala项目中maven打包报错java.lang.StackOverflowError解决方法

在maven项目打包的时候报错,java.lang.StackOverflowError解决方法在setting->maven->runner->VM Options中添加 -Xss4096k 如下图所示再次点击打包就可以了,如果还是报错的话,可以尝试把这个值在增大一点.此外,需要在pom.xml配置以下参数 <configurati...

2019-11-28 21:03:31 1608

转载 红黑树详细分析,看了都说好

红黑树简介红黑树是一种自平衡的二叉查找树,是一种高效的查找树。它是由 Rudolf Bayer 于1972年发明,在当时被称为对称二叉 B 树(symmetric binary B-trees)。后来,在1978年被 Leo J. Guibas 和 Robert Sedgewick 修改为如今的红黑树。红黑树具有良好的效率,它可在O(logN)时间内完成查找、增加、删除等操作。因此,红黑树...

2019-09-20 10:32:00 121

转载 hive 参数调优

转载:https://blog.csdn.net/renzhixin1314/article/details/70496325Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))set mapreduce.input.file...

2019-06-15 17:22:44 180

转载 Hive的静态分区和动态分区

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html转载请注明出处虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解.举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范...

2019-06-15 16:44:59 426

原创 对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。- 对现存hive表的分区首先,新建一张我们需要的分区以后的表cre...

2019-06-15 16:34:55 492

原创 Spark Shuffle解析

ShuffleMapStage与ResultStageShuffleMapStage的结束伴随着shuffle文件的写磁盘。ResultStage基本上对应代码中的action算子,即将一个函数应用在RDD的各个partition的数据集上,意味着一个job的运行结束。HashShuffle解析未优化的HashShuffle一个Task多个缓存如下图中有3个 Reducer...

2019-04-25 12:52:07 137

原创 YARN Cluster模式

(1)执行脚本提交任务,实际是启动一个SparkSubmit的JVM进程;(2)SparkSubmit类中的main方法反射调用Client的main方法;(3)Client创建Yarn客户端,然后向Yarn发送执行指令:bin/java ApplicationMaster;(4)Yarn框架收到指令后会在指定的NM中启动ApplicationMaster;(5)A...

2019-04-25 10:47:14 702

原创 Spark集群启动通讯原理简单解析

(1)start-all.sh脚本,实际是执行“java -cp Master”和“java -cp Worker”;(2)Master启动时首先创建一个RpcEnv对象,负责管理所有通信逻辑;(3)Master通过RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worker可以与其进行通信;(4)Worker启动时也是创建一个RpcEnv对象...

2019-04-23 16:26:44 260

原创 HBase之RegionServer上线和下线及Master上线和下线

RegionServer上线和下线region server上线Master使用Zookeeper跟踪RegionServer状态。当某个RegionServer启动时,会首先在Zookeeper上的Server目录下建立代表自己的文件,并获得该文件的独占锁。由于Master订阅了Server目录上的变更信息,当Server目录下的文件出现新增或者删除操作时,Master可以得到来自Zoo...

2019-01-23 11:59:24 2728

原创 一个linux命令实现批量修改文件名

rename 原文件中待修改的文件名子字符串 需要替换的文件名子字符串 *原文件中待修改的文件名子字符串* *需要替换的文件名子字符串*

2024-02-26 16:21:46 131

原创 notepad++编辑多个位置

在notepad++设置多次点击不同的位置,然后同时操作这多个位置的方法:1、选择编辑,首选项:

2023-09-21 09:12:22 309

原创 根据今天全量的数据以及昨天全量的数据,获取今天修改的数据

编写了一个根据今天的全量的数据以及昨天全量的数据,自动获取今天增量数据的脚本。

2023-08-06 16:57:53 325

原创 sparksql中使用with子查询,insert overwrite table的正确用法示例

【代码】sparksql中使用with子查询,insert overwrite table的正确用法示例。

2023-08-01 16:36:07 873

原创 记一道有趣的sql题

way_bill_id(运单表主键),shiping_date(下单日期,时间格式为yyyy-MM-dd),payment_customer_id(付款客户),damaged_degree_type(是否严重破损,为枚举值。1为是,0为否),is_throw_away(是否丢失,为枚举值。1为是,0为否),is_pickup_overtime(是否取超时,为枚举值。求连续俩周 严重破损,丢失、取超时的客户。第三部,将本周与上周的指标打平成一行。第二步,求本周与上周的相关指标。求每天严重破损、取超时的客户。

2023-08-01 11:09:24 2053 2

原创 汉明码原理

abcdefg这一串二进制数据中,g的角标从右到左数为1,f的角标为2,e的角标为3,d的角标为4,c的角标为5,b的角标为6,a的角标为7。所以自己网上查了很多资料,也想了很多天,终于对汉明码的原理有了自己的理解,所以想写篇博客,总结一下,也希望能够帮助到大家!思路:对汉明码的每一个二进制的角标上面的位置一 一 进行偶校验,比如我们传输这样一个二进制数据:abcdefg,(a、b、c、d、e、f、g 的值为0或者1其中一个数)。凡是位置符合这种形式的,1XXX,归到P4;一、汉明码的纠错检错。

2022-09-03 10:22:13 695 1

原创 hbase的rowkey设计

rowkey设计案例如下concat(lpad(pmod(abs(hash(concat(DEVICE_ID,'|',PRODUCT_CD,'|',eclif_no))),10000),4,0),'|',DEVICE_ID,'|',PRODUCT_CD,'|',eclif_no,'|',OPEN_DATE)asROWKEY,

2021-10-07 12:11:09 203

原创 Flink 指定时间范围内网站总浏览量(PV)的统计

基于Flink 统计每小时内的网站PV。public class Flink03_Practice_PageView_Window2 { public static void main(String[] args) throws Exception { //1.获取执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

2021-09-19 23:18:19 819

转载 FLINK SQL 时间戳转换

1.TO_TIMESTAMP时间戳类型转换问题上图是来自阿里巴巴FlinkSQL开发手册,案例中TO_TIMESTAMP可以将13位bigint类型的UNIX时间戳 转换成 TIMESTAMP的日期类型2017-09-15T00:00这种形式。实际操作过程中会出现报错:Flink SQL> select TO_TIMESTAMP(1513135677000);[ERROR] Could not execute SQL statement. Reason:org.apach...

2021-09-17 15:56:59 19325 2

原创 Flink CEP 循环模式的连续性

松散连续默认是松散连续package com.webank.test01;import org.apache.flink.cep.CEP;import org.apache.flink.cep.PatternFlatSelectFunction;import org.apache.flink.cep.PatternStream;import org.apache.flink.cep.pattern.Pattern;import org.apache.flink.cep.pattern.

2021-09-13 17:39:03 517

原创 Flink CEP 组合模式(模式序列)

1. 严格连续期望所有匹配的事件严格的一个接一个出现,中间没有任何不匹配的事件。举例:获取字母b紧跟着字母b的数据。当且仅当数据为a,b,c,b,b时,对于next模式而言命中的为{b,b}import org.apache.flink.cep.CEP;import org.apache.flink.cep.PatternFlatSelectFunction;import org.apache.flink.cep.PatternStream;import org.apache.flink.

2021-09-13 17:07:16 530

原创 Flink简介与快速入门

1.1 初识Flink

2021-06-17 10:20:44 175

原创 Spark读取Json类型的数据与读取Hive中的数据

1.spark读取json类型的数据val df = spark.read.json("examples/src/main/resources/vertex")df.show(5,false)2.spark读取hive中的数据val spark = SparkSession.builder().master("yarn").appName("hive2nebula").enableHiveSupport().getOrCreate()val sql: String ="select id_no

2021-04-12 20:20:27 608

原创 Spark-submit打印数据

spark.read.json("/user/log/ad/hdt_bid/2021041201")df.take(5).foreach(print)spark.read.json("/user/log/ad/hdt_bid/2021041201")df.show(true)

2021-04-12 11:57:44 404

原创 es java聚合方法——多字段分组并求和

/*** 多字段分组并求和;实现sql:select field1, field2, sum(field3) from table_name group by field1, field2;*/@Testpublic void sumAfterTwiceAgg() {SearchResponse response = client.prepareSearch(“twitter”).setTypes(“tweet”).addAggregation(AggregationBuilders.terms

2021-03-11 13:44:29 1868 1

转载 elasticsearch---批量修改,批量更新某个字段

原文链接:http://www.mamicode.com/info-detail-2524351.html1.源生API在这里没有用官方提供的bulk API,而是用的另外一种方式。POST /infomations/infomations/_update_by_queryJSON请求格式{ "query": { "match": { "status": "UP_SHELF" } }, "script": {

2021-03-11 11:19:50 4137 1

转载 ES_记一次分页查询(getHits().getTotalHits() 获取总条目)为0的问题

问题描述ES分页查询的代码如下:SearchResponse searchResponse = highLevelClient.search(searchRequest, RequestOptions.DEFAULT);long totalNum = searchResponse.getHits().getTotalHits(); //返回的是long型的SearchHit[] searchHits = searchResponse.getHits().getHits();随着ES ser

2021-03-11 11:04:09 2706

原创 ElasticSearch multi search java api问题

当前ES api文档上面看到SearchRequestBuilder srb1 = node.client().prepareSearch().setQuery(QueryBuilders.queryStringQuery(“elasticsearch”)).setSize(1);SearchRequestBuilder srb2 = node.client().prepareSearch().setQuery(QueryBuilders.matchQuery(“name”, “kimchy”)).

2021-03-10 16:48:37 256

原创 2021年,12月28号开始面试,截止时间2月8号收到的offer情况

平安科技 离线数据仓库;微众银行 后端flink实时数据开发;慧科讯业(国内最大中文搜索库) 实时spark开发;领星网络 实时流批一体 数据湖。领星网络和微众银行总包应该差不多,领星网络的技术架构可能比较新,架构师打算才有最新流批一体技术方案,flink cdc+iceberg微众银行平台大...

2021-02-24 15:42:06 234

原创 Spark读取hdfs文件原理

var sconf = new SparkConf().setAppName(this.getClass.getName).setMaster("yarn")var sc = new SparkContext(sconf)sc.textFile("hdfs://m2:9820/README.md")查看textFile方法内容如下: /** * Read a text file from HDFS, a local file system (available on all nodes),

2020-12-25 16:13:01 758

原创 时间维度表生成脚本

# !/bin/bashstart_date=$1end_date=$2temp_date_full=`date -d $start_date +%F`temp_start_second=`date -d $start_date +%s`temp_end_second=`date -d $end_date +%s`min=1max=$[($temp_end_second-$temp_start_second)/(24*60*60)+1]cat /dev/null &gt...

2020-12-16 17:31:34 263

原创 统计指定路径hive表存量

etldate=(20201111)etlhour=(00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23)sum=0for date in ${etldate[@]}do for hour in ${etlhour[@]} do count=`hadoop fs -ls /user/hive/databases/mydata/data_date=$date$hour | awk -F ' ' '

2020-11-23 13:53:18 148

原创 linux查找指定目录下面多种后缀名的方法

方式一:ls /home/user | grep ".*\.png\|.*\.jpg"方式二:find ./ -regex ".*\.png\|.*\.jpg"

2020-11-20 11:05:26 3341

原创 布隆过滤器原理

布隆过滤器(Bloom Filter)的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为m,哈希函数的个数为k以上图为例,具体的操作流程:假设集合里面有3个元素{x, y, z},哈希函数的个数为3。首先将位数组进行初始化,将里面每个位都设置位0。对于集合里面的每一个元素,将元素依次通过3个哈希函数进行映射,每次映射都会产生一个哈希值,这个值对应位数组上面的一个点,然后将位数组对应的位置标记为1。查询W元素是否存在集合中的时候,同样的方法将W通过哈希映射到位数组上的3个点。如果3个点的其中有

2020-11-11 13:38:23 265

原创 如何从HDFS导入数据到ClickHouse

从ClickHouse 18.16.0版本开始支持从HDFS读文件,在 19.1.6 版本对HDFS访问功能进行了增强,支持读和写,在 19.4 版本以后开始支持Parquet格式。本文介绍了如何从HDFS中读数据到ClickHouse中,测试版本为:19.4在访问HDFS之前需要定义一个访问HDFS的表,指定表引擎为HDFS。表创建完成后,就可以对这张表进行查询。一、查询CSV文件例如,在HDFS上有一个数据文件:books.csv,内容如下:hadoop fs -cat /user/hive/c

2020-10-23 15:06:10 898

转载 新增多个 Flume 实例后,Kafka 数据重复消费问题处理

文章转载自:https://blog.csdn.net/hejiangtju/article/details/80364388我们使用 Flume 将数据从 Kafka 加载到 Hive 中。由于启动一个 Flume 实例时,数据加载的速度只能达到 10MB/秒 (每条Kafka记录100B)。于是我们计划启动多个 Flume 实例 (指定同一个消费者组名称)。我们知道 Kafka 数据消费是以 Partition 为单位的,即一个 Partition 只能被一个 Flume 实例消费。当启动第二个

2020-10-23 14:00:08 598

原创 Kylin Cube构建流程

第一步:创建中间表第二步:

2020-10-20 16:22:28 198

原创 Pandas读取数据前10行

2020-10-09 17:50:24 9102

原创 pandas批量读取excel工作页的内容

2020-10-09 17:20:05 191

原创 numpy的char模块的join函数

2020-10-09 15:27:42 415

原创 numpy的char模块的add函数

2020-10-09 15:26:20 529

linux与shell相关

Linux是一款类Unix操作系统,它的出现离不开GNU自由软件运动中诞生的开发环境和编译器,又反过来极大的推动了GNU自由软件运动,让崇尚自由软件精神的先驱们不必继续局限在Unix系统上进行开发。Linux出现后,sendmail, wu-ftp, apache等团队纷纷启动了基于Linux系统的开发计划。

2018-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除