秉寒-CHO-CSDN博客

原创错误码：spark_error_00000004

2）减少单个executor的并发数（cores），以减少每个executor的负载和内存需求，例如，--executor-cores 2表示将executor的CPU设置为2核。2）减少单个executor的并发数（cores），以减少每个executor的负载和内存需求，例如，--executor-cores 2表示将executor的CPU设置为2核。2）可以尝试减少不必要的cache缓存操作，避免对比较大的数据进行广播（broadcast）操作，并对程序逻辑和底层数据进行优化，减少内存消耗。

2023-09-15 17:42:28 425

原创离线数仓和实时数仓割裂的痛点,数据湖方案

2)实时加工可观测性，可运维性较弱。1)离线加工数据产出时效性不足。4)全天计算资源高峰集中在凌晨。流表二像性，可流式消费，可批查。3)批流双链路，双份资源开销。增量计算将凌晨计算打散到整天。数据入湖增量计算，提升时效。计算存储批流一体，可重跑。

2023-09-15 11:31:21 165

原创数仓的主数据出数据指标是否有意义，单调递增的数据指标作为虚荣指标是否对公司的业务发展有实际的指导意义

例如，一些与用户行为相关的指标，如总活跃数、下载量、粉丝数等，虽然会随着时间的增长而单调递增，但是这些指标并不能传达出用户的任何信息，因此是没有指导意义的。因此，公司需要对这些指标进行深入分析，找出其背后的原因和影响因素，并制定相应的策略来改善和优化这些指标，从而推动公司业务的发展。数仓的主数据出数据指标如果能够指导公司的业务发展，那么这些指标是有意义的。然而，如果这些指标只是单调递增的虚荣指标，那么它们并不能对公司的业务发展提供实际的指导意义。

2023-09-13 10:57:00 111

原创指标的业务负责人和技术负责人

业务负责人和技术负责人需要密切合作，以确保指标项目的成功实施。他们需要共同制定项目计划、沟通项目进展、解决问题，并确保项目成果能够真正为业务带来价值。他们与利益相关者沟通，确保指标与业务目标相一致，并负责推动项目的实施。技术负责人：负责确定如何收集、处理和报告指标数据，以及如何确保数据的。他们与技术团队合作，设计和实现技术解决方案，以满足业务需求。业务负责人：负责确定指标的。

2023-09-11 11:54:35 113

原创在互联网行业，运营和量化的关系与区别

在互联网运营中，常常使用A/B测试、用户行为分析、渠道管理等方法和工具，来验证运营策略和优化用户体验。运营更注重日常的运营管理和实时的决策调整，关注点更倾向于用户的行为、产品的改进等近期效果。互联网企业通过收集和分析大量用户行为数据、市场数据等，借助数据科学和统计模型等方法进行预测、分析和决策优化。量化的目标是通过数据驱动的方式，提升运营的效率和精确度，从而实现更好的商业结果。综上所述，在互联网行业中，运营和量化在方法、工具、关注点和时间尺度等方面存在一定的差异。在互联网行业，运营和量化的关系与区别。

2023-07-28 14:04:54 147

原创数据仓库和数据集市的边界

数据集市通常从数据仓库中选择和提供一部分的数据，经过适当的转换和整合，以支持特定业务部门的自主数据分析和决策。数据仓库是一个中心化的数据存储和管理系统，用于集成、存储和处理各种类型和来源的数据。数据仓库通常用于长期存储和分析历史数据，以支持企业级的决策分析和报告，它主要关注数据的存储和数据模型的设计。然而，数据仓库和数据集市之间的边界并不是固定的，可以根据具体的组织需求和业务场景进行调整和领域划分。数据仓库和数据集市是企业中常见的数据管理和分析架构组件，它们之间存在一定的边界，但也有相互关联和重叠的部分。

2023-07-26 20:49:42 101

原创 hive sql 时效突然降低的原因分析

map 的时间特别长，然后一直没有紧张。

2023-05-17 14:13:28 69

原创充电书库-study

推荐书目详细介绍，请参阅文件：序号书名作者序号书名作者。

2022-10-14 12:26:24 960

原创 date_format(‘{TX_DATE}‘, ‘yyyyMM‘)

no

2022-09-02 18:07:27 221

原创 kafka flink es hive streaming

1.kafka create topic kafka-topics.sh --create --bootstrap-server 172.19.68.12:9092 --replication-factor 1 --partitions 1 --topic dev-yuqing-topic-test2.kafka producer kafka-console-producer.sh --broker-list 172.19.68.12.9092 --topic dev-yuqing-topic-t.

2021-09-09 11:07:57 353

原创怎么跳过hive文件的第一行

烦人在数据上报的过程中，每个文件都是有文件头的，用hive 的建表语句跳过tblproperittes('skip.header.line.count'='1')

2021-09-01 11:20:43 389 1

原创在做分区刷新报错时候，曾加set

set hive.msck.path.validation=ignore;MSCK REPAIR TABLE table_name;

2021-09-01 11:17:12 142

原创 kafka命令

启动：bin/kafka-server-start.sh config/server.properties --nohup创建topic：/bin/katopics.sh --create --zookeeper 172.16.29.231:2181 --replication-factor 1 --partitions 1 --topic topic1kafka查看topic和消息内容命令： /bin/kafka-console-consumer.sh --zookeeper localhost:..

2021-08-31 10:46:00 104

原创 hudi flink 集成error ，未解决

2021-08-07 10:29:55org.apache.flink.util.FlinkException: Error from OperatorCoordinatorat org.apache.flink.runtime.operators.coordination.OperatorCoordinatorHolder.notifySubtaskReady(OperatorCoordinatorHolder.java:426)at org.apache.flink.runt...

2021-08-07 17:22:54 918 5

原创对 Hive 数仓表进行高效小文件合并

小文件如何产生动态分区插入数据，产生大量的小文件，从而导致 map 数量剧增 reduce 数量越多，小文件也越多( reduce 的个数和输出文件是对应的) 数据源本身就包含大量的小文件小文件带来的问题小文件会开很多 map，一个 map 开一个 JVM 去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能小文件会给底层文件系统带来很大压力，如在 HDFS 中，每个小文件对象约占150 byte，如果小文件过多会占用大量内存。这样 NameNode 内...

2021-08-02 09:58:30 373

原创 Lpad()函数与Rpad()函数简介

内容截取和补充

2021-08-02 09:15:18 202

原创 hive -f 如果需要传入多个参数

hive -f my_file.sql --hivevar p1="1" --hivevar p2="2"

2021-07-14 18:52:27 611

原创 shell 的一些常用命令

day =`date --date='1 days ago' +%Y%m%d`soure soure_config.shstart_time=$(date "+%Y%m%d%H%M%S")define_list=()whie read one linedodefine_list[${#define_list[*]}]=`echo ${one line} awk -F " " '{print $1}'`done < txtfor(( j = 0 ;j<${#anewlis...

2021-07-13 17:55:30 114

原创数据分析两个函数

lag()over（）在主键partition范围内，按照order by 计算上一条或是下一条的值，赋值到本条信息sum () over() 在主键parition范围内，按照order by 进行累加计算

2021-07-12 11:30:45 95

原创 hive 日期 loop 自动生成

需求描述：传入一个开始时间,start_dt，一个结束时间，start_end,使其能够将开始时间到结束时间之间所有的时间都遍历出来。实现效果：hive sql 实现：–根据开始时间和结束时间生成时间段内所有时间select regexp_replace(date_add(dt,row_number() over(order by dt) - 1),’-’,’’) as dtfrom (select explode(split(rpad(‘2019-07-20’,(datediff(

2021-07-07 15:42:28 777

原创 hive 日期十位转为八位

select date_format(date(current_timestamp()),'yyyymmdd')

2021-07-05 17:18:11 1587

原创 shell 下时间的傻狍子

start_time = '20202020202020'st=${start_time :0:8}format=`date -d $st '+%Y-%m-%s'`dt=$(date --date="${format} -1 year" "+%Y-%m-%s %H:%M:%S")

2021-04-22 21:01:37 94

原创数据中台相关情况

是否支持多机房组成一个global集群，目的当一个机房物理容量不可扩容时，是否可以支持多机房的存储计算？当IAAS层ready没问题时，产品安装时间大约多久？后续集群扩容（可以按规模给定时间，如扩容增加大约10台机器需花费时间多久？）和产品升级花费时间多久？支持spark3了吗？如果社区flink，spark，hbase，hadoop有大版本升级，大数据平台滞后多久跟随升级？使用产品时报错无法完成预期任务，如果是产品测的问题，多久能得到反馈解决？产品是否支持模块化销售：基本大数据底座，数据治

2021-04-01 10:08:50 89

原创 superset sql lab instance error ＜------ 暂时没找到解决方案

Unexpected ErrorInstance <Query at 0x267853b90f0> is not bound to a Session; attribute refresh operation cannot proceed (Background on this error at: http://sqlalche.me/e/13/bhk3)

2021-03-31 15:37:06 161

原创 spark3.0 特性测试整理

目前的测试效果性能较2.4.6 提高有20%spark 3.0 性能改进项--简化内容可以参考 https://www.cnblogs.com/xing901022/p/13381167.html ：spark3.0 的发布时间 --2020年6月大版本的更新注定有许多性能优化方面的新特性，其中整个版本升级改进中spark sql占 46% ，spark core占 16% spark作为当前批量数据分析引擎，在SQL方面的优化主要四个方向7个方面：1.开发交互方向：新的...

2021-03-01 18:28:04 312

原创数据仓库高级工程师面试（最基本的内容）－－解答

如何建设数仓，如何构建主题域缓慢变化维几种处理方式什么是维度建模，星型模型与雪花模型的区别数仓的好处分层的好处怎么做数据质量，怎么保证及时性和准确性什么是维度，什么是度量如何数据治理？三范式数据仓库vs数据中台vs数据湖做过实时数仓吗，讲一下 ----------------------- 注：新浪也考过 awk输出并求和python：...

2021-02-18 10:01:14 1186 3

原创 hive ,tez , spark sql 小文件合并

hdfs 下小文件是最致命的影响之一Hive 命令hive.merge.mapredfiles=true;hive.merge.mapfiles=truehive.merge.rcfile.block.level=truehive.merge.size.per.task=256000000hive.merge.smallfiles.avgsize=16000000tez 命令hive.merge.tezfiles=truespark 命令：hive.merg...

2021-01-15 15:01:04 1067

原创在执行Sparksql操作orc类型的表时抛出：java.lang.IndexOutOfBoundsException 或者 java.lang.NullPointerException

案例 (spark version 2.4.6)：create tmp.table_Y_x_h partitioned by (key string) stored as orc ;insert overwrite table tmp.table partition(key='ur_my_love') select * from tablex where 1=2 ;会在hdfs key path 下生成一个000000_00 size 大小为 0 的空文件 ;在spark-s...

2021-01-12 14:21:46 652

原创 spark2.4.6 版本下创建orc临时表错误

create tmp.table stored as orc as select * from tmp.tablesx;insert into tmp.table select * from tmp.tablesy;会造成 hdfs 文件的后缀名称不一致，造成 spark 引擎下部分数据不能读取的错误；解决方法：1. 上述的sql 通过 union all 进行合并2.增加参数强制统一hdfs文件格式：spark.sql.hive.convertMetast...

2021-01-12 14:12:00 391

原创 clickHouse 是什么一个神器

ck 是用于做olap 数据分析的列式数据库管理系统核心理论命令系统架构设计数据结构引擎系统

2020-12-17 17:16:46 255 1

原创 Kubenetes 与 hadoop 的关系是怎样的

Kubenetes 与 hadoop 的关系是怎样的

2020-12-16 20:00:10 373

原创联邦学习在机器学习中的应用是怎么一会儿事

联邦学习在机器学习中的应用是怎么一会儿事

2020-12-15 15:57:31 187

原创 Kerberos 在数据仓库集中的应用是怎们一会儿事

Kerberos 在数据仓库集中的应用是怎们一会儿事

2020-12-15 15:55:55 81

原创数据仓库下的联邦架构是怎么实现的

数据仓库下的联邦架构是怎么实现的

2020-12-15 15:53:33 278

原创 flink 下的流批一体是怎么一会儿事情

flink 下的流批一体是怎么一会儿事情

2020-12-15 15:51:09 330

原创 spark error info

Unable to create executor due to uanble to register with external shuffle server due to timeout waiting for task

2020-12-08 14:20:07 212

原创一个头疼的错误（Hadoop hive )

Error in query : org.apache.hadoop.hive.ql.metadata.HiveException:get partition :Value for key dt is null or empty ;Solution :

2020-11-26 16:29:47 629 1

原创 hadoop 统计系统文件占用空间统计语句

hadoop fs -du -h hdfshadoop fs -du -s -h hdfs：//dim.db

2020-11-11 15:52:37 371

原创大数据架构学习交流提高

大数据架构师 \ 专家战略合作希望参与交流会人工智能架构师数据能力规划计划数字货币六位老师实时数据 + 结果BIHbase + 多维分析查询决策风控 AI 建模等 current 统计支付监管反洗钱等博士提供驻场等实施： flink + kafkafusioninsdie人脸识别 ++++ 支付案例以及图像识别 Hbase + ES 黑科技江苏公安跨域协同公安部的数据生命周期准...

2020-11-02 10:09:48 223

原创 Spark 运行内存溢出：memoryOverhead

在做一个保密级别的项目中遇到的spark内存异常具体错误语句：Lost executor 10 on hadoop88:Container kill by yarn for exceeding memory limits.9 Gb of 9 Gb physical memory used .Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nademanager.vmem-check-enabled be

2020-10-23 10:55:27 1592

etl 数据加载

数据库

空空如也