自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信搜:import_bigdata,大数据领域硬核原创作者

GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

  • 博客(1999)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据治理要不要在简历中体现?

数据治理要不要在简历中体现?数据治理在简历中要体现什么内容?上周日给知识星球的同学们组织了一次面试分享,邀请了2位拿到不错offer的同学分享了自己的面试和找工作经历。数据治理会出现在什么样的简历中?其中提到了一个很重要的点,数据治理部分在简历中如何体现?在工作和面试中占据什么样的地位?其中分享的同学给出了一个定性的结论,一般超过3-5年的同学,未来你的简历中多多少少都要涉及关于数据治理的内容,这...

2024-04-17 09:30:53 753

原创 双非本科大厂完全没机会?爆砍40w+年薪案例!

该同学各个方面的背景并不是十分突出,不是名校。但是为找工作做了充足的准备,包括项目中的难点梳理和可能遇到的面试问题,所有工作都做在了前面。目标非常明确,行动力强。愿意花时间去研究训练营中项目用到的技术栈和原理。根据建议去对应的技术模块下整理知识点。这个同学自己总结了一个文档,根据训练营中的项目,以及个人项目总结面试点。包括:业务知识、架构图、项目流程图、项目中的集群数据规模、开发中遇到的技术问题等等。

2024-04-07 12:18:18 1015 4

原创 金三银四还有没有?

今天这个文章是求职系列,我们来谈一下当前的择业环境和每个人要做的准备。我在2021年底曾经发过一篇文章《互联网最坏的时代可能真的来了》,大家有兴趣的可以点进去看一下。事实上这个最坏的时代来的如此迅速,仅仅1年后整个互联网行情急转直下,很多同学根本来不及反应。2023年很多读者找我做过咨询,很不幸的是很多人因为温水煮青蛙时间太长,技术储备、职场技能、人脉储备不足,不得已退出了这个行业。这些案例真实发...

2024-04-07 09:15:33 636

原创 Flink1.19版本生产环境应用解读!

300万字!全网最全大数据学习面试社区等你来!Flink1.19版本更新了,我们按例对最新版本的Flink中的核心能力进行一下解读。我们的重点还是生产环境应用和需要注意的问题,以及对未来的一些判断。本次更新涉及到SQL/Runtime/CheckPoint这三个方面的改进,这也是目前整个引擎开发最重要的几个方向。SQL能力优化SQL能力上的优化需要大家特别关注的三个能力分别是:源表自定义并行度、s...

2024-03-20 20:51:57 1178

转载 Apache Doris 2.1.0 版本发布,复杂查询性能提升 100%!

亲爱的社区小伙伴们,我们很高兴地向大家宣布,在 3 月 8 日我们迎来了 Apache Doris 2.1.0 版本的正式发布,欢迎大家下载使用。在查询性能方面, 2.1 系列版本我们着重提升了开箱盲测性能,力争不做调优的情况下取得较好的性能表现,包含了对复杂 SQL 查询性能的进一步提升,在 TPC-DS 1TB 测试数据集上获得超过 100% 的性能提升,查询性能居于业界领先地位。在数据湖分析...

2024-03-18 17:52:52 144

转载 生产实践|腾讯欧拉平台数据血缘架构

导读本文将介绍腾讯欧拉数据血缘的建设及应用。主要内容包括以下几个部分:1.背景和目标2.项目架构3.模块化建设4.应用场景5.问答环节01背景和目标腾讯欧拉数据平台,是一款基于 DataOps 理念,实现生产即治理的一站式数据平台,主要包括三个子产品:首先是资产工厂,负责整体的数仓建设、数仓模型的开发;第二块是欧拉的治理引擎,负责全链路成本的数据治理;第三块是数据发现,负责元数据的管理...

2024-03-14 09:30:51 123

原创 Paimon新版本核心特性和生产实践解读

最近Apche Paimon发布了最新版本0.7.0,在这个版本中,Paimon对一些新特性进行了增强。Paimon在数据湖领域发展迅速,未来会在整个数据开发领域占有很重要的地位,今天我们来盘点一下当前能力的特点以及在生产环境中的使用情况。Look up join在实时数据开发领域,Look up join一般被认为等效于「维度表关联」。在一些企业的分享中,利用Paimon进行维度表关联,是一个比...

2024-03-09 18:00:46 1013

转载 存算分离|Flink2.0状态存储演进和优化

01引言我们在这个时间点重新聊状态存储这个话题是因为状态存储是流计算的核心。Flink 从 2017 年 VLDB 发表奠基之作介绍状态存储[1]发展至今,Flink 在状态这部分的架构基本并没有太大的变化。但时代是在不断演进和变化的,无论部署模式、存储模式,还是作业负载,都已经发生了翻天覆地的变化。从部署模式看,我们经历了 map-reduce 时代 Cluster 上没有资源隔离的部署,到云...

2024-03-04 18:05:52 139

原创 曾经爆火的「流批一体」现在怎么样了?

2021年和2022年,曾经有一个概念在整个数据开发方向传播,不管是懂和不懂的人,都能扯上一两句。那就是大家耳熟能详的「流批一体」。时至今日,已经很少有人再提起这个话题,这个概念在21、22年很多面试中也会被面试官问到,经常有同学问我这个问题,该怎么回答?今天咱们稍微聊聊这个话题。当时这个概念被很多人提起,大概的意思就是这样:期望一套代码能同时在批处理和流处理中运行。这个概念神奇在哪呢?这个概念最...

2024-02-20 17:32:50 1007 1

转载 Apache Paimon生产环境表模式最佳实践

01前言Apache Paimon 作为数据湖对各种场景有着完整的功能支持,看完这篇文章,你可以了解到 Paimon 有哪几种表模式。对应哪些场景。此文部分内容来自 Paimon 官网:https://paimon.apache.org/docs/master/02概览上图描述了大致所有表模式的配置及能力,在下文中,会逐个简单介绍下。以上的所有表模式在最新版本中已得到生产验证。03主键表主键表是 ...

2024-02-18 09:30:42 333

原创 2024年大数据方向的发展趋势

最近事情较多,因为临近年底,在做总结和后续规划,在这一年中,数据开发方向仍然在快速发展,新概念和新技术层出不穷。并且2023年是各大公司新技术大规模落地的一年,相比2022年及以前空中楼阁似的讨论和不接地气,2023年更加贴近实际,无论公司规模大小,大家都有了一些最佳实践。下面是我观察到的行业内的一些发展和未来方向,视角较小,互相讨论。1. 数据体系迭代加速,离线计算继续保持稳定高效,未来以稳定为...

2024-01-31 19:53:42 1778

转载 面试收藏版|OLAP在滴滴的生产实践优化

导读本次分享题目为StarRocks物化视图在滴滴的实践,由来自滴滴出行的资深开发工程师刘雨飞老师带来经验分享。主要分三部分展开介绍:1.背景介绍:滴滴OLAP的发展历程及最终为什么选择StarRocks2.视图加速实时看板:StarRocks项目物化视图应用分享3.总结与规划:进一步提升的空间和发展方向01背景介绍:滴滴OLAP的发展历程及最终为什么选择StarRocks滴滴的OLAP系统...

2024-01-29 09:30:34 248

转载 技术人必修课:利用金字塔原理高效思考与表达

300万字!全网最全大数据学习面试社区等你来!序言《金字塔原理》一书出自麦肯锡公司第一位女性管理顾问芭芭拉·明托。虽然这本书出版至今已经超过 40 年,但是仍然倍受人推崇,从某公司将其作为公司内部四大名著之一就可见一斑。当然也有很多人持质疑态度,比如秋叶大叔对此书提出了 27 点尖锐的意见,认为它被世人刻意抬高神化,驳斥其一无是处。那这本书到底值不值得读呢?其实每本书的受众和适用范围都不尽相同,既...

2024-01-22 12:43:18 548

原创 Flink/Doris生产环境方案选型的一些思考

各位总监,技术负责人,架构师们大家好。今天的文章有点短,是一些个人思考,仅做记录。以Flink为主的计算组件和以Doris为代表的存储+计算一体的方案选择问题是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会遇到的问题。这个问题非常「实在」也很「接地气」,因为这些技术选型问题在生产环境客观存在,更关系稳定性和成本问题。如果大家在面试中被问到了,也是一个很好的问题。问题和思考目前...

2024-01-09 09:30:16 1578

转载 腾讯 PCG 数据治理体系实战

导读本次分享题目为腾讯 PCG 数据治理体系。分为四个章节:1.数据治理的概况和解法2.腾讯 PCG 的元仓建设:专注特征挖掘、构建治理引擎基石3.资产分体系:开放、可持续迭代的资产分体系4. 治理工作台:一站式治理平台01数据治理的概况和解法腾讯 PCG 内容与平台事业群,包括大家所熟知的 QQ、腾讯视频、腾讯新闻、阅文集团,以及腾讯音乐等业务。在没有治理平台之前,数据治理是运动式的,有...

2024-01-05 14:58:33 427

转载 我在阿里做开发的高效打工技巧总结

导读如何高效打工?本文作者站在开发的视角总结了一些打工技巧,包括如何高效开会、如何与人沟通、如何做PM等,希望可以给大家提供一些帮助。前言如果您的工作中完全不需要自己写PRD 、技术方案、测试用例,那么这篇文章除了会浪费您宝贵的15分钟之外,别无益处,可以绕行了。背景很多新入职的工友反馈,大家现在除了编码之外,在厂子里还有很多七七八八的杂活才是工作耗时的大头,比如有些项目里面,沟通&对...

2024-01-02 21:10:54 500

原创 国企和互联网怎么选?

2023年马上就要结束了,天气还是很冷,大家今年的总结做了吗?正好这两天看到另外一个我关注的博主更新了一个自己的年终总结。其中有一些话令人印象深刻。未来对我来说,毫无吸引力。原因很简单,当下已经足够令人清醒、舒适和着迷了。任何形式的过多思考未来,都显得有些逃跑和躲避当下的嫌疑。今天的话题是一个同学的offer选择问题。以下的观点都是基于个人的一些见闻给到球友的一些建议,也希望能给大家一些帮...

2023-12-24 16:00:51 1445

原创 FlinkCDC发展历程和简历中项目描述的思路

Hi,大家好,今天的天气依然很冷。冻成狗了呀!前两天,FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化,从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。这些不是我们今天的重点。今天简单说一下在整个框架发展过程中给我们学习进阶/写简历面试/项目总结上的一些启示。这也是我经常被问到的问题,我应该怎么去描述和总结过去我做过的项目?下面这些...

2023-12-20 20:34:49 1424

转载 Apache Paimon核心原理和Flink应用进阶

这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章,你最好收藏一波。1.1 简介Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink ...

2023-12-08 09:30:32 1044

转载 大数据指标中台构建核心技术解析

导读本文将分享网易数帆在指标中台构建方面的实践。主要围绕以下四个方面展开:1.网易数帆大数据产品介绍2.网易数帆指标中台3.指标中台核心技术解析4.未来规划及展望01网易数帆大数据产品介绍1.网易数据分析的发展历史网易自 2006 年开始使用大数据技术组件,如分布式数据库、分布式文件系统、分布式搜索引擎,支撑了网易互联网 2.0 时代的产品。自 2009 年开始基于 Hadoop 构建...

2023-12-05 09:40:28 1125

转载 Flink + Paimon 数据 CDC 入湖最佳实践

前言Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture)数据的入湖,看完这篇文章,你可以了解到:为什么从 CDC 入 Hive 迁移到 Paimon?CDC 入 Paimon 怎么样做到成本最低?Paimon 对比 Hudi 有什么性能优势?Paimon 从 CDC 入湖场景出发,希望提供给你简单、低成本、低延时的一键入湖。本文基于 Paimo...

2023-11-28 09:30:36 1418

原创 生产环境面试问题,指标类问题。面试官知识盲区,让他回家等消息!

今天说说指标类问题你在面试中会被问到的问题。我们抛开指标开发涉及到的技术点不谈,聊一下更偏重实际业务背景,二面及以上面试官关注的宏观和问题。这问题答得好,让面试官回家等消息,答得不好,你回家等消息。在实际工作中,因为业务本身逻辑复杂,迭代迅速,指标会越来愈多。指标之间也会互相影响,所以两大类问题摆在大家面前:第一,你怎么处理爆炸增长的指标数量问题第二,如何进行指标的异常、归因分析第一个问题很简单,...

2023-11-22 09:46:00 1755

原创 生产环境中的面试问题,实时链路中的Kafka数据发现某字段值错误,怎么办?

大家好呀,今天分享的是一个生产环境中遇到的问题。也是群友遇到的一个面试问题。原问题是:早晨8点之后发现kafka的record中某个字段的值出现了错误,现在已经10点了,需要对kafka进行数据订正,怎么样定位和解决这个问题,达到最快响应和最小影响。这个问题是一个很「大」的问题,我们挑重点的说。首先,我们在做数据开发的过程中涉及到一些基本要素:时效性保障、质量保障、稳定性保障,此外还有敏捷性、可管...

2023-11-13 09:30:48 1345

转载 全网独一份!GPT+AI大模型资源,数据人请低调使用!

随着ChatGPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘AI大模型人才!作为普通程序员,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑程序员核心竞争力(不限年龄!不限...

2023-11-11 12:01:43 976

原创 211硕士Java实习全挂!不想卷后端了,大数据方向想快速入门找实习,该怎么做?

今天给大家分享的是一个球友的提问,如果你也正好是应届生再找实习,那么也可以照着这个方向去学习。问题是这样的:某211学校。Java后端学了大概半年时间,前段时间找日常实习,海投一些大厂,简历全挂!只有滴滴约面,但是二面挂了!我算法题大概250题左右,熟悉java八股文。不想卷java后端开发了,现在我想转大数据方向,想快点找个日常实习。现在比较迷茫,不知道大厂对大数据日常实习的要求!包括技术栈,S...

2023-11-10 09:30:12 1005

原创 Flink1.18新特性生产环境应用的重点解读!

大家好,我是你们的群主王知无呀。Flink 1.18已经于近期发布了。在这个新版本中新增了很多新的功能和特性。在这些特性中,有一些是生产环境非常重要的能力,大家在使用过程中可以重点参考和了解其中的原理。算子级别状态保留时间TTL设置首先,在流处理的提升上,从 Flink 1.18 版本开始,Table API 和 SQL 用户可以为有状态的算子单独设置状态保留时间 (TTL)。这个功能是一个非常实...

2023-10-30 09:30:49 2817

转载 B站数据质量保障体系建设与实践

300万字!全网最全大数据学习面试社区等你来!01背景目标首先,分享一下 B 站数据质量保障的背景和目标。B 站数据建设的历史演进可以分为四个阶段。数据库阶段。在这个阶段B 站处于初创阶段,业务也在初步发展中,数据逐渐受到各方的重视。这一阶段的质量保障重点在于设计测试用例、验证数据正确性,并进行数据库的监控和调优。数据仓库阶段。这个阶段的出现是因为随着业务的发展,各方对数据的需求也日益增加,更加...

2023-10-23 11:45:20 1266 1

转载 yyds!懂行的数据人都开始用ChatGPT搞钱了!

国内 AI 又“杀疯了”!近日,百度重磅发布十余款 AI 原生应用,AI 走向应用的时代,真的要来了。市场上,相关技术岗位增速已高达430%!AI 大模型工程师“一将难求”,甚至开出60k*16的高薪,挖掘 AI 大模型人才。作为普通程序员,这是一次不可错过的机会:大家都是从“新”起步,谁先尝试,谁就能成为首批吃到红利的稀缺人才。如果再继续观望、犹豫、焦虑下去,可能真的会因此错过一个时代的机会!试...

2023-10-21 12:04:53 1133

原创 面试官:你有点东西,但是不多。想看你表演,你不知所措...

大家好,我是卷王呀。今天回答一个问题。球友提问我每次在面试的时候问我项目经历有啥难点,我每次都不知道咋说。做项目时候就是天天写SQL,写简单的Java,感觉没遇到啥难点。请问下难点这块描述该咋整呀。总结一句话:面试官感觉你有点东西,但是不多。想看你表演,你不知所措...为什么这样?这个问题是很多小伙伴遇到过的问题,无论是社招还是校招。我们在写简历的时候最核心的部分就要说清楚过去的工作经历中遇到的有...

2023-10-19 09:45:18 1085

原创 大数据开发求职自救,上岸大厂的心路历程!

这阵子事情有些多,文章更新的不频繁,不过本周就会有所好转。面向大厂和大甲方公司的《大数据高阶训练营》还在持续,详情直接戳链接!本文的主人公是知识星球的一位球友,讲述自己秋招上岸的经历,供大家参考!主人公的一些背景和经历硕士,LeetCode 刷题量算上SQL一共300+,目前收到某大厂大数据开发Offer,个人满意,秋招结束。方向选择由于过去经历颇为丰富,有产品、算法、后端、运营经验,懂一点点Ja...

2023-10-17 09:40:58 1070

转载 下次面试官再问ClickHouse的优化手段就知道怎么答了!

300万字!全网最全大数据学习面试社区等你来!OLAP作为一个我们重度依赖的组件,它的优化也是我们在实际工作和面试中经常遇到的问题。数据模型和表结构优化规范化与反规范化权衡规范化是通过消除数据冗余来提高数据一致性的过程。规范化的优点是减少数据冗余,降低数据维护成本;但它可能导致查询性能下降,因为需要进行更多的表连接操作。反规范化是通过允许部分数据冗余来提高查询性能的过程。反规范化的优点是提高查询性...

2023-10-07 09:45:29 1181

原创 透过现象看本质,3个面试问题看面试官究竟要问什么?

300万字!全网最全大数据学习面试社区等你来!本篇文章较短,是一个同学的真实面试问题,这些问题看起来很简单,但是并不好回答。我们作为面试者回答这些问题,你的回答会直接影响你的面试评价。我们从这几个简单的问题来看下面试官在问什么?1. 线上实时作业的qps是多少?你以为的答案这个问题看起来非常简单,直接回答1万,10万等等。面试官真正想要的面试官想通过这个问题了解你的业务规模,数据规模,数据接入方式...

2023-09-25 18:04:48 1215

转载 字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

300万字!全网最全大数据学习面试社区等你来!/ 主流数仓架构 /目前主流的数仓架构—— Lambda 架构,能够通过实时和离线两套链路、两套代码同时兼容实时数据与离线数据,做到通过批处理提供全面及准确的数据、通过流处理提供低延迟的数据,达到平衡延迟、吞吐量和容错性的目的。在实际应用中,为满足下游的即席查询,批处理和流处理的结果会进行合并。Lambda 架构的优势集中体现在职责边界明确、高容错性与...

2023-09-18 11:45:07 1467

原创 来了来了,2023年某中大厂真实面经!

300万字!全网最全大数据学习面试社区等你来!本篇文章的面经是我辅导的一个同学的真实面试经历!2023年校招的宝子们拿走快看!第一个面经来自某头部大厂:1.做过的项目细节和遇到的问题(30分钟)所以说大家要对简历中的项目细节了如指掌!2.实习工作介绍(5min)3.数据倾斜有哪几种解决方法4.Hdfs小文件危害,元数据压垮namenode,怎么处理?5.为什么开启map—joi...

2023-09-14 09:50:52 1296

原创 站在大数据行业山顶看风景

大家好,我是你们的朋友王知无。从2022年开始应很多小伙伴的邀请和咨询,我以个人的名义开了自己的《面向国内Top企业的大数据训练营》。最初这个过程我的内心非常忐忑,从备课、直播、答疑、1对1指导,再到同学们找工作的过程中Offer比较,入职后线上问题和技术方案解答,每一步都付出了巨大努力。到今天为止,取得了非常瞩目的成绩!上面是最近几周内同学拿到的新的Offer!这个训练营主要是我自己打造的专门面...

2023-09-01 11:50:31 1401

原创 大厂招人五要素

300万字!全网最全大数据学习面试社区等你来!很多同学都想进入大厂或者大的甲方公司,尤其是大数据开发这个方向,岗位也集中在头部的这一批公司。这两年进入大厂的门槛也越来越高,那么进入这些公司有哪些条件?今天抽时间盘点一下进入大厂的几个核心要素,想进入大厂的同学好好听!1.教育背景985/211,QS排名前100的同学是特别受大公司欢迎的。因为较好的学历背景代表你的聪明程度、学习能力、新事物的接受能力...

2023-08-28 09:50:40 1349

转载 字节跳动基于DataLeap的DataOps实践

本文根据 ArchSummit 全球架构师峰会(深圳站)来自抖音数据研发负责人王洋的现场分享实录整理而成(有删减),本次分享主要包含字节跳动数据研发的模式与挑战、DataOps理念在字节的具象 、DataOps产品化及落地、最佳实践、未来展望五个部分,分享内容皆来自于字节跳动业务实践经验。字节跳动数据研发的模式与挑战中台工具+数据BP模式字节在落地DataOps的过程当中,与我们数据支持所采用的...

2023-08-22 11:50:09 1349

原创 StreamingWarehouse的一些思考和未来趋势

300万字!全网最全大数据学习面试社区等你来!一篇笔记。以Hudi、Iceberg、Paimon这几个框架为例,它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性,主要有几个方面:这些存储引擎是天然统一的批流一体存储。既支持批式访问完整Table数据,也支持先全量处理Table数据,然后对Changelog进行增量的流式处理;支持UPSERT流,这个很重要...

2023-08-21 17:59:42 1479

原创 Doris2.0时代的一些机遇和挑战!

300万字!全网最全大数据学习面试社区等你来!上个周五的时候,Doris官宣了2.0版本,除了在性能上的大幅提升,还有一些特性需要大家特别关注。根据官网的描述,Doris在下面领域都有了长足进步:日志分析数据湖联邦分析场景数据更新效率和写入资源弹性和存算分离其他面向企业用户的易用性特性在Doris出现这些能力之前,大家是没有机会免费用到这些能力的。数据库的这些能力集中在云平台上的一些付费数据库,不...

2023-08-14 09:45:48 1728

原创 基于Doris实时数据开发的一些注意事项

300万字!全网最全大数据学习面试社区等你来!最近Doris的发展大家是有目共睹的。例如冷热分离等新特性的持续增加。使得Doris在易用和成本上都有大幅提升。基于Doris的一些存储实时数仓在越来越多的场景中开始有一些实践。大家也看到了这种方案频繁出现在社区分享中。但是我们得客观看待这种方案,基于存储的实时数仓有优势也有他的劣势,生产环境中我们要谨慎评估个人的业务场景。这篇文章我结合个人的实践和思...

2023-08-07 11:55:59 1609

大数据面试大总结300页.zip

大数据面试大总结300页.zip

2021-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除