自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Apache DolphinScheduler开源社区

新一代大数据任务调度 - Apache DolphinScheduler社区,致力于“解决大数据任务之间错综复杂的依赖关系,使整个数据处理过程可直观感知”。已累计有IBM、腾讯、360、美团等 400+ 公司在生产上使用。

  • 博客(420)
  • 资源 (3)
  • 问答 (29)
  • 收藏
  • 关注

原创 数据平台调度升级改造 | 从Azkaban 平滑过度到Apache DolphinScheduler 的操作实践

Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的,但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能,导致用户上手难体验差。在技术层面,架构过时,持续迭代难度大。基于这些情况,经过竞品对比和调研后,Fordeal数据平台新版系统决定基于Apache DolphinScheduler进行升级改造。...

2022-06-16 18:00:04 714

原创 金融任务实例实时、离线跑批,Apache DolphinScheduler 在新网银行的三大应用场景与五大优化...

在新网银行,每天都有大量的任务实例产生,其中实时任务占据多数。为了更好地处理任务实例,新网银行在综合考虑之后,选择使用 Apache DolphinScheduler 来完成这项挑战。如今,新网银行多个项目已经完成了实时与准实时的跑批,指标管理系统的离线跑批,应用于离线数据开发和任务调度、准实时数据开发和任务调度,以及其他非 ETL 用户定义数据跑批三类场景中。为了更好地...

2022-05-16 18:00:22 1074

转载 DolphinScheduler 源码剖析之 Master 容错处理流程

点击上方蓝字关注ApacheDolphinSchedulerApacheDolphinScheduler(incubating),简称”DS”,中文名“海豚调度”(海豚聪明、人...

2020-11-18 21:00:00 1590

原创 用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

工作流启动,成功!工作流一直在跑相应的任务实例也在跑!

2024-04-17 18:32:36 588

原创 这篇 DolphinScheduler on k8s 云原生部署实践,值得所有大数据人看!

Apache DolphinScheduler 的高效云原生部署模式,比原始部署模式节省了95%以上的人力资源和工作时间,提升了部署效率和成本效益。通过集成 GitOps 技术,我们提升了Apache DolphinScheduler 的 DevOps 管理能力,改善了软件交付效率和安全审计能力。通过集成新的云原生技术,我们为 Apache DolphinScheduler 增加了水平扩展、健康探测和滚动部署等功能,提升了其灵活性和适应性。

2024-04-17 17:26:18 624

原创 【安装部署】Apache SeaTunnel 和 Web快速安装详解

Apache SeaTunnel里面的Connector对应的jar包需要自己下载,在执行自动下载jar包前,进入apache-seatunnel-2.3.3,查看vim bin/install-plugin.sh内容,主要内容就是下载jar包,默认是从mvvm下载,下载速度太慢,我这边安装了maven,并且配置了阿里云仓库,因此可以直接将下图中命令替换,从maven中下载,这个文件夹下,由于我Mysql是使用Docker安装,在宿主机无法执行命令,因此无法直接在服务器端安装,所以我将。

2024-04-16 12:20:24 376

原创 裁员了!别错过2024年大数据工程师必备的10项技能

在当今快速发展的世界中,数据被视为新的石油。随着对数据驱动洞察的日益依赖,大数据工程师的角色比以往任何时候都更为关键。这些专业人员在管理和优化组织内的数据操作中扮演着至关重要的角色。在本文中,我们将探索2024年大数据工程师必须具备的十项技能。

2024-04-16 10:58:51 276

原创 Apache DolphinScheduler 社区 3 月月报

社区3月月报来啦!

2024-04-16 09:03:41 707

原创 用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

工作流启动,成功!工作流一直在跑相应的任务实例也在跑!

2024-04-15 16:06:04 772

原创 【导师招募】Apache DolphinScheduler 社区又又又入选开源之夏啦!

很高兴和大家宣布,Apache DolphinScheduler 社区今年再次成功入选入选由中国科学院软件研究所开源软件供应链点亮计划发起的“”活动。此活动旨在鼓励和引导在校学生积极参与开源软件的开发和维护,进而培养和挖掘更多优秀的开发人才,助力于开源社区的持续繁荣和发展。

2024-04-11 10:41:12 516

原创 【用户案例】太美医疗基于Apache DolphinScheduler的应用实践

我们是一家专注于生命科学产业的运营平台公司,致力于提供医疗行业解决方案。作为一家基于AI大数据云平台的药品全生命周期解决方案商,我们提供从药物研发到上市的全流程服务。我们的服务范围涵盖医药研发、药物警戒、医药预警等多个领域。

2024-04-09 15:47:50 1049

原创 海豚调度任务类型Apache SeaTunnel部署指南

Apache DolphinScheduler已支持Apache SeaTunnel任务类型,本文介绍了SeaTunnel任务类型如何创建,任务参数,以及任务样例。

2024-04-02 16:25:07 888

原创 2024 开源数据工程生态系统全景图

虽然生成式人工智能和ChatGPT带来的沸沸扬扬的炒作令科技界为之一振,但在数据工程领域,2023年仍然是一个令人振奋和充满活力的一年,数据工程生态系统变得更加多样化和复杂化,系统中的所有层面都在不断创新和演进。随着各种开源工具、框架和解决方案的持续涌现,数据工程师的选择也越来越多!在这样快速变化的环境中,紧跟最新技术和趋势的重要性不言而喻。选择合适的工具来完成合适的工作是一项至关重要的技能,确保在不断变化的数据工程挑战面前保持效率和相关性。

2024-04-02 16:03:51 528

原创 【干货】Apache DolphinScheduler2.0升级3.0版本方案

1. 3.1.1 在测试sql任务时 ,同时启动上百sql 任务时,会出现sql 任务报错,导致大量任务无法正常运行,询问社区大佬,这是DS本身bug导致,虽然此现象在3.0.1也有出现,不过出现几率较小。原因:直接使用官网提供的升级脚本,无法正常运行,有较多问题,目前我们改造后,升级的数据库信息没问题,运行时数据信息有损坏,导致较多问题,所以为安全稳定,不直接使用官网提方案。此次升级已经验证可行性,已在生产环境验证上线,对已有的问题,并给出了合理的解决方便,故写此篇文章,供各位同学参考。

2024-03-26 09:29:16 729

原创 Apache DolphinScheduler 社区开启讲师招募,赶快加入吧!

随着Apache DolphinScheduler在全球范围内的快速发展,我们的用户群体和社区活动也在不断扩大。为了进一步丰富我们的社区内容,分享更多有价值的知识和经验,我们诚挚地邀请您加入我们,成为Apache DolphinScheduler社区的分享嘉宾。

2024-03-22 13:51:38 742

原创 【客户案例】白鲸开源WhaleStudio助力某证券公司打造全面数据解决方案:探析DataOps平台革新与应用

公司信息技术部、基金子公司、期货公司的数据开发人员基于DataOps平台,对公司经纪管理、投资银行、经营分析、托管等业务的数据需求进行开发、编排、调度,运维,平台应用于公司反洗钱、实时盈亏计算、监管报送、数据精算等多个核心应用,累计编排定义工作流超过3000个,上线任务数量接近16000个,交易日平均运行工作流实例数量超过5000个,日均任务执行任务数量超过20000个。租户级的资源,如数据源、环境、worker分组、租户内特殊定时、日历、牌等,用户自定义资源默认在租户内项目下可见、可以使用。

2024-03-22 13:47:42 1024

原创 5分钟教你使用idea调试SeaTunnel自定义插件

在用Apache SeaTunnel研发组件过程中,发现社区关于本地调试SeaTunnel文章过于简单,很多情况没有说明,于是根据自己遇到问题总结这篇文档。,希望对大家有所帮助!使用的引擎为(不需要下载,SeaTunnel中有加载依赖),输入输出方式为:mysql to mysql。

2024-03-20 17:37:29 943

原创 【故障排查】10分钟解决Quartz重复调度的疑难杂症

我司使用Apache DolphinScheduler作为调度框架很久了,感兴趣的小伙伴可以看看这些干货文章:因为之前监控到会出现重复的调度的问题,所以此文记录排查重复调度问题的全过程,希望对社区其他的小伙伴能够起到抛砖引玉的作用!more注:本文使用的DolphinScheduler 3.1.1的版本。数据库使用的Tidb数据库,版本6.5.0,数据库的隔离级别是默认的RR(Read Committed)。Quartz版本为2.3.2,存储模式为JDBC。

2024-03-18 16:27:18 760

原创 为什么90%的人说医疗行业没有“大”数据?

Apache DolphinScheduler通过提供友好的用户界面和灵活的任务配置,显著降低了ETL任务的复杂度,使得数据抽取、转换和加载过程变得更加高效和简单。相比于自研或市面上的调度工具,能以其配置的简便性和强大的调度能力脱颖而出,提供一个更加简洁、高效和可靠的解决方案,也是医疗行业用户在数据处理和任务调度方面的需求。的开发者,还是医疗行业的IT专家和数据科学家,或者是Apache DolphinScheduler的现有和潜在用户,我都建议你来听听,从中获得全新的灵感。

2024-03-14 09:33:04 930

原创 证券公司如何应对大数据调度系统的高负载挑战

​在金融行业,数据处理和任务调度是日常运营的重要组成部分。随着业务量的激增,日益增长的任务量和复杂的资源管理需求,要求该系统不仅要稳如磐石,还需灵活高效。本文将探讨某证券公司在应对这些挑战时所采用的策略,并着重介绍WhaleScheduler如何成为该案例解决方案的关键。

2024-03-14 09:09:15 752

原创 Apache DolphinScheduler-3.2.0集群部署教程

​ 此处使用 MySQL 8.2.0版本,对应使用 JDBC 驱动为 mysql-connector-j-8.2.0.jar,将该驱动移动至 DolphinScheduler 的每个模块下的 libs 目录下。此时,已经将 Apache DolphinScheduler 安装到配置中指定的 /opt/soft/dolphinscheduler-3.2.0 目录下了。安装完成后,此时安装用到的 apache-dolphinscheduler-3.2.0-bin 文件就没用了。1.Master节点。

2024-03-11 15:16:31 1360 1

原创 奇富科技:大数据任务从诊断到自愈的实践之路

比如在这个诊断建议中,就说明“数据同步,目前只支持orc格式,请创建orc格式的hive表”,用户就明白可以将自己的Hive表格式转为orc格式解决这个异常。还有一种情况是,数据质量的弱校验规则,数据质量比对没有通过。还有“同步0记录”诊断规则,比如DataX将Hive表数据同步到Mysql时,如果同步了0条数据,虽然同步任务成功了,我们也会在工作流页面提示出来。其次,通过自助查询提交的Spark任务虽然还在运行中,没有失败,但是从Spark指标或者日志中已经发现了数据倾斜、数据膨胀、OOM等。

2024-03-06 16:22:56 580

原创 精细调度:Apache DolphinScheduler脚本深度解析

在现代数据处理和工作流管理中,Apache DolphinScheduler以其灵活性和强大的调度能力受到开发者的广泛欢迎。本文将逐步解析DolphinScheduler的关键脚本,希望能提供一个详尽的操作指南,帮助大家掌握安装、配置和操作的每一步。建立在./bin/env/下目录的配置文件建立好的前提。

2024-03-06 13:56:39 833

原创 【反哺开源】我们计划把“这个”商业化功能贡献给Apache DolphinScheduler

GitOps 是一种基于版本控制系统(通常是Git)的持续交付(Continuous Delivery)和基础设施管理的方法。它的核心理念是将整个系统的状态和配置存储在版本控制库中,通过Git的特性实现对系统的自动化管理和持续交付。Infrastructure as Code: GitOps强调使用代码来描述和管理基础设施。通过在版本控制库中存储基础设施代码,可以轻松地重建、复制和修改整个环境。声明性配置: 使用声明性配置,定义系统的期望状态而非详细的执行步骤。

2024-02-29 10:18:40 427

原创 如何用CDH+Apache DolphinScheduler开启Kerberos

如遇到某些命令没有权限或者无法通过TOKEN认证等问题,可以在kerberos服务主机上,创建对应的服务用户,进行keytab认证(参见上面用户认证流程),通过对应的服务认证,完成操作命令。在进行Apache DolphinScheduler安装时,主要在install_config.conf的配置,参见官网的配置流程即可,如果已经安装完成,可以修改common.properties的配置文件,这里主要说kerberos的配置部分,其他部分这里不赘述。资源存储选择的HDFS方式(这里其他配置参考官网)

2024-02-28 15:40:47 552

原创 白鲸开源科技与瀚高基础软件完成产品兼容性认证,开启数据管理新篇章

北京白鲸开源科技有限公司(以下简称“白鲸开源”)今日宣布,其旗舰产品WhaleStudio套件已与瀚高基础软件股份有限公司(以下简称“瀚高软件”)旗下的IvorySQL数据库管理系统V3.0完成深度兼容性认证。此次合作标志着两家领军企业在数据管理领域的紧密联合,为用户提供更加稳定、高效的数据处理解决方案。通过双方的紧密合作,WhaleStudio套件已经可以顺利安装、配置在IvorySQL数据库管理系统V3.0上,并在功能、性能和安全性方面通过了全面的测试。

2024-02-27 15:37:09 490

原创 2024年Apache DolphinScheduler RoadMap:引领开源调度系统的未来

非常欢迎大家来到Apache DolphinScheduler社区!随着开源技术在全球范围内的快速发展,社区的贡献者一直致力于构建一个强大而活跃的开源调度系统社区,为用户提供高效、可靠的任务调度和工作流管理解决方案。在过去的一段时间里,我们取得了一些重要的成就,但我们的愿景远未实现。为了更好地满足用户需求和推动项目的发展,我们在2024 新春伊始,制定了以下Roadmap,将在未来的版本中实现一系列激动人心的功能和改进。

2024-02-26 16:47:02 529

原创 Apache DolphinScheduler 3.2.1 版本发布:增强功能与安全性的全面升级

近期,Apache DolphinScheduler 社区激动地宣布 3.2.1 版本的发布。此次更新不仅着力解决了前一版本(3.2.0)中遗留的问题,而且引入了一系列的功能增强和优化措施。原先的问题主要源于部分重要代码在发布过程中未能成功合并(cherry-pick),加之这部分代码的合并过程较为复杂,因此,3.2.1 版本基于 2024年2月的dev分支代码,

2024-02-21 10:15:15 1243

原创 Apache DolphinScheduler数仓任务管理规范

得益于DS优秀的特性,在对数仓任务做运维和管理的时候,往往比较随意,或将所有任务节点写到一个工作流里,或将每个逻辑节点单独定义一个工作流, 缺少与数仓建模对应的任务管理规范;在构建调度任务的时候,用户容易将任务血缘和数据血缘混淆,希望在构建数仓生命周期的时候,通过任务血缘呈现出数据血缘的关系,这导致丢失了数据建模规范的分层管理。依据数据模型的表设计,想将DS的任务血缘当简单数据血缘使用需求的,可以在这一个工作流里将节点关联,数据清理和任务血缘不冲突,还可以顺便检测数据清理情况。

2024-02-19 15:50:25 781

原创 Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案

看到Apache DolphinScheduler社区群有很多用户反馈和讨论这块问题,针对不兼容的问题,不仅需要自己重新编译各一个新包,而且因为默认是使用zk-3.8的配置,所以会出现不兼容问题。我的位置是 D:\IdeaProjects\dolphinscheduler-3.2.0-release\dolphinscheduler-dist\target。我不知道配置文件的指定的位置,在IDEA开发工具中按ctrl+shift+f组合键, 在项目所有文件中搜索:zookeeper.version。

2024-02-18 12:11:19 1223

原创 【兼容认证】白鲸开源与银河麒麟高级服务器操作系统成功通过测试

北京白鲸开源科技有限公司(以下简称"白鲸开源")荣幸宣布,白鲸开源旗下产品 WhaleStudio V2.4 已成功通过与麒麟软件有限公司旗下的银河麒麟高级服务器操作系统产品的兼容性测试。麒麟软件有限公司的银河麒麟高级服务器操作系统(飞腾版)V10和银河麒麟高级服务器操作系统(鲲鹏版)V10。这一兼容认证确保了产品在性能、可靠性以及通用兼容性方面满足用户的关键性应用需求。

2024-02-01 10:16:18 503

原创 Apache DolphinScheduler 技术详解进阶(资源中心)

Apache DolphinScheduler 作为一个高效的任务调度和管理平台,通过其强大的内置参数和资源中心,为用户提供了灵活的时间调度和资源管理功能。此外,文章还详细阐述了如何在 DolphinScheduler 中引用依赖资源,例如使用资源中心管理文件和引用脚本,以 Shell 任务为例进行说明。该函数用于加减月份, 第一个入口参数为[yyyyMMdd],表示返回时间的格式 第二个入口参数为月份偏移量,表示加减多少个月。下面以 Shell 任务为例,演示如何引用资源中心的其他脚本。

2024-01-31 10:46:49 1074

原创 白鲸开源荣膺2023年度大数据产业最具投资价值企业奖项

北京时间2024年2月20日,中国领先的开源技术公司,白鲸开源科技有限公司(以下简称"白鲸开源")荣幸宣布,该公司获得了第六届 "年度金猿季大型主题策划活动" 颁发的 "2023大数据产业年度最具投资价值" 奖项。这一殊荣是对白鲸开源在大数据领域取得的卓越成就和突出贡献的认可。

2024-01-31 10:20:36 188

原创 【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件

白鲸开源是一家专注于云原生DataOps领域的开源公司,由多名Apache Software Foundation Member、Apache DolphinScheduler和Apache SeaTunnel核心成员,以及全球范围内的数据领域专家创立。WhaleStudio 提供简洁的IDE编辑界面、强大的调度运行功能、调度血缘分析、运维监控以及企业级权限管控,已广泛应用于金融、电信、零售、互联网等多个行业的实际业务中。这一认证确保了两个产品之间的协同工作,为客户提供了更大的灵活性和选择权。

2024-01-24 11:09:53 395

原创 Apache DolphinScheduler社区新晋Committer:伏长海的开源之旅

大家好,我是伏长海,目前在珍岛集团担任大数据开发工程师职位!fuchanghai在算法平台后端的研究领域耕耘了三年,任务调度方面也有一年半的深入探索。闲暇时,平时喜欢睡懒觉,偶尔阅读书籍,以此充实自己的生活。

2024-01-22 17:21:34 575

原创 Apache DolphinScheduler:深入了解大数据调度工具

都会遍历所有的 worker,使其 current\_weight+weight,同时累加所有 worker 的 weight,计为 total\_weight,然后挑选 current\_weight 最大的作为本次执行任务的 worker,与此同时,将这台 worker 的 current\_weight-total\_weight。在这种架构下,集群中的管理者是被动态选择出来的,而不是预置的,并且集群在发生故障的时候,集群的节点会自发的举行"会议"来选举新的"管理者"去主持工作。

2024-01-22 17:11:24 608

原创 Apache DolphinScheduler 3.1.8 保姆级教程【安装、介绍、项目运用、邮箱预警设置】轻松拿捏!

DolphinScheduler 的数据源中心(Data Source Center)是一个重要模块,主要用于集中管理和配置各种数据源的连接信息,为工作流和任务提供可靠的数据访问。数据质量任务是用于检查数据在集成、处理过程中的数据准确性。本版本的数据质量任务包括单表检查、单表自定义SQL检查、多表准确性以及两表值比对。官方说明:数据质量任务的运行环境为Spark2.4.0,其他版本尚未进行过验证,用户可自行验证。资源中心介绍。

2024-01-16 15:13:43 1450

原创 【金猿人物展】白鲸开源CEO郭炜:数据要素是未来数据“新能源”产业么?

纵观2023年中国数据行业发展与2024年数据产业趋势,就不得不提到2023年全年国家全年强调的数据要素的概念以及在2023年12月中国国家数据局等17个部门联合印发了《“数据要素×”三年行动计划(2024—2026年)》。从2020年-2023年政策发展脉络来看,政府整体思路上让数据要素成为企业的“新能源”,从而促进企业数智化发展活力,带动整体上下游整体产业升级。那么,数据要素与数据商融资真的可以促进中国数据相关产业像中国新能源造车新势力一样弯道超车,从而带动整个产业升级么?

2024-01-15 16:42:46 1119

原创 作业帮基于 DolphinScheduler 的数据开发平台实践

摘要随着任务数量、任务类型需求不断增长,对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到 Apache DolphinScheduler 的实践经验,以及对数据开发平台的一些思考。

2024-01-11 09:52:43 935

原创 海豚²来了丨DolphinDB 集成 DolphinScheduler,任务调度更轻松

本文选取了 20230201 上交所某股票 level 2 委托数据、快照数据、成交数据作为演示。以下是逐笔委托表在DolphinDB的结构。字段名字段含义数据类型(DolphinDB)ChannelNo通道代码INTApplSeqNum消息记录号LONGMDStreamID行情类别INTSecurityID证券代码SYMBOL证券代码源INTPrice委托价格DOUBLEOrderQty委托数量INTSide委托买卖方向SYMBOLTradeTime。

2024-01-08 17:13:26 843

Apache DolphinScheduler高效支撑企业大数据核心业务 - 代立冬.pptx

新一代开源大数据任务调度 Apache DolphinScheduler 如何高效支撑企业大数据核心业务

2020-11-30

新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap

DolphinScheduler 介绍 DolphinScheduler 应用案例 1.3.3 新版本发布 近期 Roadmap 参与开源

2020-11-24

开源时代

2021-03-31

Apache DolphinScheduler的全球交流工具是?

2021-01-28

DolphinScheduler Docker 镜像仓库在?

2021-01-26

工作流定义执行后 为啥需要到工作流实例 再走任务实例? 能否直接省去工作流实例?

2021-01-04

欢迎大家来社区提问哈,看看遇到了什么问题?

2020-12-31

使用 mvn clean package -Prelease 编译后并未找到编译好的二进制部署包?

2020-12-22

想参与贡献,不知道该如何参与?

2020-12-21

DolphinScheduler里的监控页面里显示的Zookeeper数据全是-1,怎么破?

2020-12-15

上游依赖未成功,下游任务可以一直等待么?

2020-12-14

Apache DolphinScheduler准备什么时候申请毕业,成为顶级项目呢?

2020-12-08

哪里有关于 DolphinScheduler 的分享(PPT | 视频)?

2020-12-08

DolphinScheduler 官方公众号上有各种部署、使用及原理源码分析视频,欢迎关注

2020-12-04

想参与社区贡献,不知如何参与?

2020-12-04

DolphinScheduler支持mysql 8 作为数据库么?

2020-12-03

DolphinScheduler单机部署有教程么?

2020-11-30

在哪里下载DolphinScheduler安装包呢?

2020-11-27

为什么要参与开源贡献?

2020-11-27

Python 任务如何设置 Python 的版本?

2020-11-26

DolphinScheduler流程定义有几种启动方式

2020-11-26

DolphinScheduler的用户案例

2020-11-25

DolphinScheduler 主要能力体现在哪些方面?

2020-11-25

DolphinScheduler有多少家公司在生产上使用?

2020-11-25

DolphinScheduler系统支持哪些邮箱?

2020-11-23

DolphinScheduler 服务介绍及建议运行内存

2020-11-23

遇到问题,如何得到社区的帮助

2020-11-23

DolphinScheduler项目的官网地址是?

2020-11-23

如何参与DolphinScheduler社区?

2020-11-23

如何在线试用Demo?

2020-11-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除