自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (15)
  • 收藏
  • 关注

原创 idea开发delta.io数据湖

delta.io是三大数据湖之一,Iceberg 和hudi. 国内人用的比较多,delta国外的大厂用的比较多,主要来源与databrack . 像苹果,adobe,阿里等公司用的是delta.io,相对来说比较成熟一些。通过idea的spark 操作delta.delta 存储用的是minio,没有用hadoop。idea maven 的pom.xml。

2023-12-25 11:33:57 762

原创 iceberg1.4.2 +minio通过spark创建表,插入数据

iceberg 是一种开放的表格式管理,解决大数据数据中结构化,非结构化和半结构化不统一的问题。主要是通过对表的管理实现增删改查,同时支持历史回滚(版本旅行)等操作。下层支持hadoop,s3,对象存储,上层支持hive,spark,flink 等应用。实现在中间把两部分隔离开来,实现一种对接和数据管理的标准。有这个标准,不管是谁建的表,都可以操作和访问。比如我用spark创建表,flink去读取的时候,可以读取到数据。在idea进行pom.xml配置。通过上面的例子,直接复制执行。

2023-12-25 11:21:04 985

原创 Iceberg1.4.2 java 表管理(DDL和DML)操作

iceberg 通过java 代码实现增删改查,不需要hadoop 相关组件

2023-12-25 11:11:00 502

原创 iceberg1.4.2+spark3.4.2+minio

iceberg,spark,minio

2023-12-21 16:06:10 442

原创 Iceberg java API +minio 开发web catalog

我们现在数据湖产品,开发基本上都是大数据人员操作,能不能java 开发,比如用java web 开发在线创建表,创建分区,在线修改表字段。做数据湖Iceberg的元数据管理呢,因为我们大部分的表修改希望通过应用修改,并查看应用。对java人员,最麻烦就是安装hadoop,hive,现在这个例子,不需要hadoop和hive,对Iceberg数据湖进行表管理开发。接下来将在window上,通过一个demo例子来实现java 版的iceberg开发和应用。下面。

2023-12-19 14:21:09 602

原创 编译apache atals 2.3报错

org.restlet.jee:org.restlet:jar:2.4.3 这个依赖。同时,错误信息中提到了 sun.security.validatorException 和 CertPathValidatorException,这可能是由于 SSL 证书验证失败导致的。具体来说,是关于 org.restlet.jee:org.restlet:jar:2.4.3 这个依赖。atlas依赖 org.restlet.jee,官方仓库中没有,需要提前安装在本地,保证编译过程顺利进行。

2023-12-12 16:09:18 567

原创 数据湖(iceberg,hudi,delta)三剑客生产环境选型

iceberg,hudi,delta 生产环境选型

2023-10-27 10:30:58 431

原创 什么是Headless BI

Headless BI是国外比较流行的一个概念,本质是将数据的语义层和应用层进行解耦,希望通过统一语义层的模式实现指标和模型的一处定义、多处使用。其实望能够为分析应用和业务场景提供统一的语言,降低数据服务的开发成本。原来的数据中台和和数据湖是直接提供数据:现在的:中间加了一个API层。

2023-10-25 15:53:54 393

原创 聊一下Data Fabric(数据编织)

当下,数据是企业数字化转型重要驱动因素,而随着业务的发展,企业的数据环境日趋复杂。在更高程度数字化要求下,企业必须使用一种新型的数据结构来应对企业数据资产日益加剧的多样化、分布式、规模、复杂性等问题。因此,数据编织(Data Fabric)应运而生。Gartner认为数据编织是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。作为一种新兴的数据管理和处理方法,数据编织能够基于网络架构而不是点对点的连接来处理数据。

2023-10-25 15:18:56 363

原创 Flink对接Delta 数据湖

目前Delta支持flink 的的写入和查询Flink/Delta Connector 是一个 JVM 库,用于从 Apache Flink 应用程序读取和写入数据到 Delta 表 利用。连接器提供恰好一次的交付保证。DeltaSink。

2023-10-25 14:26:00 143 1

原创 spark 3.5版本发布

此版本引入了更多 Spark Connect 正式发布的方案,例如 Scala 和 Go 客户端、分布式训练和推理支持,以及增强了结构化流式处理的兼容性;引入了新的 PySpark 和 SQL 功能,例如 SQL IDENTIFIER 子句、对 SQL 函数调用的命名参数支持、对 HyperLogLog 近似聚合的 SQL 函数支持以及 Python 用户定义的表函数;在开源社区的重大贡献下,此版本处理了 1,300 多个 Jira 工单。以下功能将在下一个 Spark 主要版本中删除。

2023-10-25 14:10:56 776 1

原创 数据湖Delta Lake 3.0.0发布

数据湖

2023-10-25 13:48:16 155 1

原创 zeppelin+minio+Delta Lake 配置

数据湖

2023-10-17 18:22:01 143

原创 下一代工作流-数据管道

工作流,数据管道 dagster ,Prefect

2023-10-05 09:40:05 240 1

原创 zeppelin 0.10.1 安装spark3和flink 1.14

zeppelin 作为数据湖的交互式分析平台,可以在上面写sql,python,java等多种语音和数据库的交互式分析工具,可以通过一个个片段进行分析,支持片段上下文,支持参数和结果传递,不需要进行IDE进行编程,直接在页面上操作。

2023-10-02 23:17:35 260 1

原创 数据湖的分区和模型构建

大数据平台,数据湖,数据湖分层

2023-09-21 16:25:49 109 1

原创 通俗易懂介绍数据湖和数仓

通过上图,可以清洗的看到数据湖的作用。那大家会问,数据湖根数仓到底有啥区别,那我们首先要看一下,数据仓库长什么样子。下图是数据仓库的的流程:我们以我们的工厂举例:我们的原材料:各种食材来源。我们采购渠道:统一的采购和过滤,按需采购我们的工厂:先产品设计(模型设计),在根据设计进行加工(ETL过程),行程标准化(数据治理(要质量验证))我们的集市:产品标准的专门店(专业的营业员,专业的介绍,统一的口径)。

2023-08-24 17:05:30 192 1

原创 揭露一个Spark连接Hive的bug

spark 读取hive 只能读取表头,不能获取数据。

2022-07-08 00:17:33 372 1

原创 元宇宙终极目标是打造六界

元宇宙终极目标是打造六界

2022-06-06 10:24:42 178 1

原创 spark和flink对比

最近网上和各大公司在对比spark 和flink , 也有一部分人,演讲时不分析代码原理,不根据事实,直接吹嘘flink比spark好,flink 能干掉spark 的话,今天就跟大家从技术,应用和未来发展角度对两个产品进行对比。先说产品特性:1.spark中批处理使用 RDD, 流处理使用 DStream,flink中批处理使用 Dataset, 流处理使用 DataStreams。目前flink 在做Dataset 和DataStreams 合并,实现统一API 服务,spark底层是基于RDD

2022-04-25 12:01:10 1889 2

原创 疫情环境下,远程办公成了趋势

疫情条件下,远程办公成了趋势,有几点可以大家一起分享:1.远程办公可以降低成本,企业不用租高档写字楼,员工不用租房子,减少生活成本,一个在北京2万的元员工,在其他城市买房,除了给房东打工,还要给银行打工,收益-成本,最后根本不剩钱。这就是企业高成本,员工高成本,最后都没有利润。同时也不用为了户口,买房摇号,买车摇号发愁。2.如果员工的工作产生的税务,可以交到当地政府,可以增加当地政府收入,比如...

2020-02-17 12:47:08 1439 4

原创 IP时代,5G,区块链会给你带来哪些改变

ip时代,你将要干嘛,你要何去何从?最近大家都在说北京写字楼空置率在上升,是不是房价真的要下跌了?像马云说的房价如葱?其实不是,是ip时代到来(ip是具有独立知识产权的东西,通俗意义上说,专业人做专业的事,具有专业价值) 。在短视频 ,5G的到来,ip的就不再分地域限制,大家都可以各回各家,各找各妈。你在老家可以通过短视频做引流,买东西。何必跑到北上广花很高的成本,坐2个小时地铁去工作...

2019-11-26 08:35:31 235 1

原创 Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error

在spark 2.4中报ArrayIndexOutOfBoundsException 原因是Spark 2.4.0中引用的paranamer版本是2.7导致问题。在spark-core / spark-sql之前添加以下依赖项为我解决了这个问题。<dependency> <groupId>com.thoughtworks.paranamer</gro...

2018-11-23 13:27:46 971

原创 hadoop3.0x 后要比spark快10倍!

hadoop3.0x 后要比spark快10倍!

2015-02-04 17:15:08 1967 2

原创 大数据Spark实战高手之路职业学习路线图

从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台Spark,从Spark框架编写和开发语言Scala开始,到Spark企业级开发,再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试,一次性彻底掌握Spark,成为云计算大数据时代的幸运儿和弄潮儿,笑傲大数据职场和人生!学习条件1,掌握Scala;2,精通Spark企业及开发;3,精通Spark框架源码实现;4

2014-12-01 15:32:07 915

原创 用java 项目链接hbaes 容易出现的错误!

2014-10-21 16:08:37,580 WARN  [main] util.NativeCodeLoader (NativeCodeLoader.java:(62)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable2014-10

2014-10-21 16:12:38 748

原创 html5的强大之处

我们所知道的html5的特性:Canvas,From, 本地存储,本地数据库 离线应用 webworket, webscoket其实看上去,跟flash比没什么优势,但是更重要的是有太多技术的支持和集成。svg:svg是一种矢量图,在html5没出来之前,它是做为web浏览器的一种图形界面,不过要基于插件 adoble svg  view   svg  也是一种xml文档格式的元素

2011-12-30 10:14:49 628

原创 Actionscript嵌入到Html5中

最新消息Actionscript 可以像javascript潜入html中

2010-09-10 20:49:00 244

原创 Flex和sliverlight的未来之路

flex 在成长的过程中历经沧桑,但是始终离不开flash在后台做后盾,他的后台代码是Actionscirp   但是sliverlight的后台代码是.net 的技术 所以说slilverlight学的时候,只要你会.net就可以非常快的上手,flex 你以前学过flash。你也可以很快上手 

2010-01-27 12:13:00 240

apache atlas 2.3 hook 包

包括hive,hbase,impala,hbase,sqoop 等

2023-12-13

apache atlas 2.3 安装包

apache atals 安装包,编译好的,centos7.9

2023-12-13

apache nifi使用指南1.docx

nifi 基于工作流数据抽取调度服务,介绍nifi的功能,安装步骤,使用指南等,支持ftp,sqoop,datx,https,flink等

2020-06-30

spark内核揭秘spark j讲解

spark的内核解读,学习spark要学会看源码,spark 的core ,spark rdd,spark sql 等详细内核讲解,详细介绍内容内容使用要求。

2014-12-01

jquery grid 框架 jqgrid_demo40

jquery grid 框架 jqgrid_demo40jquery grid 框架 jqgrid_demo40

2011-08-30

css完整 chm

css完整 chm

2011-08-30

flex grid chart 图表grid大全

可以动态读取execle文件,用flex和后台数据交互

2011-08-30

jquery 1.4.2 中文帮助文档大全

jquery 1.4.2 中文帮助文档大全 jquery 1.4.2 中文帮助文档大全 jquery 1.4.2 中文帮助文档大全

2011-08-30

flex spring

sping 注入flex ,flex 程序开发

2010-03-01

spring flex

sping 可以注入flex 实现flex和后台结合

2010-03-01

c#实现word批量打印.rar

c#(Asp.net)实现万能打印技术 ,适合各种打印机

2010-02-03

flex4 入门与精通

flex4新出的技术可以分10大类,对3.0一些改变

2009-09-20

flex3.0权威指南下载

flex3.0权威指南下载 中文FLEX3.0教材,可以免费下载

2009-05-06

flex3.o教材(国外的)

国外的flex 有很多实例教程,可以分享一下

2009-05-06

flex3.0教材下载

cmd讲解,里面有很多的实例内荣让你变成 一个flex高手

2009-05-06

flex连接数据库的三种方法

flex连接数据库的三种方法

2009-05-02

flex好的连接数据库解析

让你和后台能很好的连接,一个不错的pdf解析,能很好的和asp,jsp,php连接

2009-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除