自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 资源 (18)
  • 收藏
  • 关注

原创 【大话Presto 】- 核心概念

Presto(PrestoDB)是一个FaceBook开源的分布式MPP SQL引擎,旨在处理大规模数据的查询和分析问题。传统数据库系统(eg:Hive)在面对大规模数据和复杂查询需求时存在限制,如数据规模限制、查询速度慢、数据源集成困难等问题。本文主要介绍下Presto基本的核心概念。

2023-11-17 18:02:13 274

原创 【大模型】2万字带你快速入门最热门LLM应用开发框架LangChain

LangChain是以大型语言模型(LLM)为核心的开发框架,旨在为自然语言处理(NLP)领域带来革新。项目始于2022年10月的开源项目,迅速转变为初创公司,并吸引了大量关注和投资。LangChain提供Python和Node.js版本,让开发者能够快速上手LLM应用开发,解决了现有人工智能应用开发中的痛点,并极大地提高了开发效率。作为LLM应用架构的一部分,LangChain整合了LLM模型、向量数据库、交互层Prompt、外部知识和工具,为用户提供了自由构建LLM应用的平台。随着不断的迭代和优化,L

2023-11-11 23:20:02 171 2

原创 Presto资源管理之Resource Groups And Selector

Presto 是一个用于大数据查询和分析的开源分布式 SQL 查询引擎。在Presto中,资源组(Resource Groups)可以用来管理和分配 Presto 集群的资源。资源组可以用于控制 Presto 查询的优先级和资源分配。

2023-11-10 13:43:30 323 1

原创 OpenAI开发者大会掀起风暴:GPT模型价格狂降50%,应用商店即将亮相,AI技术将引爆全球!

OpenAI首届开发者大会于11月7日在旧金山盛大召开,吸引了整个硅谷的开发者。自2007年乔布斯的iPhone改变世界以来,硅谷从未对任何活动如此兴奋。一年前的11月30日,OpenAI发布了ChatGPT,这款AI驱动的聊天机器人在两个月内吸引了1亿用户,创下了用户增长速度最快的历史记录。然而,ChatGPT的增长后来逐渐放缓,这也是所有生成式AI产品都面临的问题:如何获得新的增长动力?今天在开发者大会上,OpenAI提出了解决方案:让生成式AI更便宜、更个性化,并让其无处不在。

2023-11-08 22:32:10 448 9

原创 presto插件机制揭秘:探索无限可能的数据处理舞台

摘要: “开启数据处理新纪元:探索Presto插件的无限可能”本文将带领读者一同探索Presto插件机制的魅力。插件机制是Presto实现自定义拓展和功能扩展的关键。我们将详细介绍Presto插件的定义、安装和使用,并深入了解插件机制的内部工作原理。了解插件机制如何提供灵活性和可定制性,并演示如何编写和注册自定义的插件。通过使用插件,你将能够强化Presto的数据处理能力,让你的工作事半功倍。让我们一同开启数据处理的新纪元,探索Presto插件的无限可能!

2023-11-03 14:47:46 1452 31

原创 01 presto 概述: 特性 优缺点 场景 架构

Presto是一款开源的分布式并行计算(MPP)引擎,主要适用于大数据领域GB~PB量级数据源的秒级分析查询场景需求。- Presto的产生是为了解决MapReduce模型太慢且不能通过BI等工具展现HDFS数据的问题- Presto是一个计算引擎,它不存储数据,主要通过丰富的Connector,获取第三方的数据,并支持扩展

2023-02-27 11:36:10 1390 2

转载 【Air2phin】Airflow 一键迁移 Dolphinscheduler 工具

调度系统迁移工具 Air2phin 宣布开源。借助 Air2phin,用户可 2 步将调度系统从 Airflow 迁移至 Apache DolphinScheduler,为有调度系统迁移需要的用户带来极大便利

2023-02-24 23:03:58 295

转载 探究Presto SQL引擎-巧用Antlr

探究Presto SQL引擎-巧用AntlrAntlr应用之presto案例

2022-12-11 12:11:15 503

原创 计时器Timing Wheel 时间轮算法

计时器对于故障恢复、基于速率的流量控制、调度算法、控制网络中的数据包生命周期至关重要重要。 而一般计时器的实现维护成本比较高,比如JDK自带的 Timer、DelayQueue对于任务的进出其时间复杂度为O(logN)。 对于要求高性能且需要保证高频繁大量操作任务的优先级框架,比如Kafka、Netty等框架,重排序的时间复杂度O(logN)是不能满足其要求的。而基于一种时间轮的算法可以实现将这种重排序的时间复杂度降为O(1)。

2022-12-03 14:10:47 648 2

原创 任务调度之ScheduledThreadPoolExecutor源码分析

任务调度之ScheduledThreadPoolExecutor源码分析jScheduledThreadPoolExecutor 相比于Timer,ScheduledThreadPoolExecutor 其实就是多线程版的Timer,主要解决的就是多任务执行相互影响的问题。

2022-11-13 08:19:49 530 3

转载 知乎案例分享: 万字详解用户画像与实时数仓的架构与实践

万字详解用户画像与实时数仓的架构与实践关键词:数据仓库,Apache Doris,用户画像,实时数据

2022-11-12 18:23:41 554

原创 任务调度之Timer定时器源码分析

任务调度之Timer定时器源码分析

2022-11-12 18:09:27 710

原创 【面经】- 上汽新能源车企JAVA&大数据架构师实战面经分享

【面经】- 上汽新能源车企30K-60K架构师实战面经分享java架构师面经大数据架构师面经数据开发架构师面经大数据平台架构师面经

2022-09-24 10:58:39 1942 35

转载 【ClickHouse】-03.副本与分片-分片篇

【ClickHouse】-03.副本与分片-分片篇数据分片distributed原理解析

2022-09-24 08:45:00 1152

转载 【ClickHouse】-02.副本与分片-副本篇

【ClickHouse】-02.副本与分片-副本篇数据副本zookeeper配置方式replicatedMergeTree原理解析副本操作流程

2022-09-24 08:30:00 2553

原创 【ClickHouse】-01.万字带你快速入门使用CK

【ClickHouse】-01.万字带你快速入门使用CKClickHouse安装;ClickHouse引擎;ClickHouse数据类型;ClickHouse Sql 案例操作

2022-09-18 14:00:39 3307 92

原创 【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享要做好数据治理个人认为的有两个方向可以去尝试:1.像网易做的一体化方案,直接从数据开发,数据建模源端就开始进行管控 2.先定义好标准, 数据治理平台便是数据抽象层(标准层),实现一种数据注册的机制将原先的开发过程+设计+需求抽象到数据的治理平台中。

2022-09-17 11:58:40 3194 18

原创 DataOps: A New Discipline 数据治理的下一步

DataOps: A New Discipline 数据治理的下一步 DataOps

2022-09-17 09:18:47 353

原创 【SQL屠夫系列】- SQL高频面试之计算累加报表,还不会你来K我

【SQL屠夫系列】- SQL高频面试之计算累计报表,还不会你来打我.SQL累加;累计题型解法

2022-09-16 17:47:09 363 20

原创 【超硬核】-1万字详尽大厂团队SQL开发规范,Review没人能笑着出来

【超硬核】-1万字详尽大厂团队SQL开发规范,Review没人能笑着出来。SQL 开发规范

2022-09-15 07:00:00 927 38

转载 【超硬核】- 6万字Apache DolphinScheduler3.0 源码解析

【超硬核】- 6万字Apache DolphinScheduler3.0 源码解析;海豚调度架构设计;执行流程;负载均衡;容错;通信源码剖析

2022-09-14 22:39:03 326 4

原创 【NLP屠夫系列】- NER之实战BILSTM

【NLP屠夫系列】- NER之实战BILSTM了解什么是命名实体识别了解命名实体识别的作用了解命名实体识别常用方法- 了解医学文本特征

2022-09-06 12:44:49 3093 76

原创 【SQL屠夫系列】- 高频面试之SQL计算用户留存率

【SQL屠夫系列】- 高频面试之SQL计算用户留存率。用户留存日历计算;面试

2022-09-05 23:31:56 2014 34

原创 【SQL屠夫系列】leetcode-176. 第二高的薪水

【SQL屠夫系列】leetcode-176. 第二高的薪水。SQL经典排名问题练习

2022-09-05 07:26:09 455 2

原创 【SQL屠夫系列】leetcode-180. 连续出现的数字-(实战扩展:连续登陆N天)

【SQL屠夫系列】leetcode-180. 连续出现的数字-(实战扩展:连续登陆N天)

2022-09-04 09:47:26 2515 97

原创 Python版中秋佳节月饼抢购脚本

python中秋佳节月饼抢购脚本,Selenium自动化脚本分享

2022-09-03 17:01:05 16489 192

原创 Python小游戏-Las Vegas Black Jack- CASINO (21点)

Python小游戏-Las Vegas Black Jack- CASINO (21点)黑杰克简称21点

2022-09-03 07:01:00 1466 13

转载 从Airflow到DolphinScheduler,有赞大数据开发平台调度系统演进分享

airflow到dolphinScheduler海豚调度的迁移分享有赞大数据平台调度系统演进分享

2022-09-02 09:56:34 419 9

原创 【湖仓一体化】存OR算之争?SPL 我都要

【湖仓一体化】存or算之争?spl我都要什么是湖仓一体?它和数据仓库、数据湖的关系是什么?为什么要用一体来形容呢

2022-08-31 10:06:01 4308 88

原创 Python ML实战-工业蒸汽量预测02-数据探索

赛题数据探索,变量分析:单变量分析;多变量分析相关性分析,异常值监测,变量分布分析

2022-08-31 06:30:00 498 5

原创 【NLP】一文了解词性标注CRF模型

NLP 自然语言之一文了解词性标注CRF模型

2022-08-27 16:35:40 1262 18

原创 Python ML实战-工业蒸汽量预测01-赛题理解

python机器学习实战阿里云天池大赛 工业蒸汽量预测

2022-08-27 16:15:08 999 4

原创 大数据平台下的数据治理

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

2022-08-27 10:42:07 1366 3

原创 大数据批量处理神器 - 自定义周期批量消费队列的实现

大数据批量处理神奇-自定义周期批量消费队列的实现周期批量消费队列(BlockingQueue)的实现LinkedBlockingQueue与ArrayBlockingQueue的比较

2022-08-24 01:19:19 2183 49

原创 Spark优化-开启动态资源分配

Spark资源动态分配,性能优化

2022-08-22 23:22:15 1123 7

原创 SFTP工具类-远程读取Linux服务器目录下所有文件

SFTP远程读取Linux服务器目录下所有文件递归获取目录下所有文件

2022-08-22 15:36:44 2714 9

原创 【Mock】Neo4j知识图谱数据集Mock、问答训练数据集mock

【数据mock】Neo4j知识图谱数据集Mock、问答训练数据集mock

2022-08-14 14:14:30 1487 38

原创 【官方标准】- 交通运输领域元数据标准规范

官方交通运输领域元数据标准规范

2022-08-14 00:48:07 2499 7

原创 FIX - 克隆虚拟机NAT模式网络不通、不稳定、vMnet8网络故障、网卡冲突、ssh连接慢

FIX - 克隆虚拟机NAT模式网络不通、不稳定、vMnet8网络故障、网卡冲突、ssh连接慢

2022-08-13 22:38:43 2215 4

原创 数仓指标建设体系实践-上篇

数仓指标建设体系实践

2022-08-13 00:48:59 329 4

最新java面试题攻略

面试题总结 1 高级工程师要技术要求 2 一:java面向对象 3 1:java中常见jar包的作用 3 2:常用的linux命令 3 3:使用jdbc主要代码操作步骤 3 4:选择排序、冒泡排序、插入排序 4 5:将数据保存到文件中,将文件内容读取出来 5 6:关于继承与static 5 7:关于EJB 7 8:对象的序列化 7 9:Http中get和post的区别 7 10:servlet的生命周期 7 .....

2019-01-07

离线安装python pg环境

tar -zxvf psycopg2-2.7.4.tar.gz cd psycopg2-2.7.4 python setup.py install

2019-01-07

python2.7 oracle库相关包

tar –zxvf cx_Oracle-6.3.1.tar.gz cd cx_Oracle-6.3.1 python2.7 setup.py build python2.7 setup.py install

2019-01-07

gcc_package.tar centos 6.x/7.x

python环境 gcc安装包 在线安装: yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64 离线安装:

2019-01-07

scala-2.11.8源码

scala-2.11.8 源码下载 便于学习及深入了解scala核心机制

2017-10-18

Hive编程指南

市场中第一本Hive图书。, Hive在Hadoop系统中的应用趋势比较可观。

2017-10-17

阿里云大数据专业认证学习笔记

阿里云大数据专业认证学习笔记 大数据计算服务考试内容讲解及笔记

2017-10-17

Ali-HBase的SQL实践与改进

阿里巴巴天穆在2017杭州云栖大会中做了题为《Ali-HBase的SQL实践与改进》的分享,就为什么需要SQL,SQL on Ali-Hbase,优化与改进,ApsaraDB-Hbase,未来的工作做了深入的分析

2017-10-15

scala-intellij-bin-1.2.1.zip

解压后 放在idea/plugs/文件夹下 然后重启idea即可 scala-intellij-bin-1.2.1.zip

2017-10-09

scala-intellij-bin-2.1.0.15.1.zip

idea scala bin包 scala-intellij-bin-2.1.0.15.1.zip

2017-10-09

jieba分词包

结巴分词 java代码 资源 使用方式 com.huaban.analysis.jieba和com.huaban.analysis.jieba.viterbi放到src目录下 dict.txt、jieba.java.code.style.xml和prob_emit.txt放到src目录下

2017-10-06

ansj_seg-5.1.3

ansj_seg-5.1.3 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

2017-10-06

正则表达式转换器

2017-03-24

思科routing and switching CCIE 5.0诊断题vce文件

路由交换ccie 诊断题,可用vce软件模拟。秒过无压力

2015-12-06

BGP设计与实现

边界网关路由协议BGP 是一种用来在路由选择域之间交换网络层可达性信息的路由选择协议。

2015-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除