自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

吃果冻不吐果冻皮

专注于人工智能、云计算、大数据、物联网等领域,十年磨一剑,致力于成为一个T型人才。

  • 博客(394)
  • 资源 (22)
  • 收藏
  • 关注

原创 全球的MLOps和ML工具概览

摘要对于人工智能领域的任何人来说,MLOps一词是解决所有问题的一个神奇词汇。 它结合了所有与机器学习相关的任务,从管理、处理和可视化数据、运行和跟踪实验到将创建的模型投入生产,理想情况下是大规模、合规和安全的。它定义了实施ML工作以创建基于AI的应用程序和服务的过程。我们在MLOps这个市场开展业务,但我们对还有哪些其他工具、平台和服务只有一个粗略的概念。 为了找到答案,我们对相关供应商进行了全面的搜索,一共找到了300多家! 我们决定整理我们发现的活跃项目,只列出那些专门针对机器学习任务和目标的项目

2021-12-13 21:10:43 2803

原创 Hive常用函数大全(二)(窗口函数、分析函数、增强group)

关系运算## > < =##注意: String 的比较要注意(常用的时间比较可以先 to_date 之后再比较)select long_time>short_time, long_time

2017-03-03 11:13:55 78864 15

原创 Hadoop自测题及参考答案(持续更新中)

单选题 1、与其他几项不同的是 A. Mesos B. Mongodb C. Corona D. Borg E. YARN注:其他几项都是资源统一管理系统或者资源统一调度系统,而 Mongodb一种非关系型数据库。2、[java基础] 以下不属于线程安全的数据结构是 A. HashMap B. HashTable C. CopyOnWriteArrayList D. Concur

2015-06-25 09:13:50 64914 10

原创 大模型量化技术原理-SmoothQuant

本文简要介绍了诞生的SmoothQuant背景和技术原理,作者提到激活值比权重更难量化,因为权重数据分布一般比较均匀,而激活异常值多且大让激活值量化变得更艰难,但是异常值只存在少数通道(Channel)内(单一 token 方差很大(异常值会存在于每一个 token 中),单一 channel 方差会小很多)。因此,SmoothQuant 诞生。SmoothQuant 通过平滑激活层和权重后,再使用per-tensor或per-token量化,实现W8A8。

2024-02-29 22:20:44 593

原创 大模型量化技术原理-ZeroQuant系列

本文讲述了微软提出ZeroQuant相关量化优化技术。ZeroQuant 针对权重和激活提出了一个细粒度硬件友好量化方案,对权重矩阵使用group-wise量化,对激活使用token-wise 量化。同时逐层知识蒸馏算法(LKD)算法缓解精度损失,原网络做老师,量化后的网络做学生。ZeroQuant-V2 引入了一种称为低秩补偿(LoRC)的优化技术,它与 PTQ 和 FGQ 协同工作,以最小的模型参数大小的增加来改善整个模型质量的恢复。

2024-02-29 22:17:40 909

原创 大模型量化技术原理-LLM.int8()、GPTQ

本文简要介绍了两种比较常用的大模型量化方法 GPTQ、LLM.int8();LLM.int8() 属于 round-to-nearest (RTN) 量化:舍入到最近的定点数。而 GPT-Q 则是把量化问题视作优化问题,逐层寻找最优的量化权重。目前,这两种量化方法也集成到了Transformers库中,大家可以非常方便的使用。

2024-02-19 18:44:13 1664

原创 大模型量化概述

可以根据实际业务需求将原模型量化成不同比特数的模型,一般深度神经网络的模型用单精度浮点数表示,如果能用有符号整数来近似原模型的参数,那么被量化的权重参数存储大小就可以降到原先的四分之一,用来量化的比特数越少,量化后的模型压缩率越高。)发现对于LLM的性能,权重并不是同等重要的,通过保留1%的显著权重可以大大减少量化误差。因此,引入了一种新的策略,涉及通道级的平移和缩放操作,以纠正异常的不对称呈现,并减轻问题通道的影响,并定量分析了平移和缩放的最佳值,同时考虑了异常的不对称性以及下一层权重引起的量化误差。

2024-02-19 18:41:19 1106

原创 TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理

接下来以Bloom模型为例,进行 TensorRT-LLM 开发实践。build.py:用于构建 TensorRT 引擎来运行Bloom模型。run.py:模型推理。:使用模型来总结 CNN Dailymail 数据集中的文章。:将HF格式的模型进行转换。支持 FP16支持 INT8 & INT4 仅权重量化支持 INT8 KV CACHE 量化支持SmoothQuant 量化支持张量并行大模型量化概述进行过简要概述,后续有时间更详细的梳理常见的一些大模型量化技术。

2023-12-04 23:11:08 1876

原创 TensorRT-LLM保姆级教程(一)-快速入门

Protobuf是一种轻量级的、高效的数据交换格式,但它在序列化和反序列化大型数据时有一个默认的大小限制。同时,它的接口和文档相对较少,用户可能需要更深入地了解其底层实现和使用方式,这对于初学者来说可能会增加学习和使用的难度。并且 FastTransformer 的生态较小,可用的资源和支持较少,这也会增加使用者在理解和应用 FastTransformer 上的困难。随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。

2023-12-04 23:10:14 1684

原创 大模型分布式训练并行技术(六)-多维混合并行

GLM-130B 利用自回归空白填充作为其主要的预训练目标,以下图中的句子为例,它掩盖了随机的连续文本区间(例如,“complete unkown”),并对其进行自回归预测。除此之外,我们也可以采用 DP + TP 进行组合、也可以使用 PP + TP 进行组合,还可以使用 ZeRO3 代替 DP + PP + TP,ZeRO3 本质上是DP+MP的组合,并且无需对模型进行过多改造,使用更方便。同时,作者发现,在给定硬件设置的情况下,最有效方法是将张量并行大小设置为 2,将流水线并行大小设置为 4。

2023-10-14 13:34:10 250

原创 大模型分布式训练并行技术(一)-概述

上面提到的数据并行、张量并行、流水线并行等多维混合并行需要把模型切分到多张AI加速卡上面,如果让用户手动实现,对开发者来说难度非常大,需要考虑性能、内存、通信、训练效果等问题,要是能够将模型按算子或者按层自动切分到不同的加速卡上,可以大大的降低开发者的使用难度。为了充分利用带宽,通常情况下,张量并行所需的通信量最大,而数据并行与流水线并行所需的通信量相对来说较小。通常来说,模型训练的过程中,GPU上需要进行存储的参数包括了模型本身的参数、优化器状态、激活函数的输出值、梯度以及一些零时的Buffer。

2023-10-14 13:28:31 233

原创 大模型推理框架概述

Text Generation Inference(TGI)是 HuggingFace 推出的一个项目,作为支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具,旨在支持大型语言模型的优化推理。FasterTransformer 库使用此参数对所有底层算法进行实时基准测试,并为模型的参数和您的输入数据(注意层的大小、注意头的数量、隐藏层的大小)选择最佳的一个。对于自注意力块和前馈网络块,FT 按行拆分第一个矩阵的权重,并按列拆分第二个矩阵的权重。

2023-10-07 21:54:14 1271

原创 大模型参数高效微调技术原理综述(三)-P-Tuning、P-Tuning v2

第二,缺少深度提示优化,在Prompt Tuning和P-tuning中,连续提示只被插入transformer第一层的输入embedding序列中,在接下来的transformer层中,插入连续提示的位置的embedding是由之前的transformer层计算出来的,这可能导致两个可能的优化挑战。提示长度在提示优化方法的超参数搜索中起着核心作用。在实验中,我们发现不同的理解任务通常用不同的提示长度来实现其最佳性能,这与Prefix-Tuning中的发现一致,不同的文本生成任务可能有不同的最佳提示长度。

2023-09-05 23:33:13 540

原创 大模型参数高效微调技术原理综述(二)-BitFit、Prefix Tuning、Prompt Tuning

Prompt token 的长度在20左右时的表现已经不错(超过20之后,提升Prompt token长度,对模型的性能提升不明显了),同样的,这个gap也会随着模型参数规模的提升而减小(即对于超大规模模型而言,即使 Prompt token 长度很短,对性能也不会有太大的影响)。同时,通过实验结果还可以看出,BitFit微调结果相对全量参数微调而言, 只更新极少量参数的情况下,在多个数据集上都达到了不错的效果,虽不及全量参数微调,但是远超固定全部模型参数的Frozen方式。另一方面也会占很多存储空间。

2023-09-05 23:29:31 660

原创 大模型参数高效微调技术实战(一)-PEFT概述及环境搭建

因果语言建模任务(CLM),在这种建模方法中,模型试图预测给定上下文中的下一个单词,该上下文通常包括在当前单词之前的所有单词。如: 识别句子的语法成分(名词、动词、形容词)或命名实体(人、地点、组织)。特征抽取(Feature extraction),从最初的一组测量数据开始,构建旨在提供信息且非冗余的派生值(特征),通过X,创造新的X',以促进后续的学习和泛化过程。在这种建模方法中,模型是一个Encoder-Decoder架构,即序列到序列模型(编码器的输出作为解码器的输入),代表模型有BART、T5。

2023-08-26 17:52:18 1541 1

原创 大模型参数高效微调技术原理综述(一)-背景、参数高效微调简介

随着,ChatGPT 迅速爆火,引发了大模型的时代变革。然而对于普通大众来说,进行大模型的预训练或者全量微调遥不可及。由此,催生了各种参数高效微调技术,让科研人员或者普通开发者有机会尝试微调大模型。因此,该技术值得我们进行深入分析其背后的机理,本系列大体分七篇文章进行讲解。本文为大模型参数高效微调技术综述的第一篇。

2023-07-24 09:15:00 773

原创 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理

前几天,Meta 发布了 LIMA 大模型,在LLaMA-65B的基础上,无需使用 RLHF,只用了 1000 个精心准备的样本数据进行微调,就达到了和 GPT-4 相媲美的程度。之前的一系列大模型相关文章都是在LLaMA 7B/13B模型参数上面进行微调,文本使用 LoRA 技术对 LLaMA 30B/65B 大模型进行微调。首先,对 LLaMA 65B 进行微调,65B 参数的模型大约120G左右。当然,从提升模型的推理速度以及吞吐量的角度来说,对百亿级以上的大模型,也应该使用模型并行进行推理。

2023-06-07 21:44:51 1766

原创 大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼

为了提供演示服务,Vicuna研究人员建立了一个轻量级的分布式服务系统,创建了八个问题类别(如:角色扮演、编码/数学任务等)的 80 个不同问题,利用 GPT-4 来判断模型输出,借此对模型质量做初步评估。Vicuna具体的工作流程如下图所示,首先,研究人员从 ShareGPT.com(一个供用户分享 ChatGPT 对话内容的网站)收集了约 7 万个对话,并增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。追加到上面的命令中,这会将大权重文件拆分为较小的文件,并将磁盘用作临时存储。

2023-05-12 09:25:19 1546 1

原创 从0到1复现斯坦福羊驼(Stanford Alpaca 7B)

近日,Meta开源了他们的LLaMA系列模型,包含了参数量为7B/13B/33B/65B的不同模型,然而,原模型的效果较差(如生成的结果文不对题、以及无法自然地结束生成等)。因此,斯坦福的 Alpaca 模型基于 LLaMA-7B 和指令微调,仅使用约 5 万条训练数据,就能达到类似 GPT-3.5 的效果。并没有发布对应的版本,但是已经合并到主分支了,因此,我们需要切换到对应的commit,从源代码进行相应的安装。文件即是他们用于训练的指令数据集,我们可以直接使用该数据集进行模型精调。

2023-05-12 09:23:18 949 1

原创 从0到1基于ChatGLM-6B使用LoRA进行参数高效微调

本文主要讲述了基于ChatGLM使用LoRA进行参数高效微调以及使用训练好的模型对其进行推理。参考文档。

2023-04-14 01:38:56 4129 2

原创 足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼

从上面可以看到,在一台8卡的A800服务器上面,基于Alpaca-Lora针对指令数据大概20分钟左右即可完成参数高效微调,相对于斯坦福羊驼训练速度显著提升。参考文档LLaMA:斯坦福-羊驼。

2023-04-10 19:54:18 5748 5

原创 关于大模型实践的一些总结

同时也设计了skip-connection结构,确保了在最差的情况下能够退化为identity),并将其嵌入Transformer的结构里面,在训练时,固定住原来预训练模型的参数不变,只对新增的Adapter结构进行微调。随着近期ChatGPT的迅速出圈,加速了的大模型时代变革。同时,为了防止直接更新Prefix的参数导致训练不稳定的情况,他们在Prefix层前面加了MLP结构(相当于将Prefix分解为更小维度的Input与MLP的组合后输出的结果),训练完成后,只保留Prefix的参数。

2023-04-10 17:57:18 3110

原创 机器学习模型可视化(Slingshot)

使用 R 作为数据分析语言,开发人员和数据科学家可以创建各种类型的可视化,以最少的编码来表示复杂的原始数据。通过图表和图形,这是首选的数据可视化类型之一,以更快的方式讲述数据趋势的整体情况。通过数据可视化,人们可以在上下文中接收交互式视觉效果,将数据转换为一种形式,帮助人们更好地了解对他们的业务很重要的趋势和相关性。在这里,我们将重点放在有条理的学习过程上,其中机器学习算法探索不同的选项并对其进行评估,以找出最佳方案,从而获得最佳结果。这种类型的可视化提供了信息的概览,作为表盘上的读数。

2023-03-22 09:21:33 509

原创 监控生产环境中的机器学习模型

不充分的监控可能导致不正确的模型在生产中未经检查,过时的模型停止增加业务价值,或者模型中的细微错误随着时间的推移而出现并且永远不会被发现。有趣的是,这些工具将如何发展以满足许多企业日益增长的挫败感,这些企业经历了 ML 部署的高峰期,但随后却没有能力监控该部署,并因几个月后环境的变化而被烧毁。这可能意味着变量的制造方式可能不同,因此即使管道对相同的输入数据返回相同的预测(这意味着我们的差异测试通过),不同的数据源可能会导致相同特征中固有的不同值,这将导致不同的预测。设置和维护此工具会带来巨大的运营成本。

2023-02-26 21:06:22 710

原创 大模型算法演进

2018年谷歌发布了BERT,便一举击败 11 个 NLP 任务的 State-of-the-art (Sota)结果,成为了 NLP 界新的里程碑,同时为模型训练和NLP领域打开了新的思路,预训练模型逐渐成为自然语言处理(NLP)领域的主流;2021年12月,谷歌推出了具有万亿权重的通用语言模型 (Generalist Language Model,GLaM),该模型的一大特点就是具有稀疏性,可以高效地进行训练和服务(在计算和资源使用方面),在多个小样本学习任务上取得有竞争力的性能。

2023-01-19 10:07:57 2972 1

原创 机器学习模型监控的 9 个技巧

机器学习 (ML) 模型是非常敏感的软件;它们的成功使用需要仔细监控以确保它们正常工作。当使用所述模型的输出自动做出业务决策时尤其如此。这意味着有缺陷的模型通常会对最终客户体验产生真正的影响。模型与它们使用的数据一样好,因此监控输入数据(和输出)对于模型实现其真正目标至关重要:有助于推动良好的决策并帮助企业实现其目标。在生产环境中使用机器学习模型时,您可以使用以下一些可行的、与框架无关的技巧来制定更强大的监控策略。

2023-01-08 16:57:07 712

原创 机器学习可视化技术(Towards Data Science)

在图 4 中,不同的类别用不同的颜色表示。变分自编码器 (VAE) 是一种概率生成模型,用于创建一些输入数据(例如:图像)的潜在表示,能够简洁地理解原始数据并从中生成全新的数据(例如:训练 VAE 模型具有不同的汽车设计图像,然后可以建模以创建全新的富有想象力的汽车设计)。继续使用 Livelossplot 训练的变分自编码器示例,我们甚至可以通过检查潜在空间(图 9)如何从一次迭代到另一次迭代来使我们的模型更有趣(以及因此我们的模型在区分不同类别方面随着时间的推移改进了多少)。

2022-11-20 15:09:12 1710

原创 如何检测和克服MLOps中的模型漂移

通过确保模型对最近的数据变化给予更多的权重,而不是对旧的数据变化给予较小的权重,ML 模型将变得更加健壮并构建一个简洁的小型数据库来管理未来可能与漂移相关的变化。例如,如果模型在使用静态数据的静态环境中运行,那么它的性能不应降低,因为预测的数据来自与训练期间使用的相同分布。但是,如果模型存在于一个不断变化的动态环境中,涉及的变量太多,那么模型的性能也会有所不同。由于数字环境的变化,以及随之而来的概念和数据等变量的变化,模型漂移在 ML 模型中很突出,这仅仅是机器语言模型作为一个整体的性质。

2022-11-10 19:07:39 856

原创 机器学习模型监控清单

了解您的模型是否运行良好的最直接方法是将您的预测与实际值进行对比。您可以在模型训练阶段使用相同的指标,例如:分类的 Precision/Recall、回归的 RMSE 等等。其次,不仅需要跟踪模型质量,还需要跟踪相关的业务 KPI。您可能已经知道要跟踪的一些特定分段(segments),例如:您的高级客户与整体基数的模型准确性。为此,我们需要跟踪合适的指标,例如准确率中的奇偶校验。在本文中,我们建议如何监视您的模型和要使用的开源工具。我们需要确保模型交付。例如,您可以跟踪主要的模型特征和模型预测的分布。

2022-11-07 20:40:38 549

原创 MLOps:模型监控

实现这样的框架以确保ML系统的一致性和健壮性是至关重要的,因为没有它,ML系统可能会失去终端用户的“信任”,这可能是致命的。-捕捉训练数据和生产数据(场景一)或生产数据的不同时间框架(场景二)之间每个独立变量的分布移位(如适用)。在本系列的下一篇博客中,我们将更详细地介绍两个最重要的模型监控指标,即稳定性和性能指标,我们将了解如何使用它们来构建我们的模型监控框架。使用模型度量堆栈进行模型监视,对于将已部署的ML模型的反馈回路放回模型构建阶段至关重要,这样ML模型可以在不同的场景下不断改进自己。

2022-11-07 20:37:59 559

原创 MLOps专栏文章汇总

模型监控如何工作(数据漂移、异常值、偏见)、Alibi Detect 简介、监控模型(部署图像分类器、部署漂移检测器)、从 Alibi 中获取指标、Alibi 适合你吗?(数据分布变化、性能改变、健康指标/运营指标、数据完整性、分段性能、偏见/公平)、在 Valohai 中如何监控模型(存储指标、在 UI 中可视化指标)(数据质量、模型质量、模型偏差、模型可解释性)、NLP 数据漂移(协变量漂移、标签漂移、概念漂移、(模型漂移、数据漂移(KS检验、PSI、Z-score)、概念漂移)、

2022-10-29 09:57:55 706

原创 一个精选的模型监控工具列表

在该平台上,您可以分析您的个人资料以查看您的模型的执行情况,并自动收到有关变化的警报。MLRun 是一个端到端的开源 MLOps 编排框架,用于管理和自动化您的整个分析和机器学习生命周期,从数据摄取到模型开发再到完整的流水线部署。:使用特定于工作负载的运行时引擎(例如:Kubernetes 作业、Nuclio、Dask、Spark 和 Horovod)将简单的代码转换为可扩展和托管的微服务。:处理跨多个存储库和技术的数据和特征的摄取、处理、元数据和存储。:一个简单、直观的仪表板,适用于生产中的所有模型。

2022-10-25 12:22:06 960 3

原创 模型监控:定义、重要性和最佳实践(AI Multiple)

因此,十年前为最大限度地提高客户满意度而设计的聊天机器人如果不加以监控,可能会给客户带来不安全的时间。然而,几年后,匈牙利可能会使用欧元作为其货币,与福林相比,欧元的波动幅度有所不同。您可以将这个过程想象为不时将您的汽车送去维修,并更换汽车的轮胎或机油以获得更好的性能。)中指出的那样,MLOps 系统的生命周期包括各种过程,尽管付出了所有努力和时间,但不能保证创建有效的 MLOps。但是,ML 模型的性能会随着时间的推移而下降。ML 预测的环境是不断变化的,因此 ML 模型应该适应新的环境。

2022-10-25 12:19:10 1149

原创 ML 模型监控最佳工具

WhyLabs 用于模型监控的最大优势之一是它消除了手动解决问题的需要,从而节省了金钱和时间。它使您可以监控模型性能、解释和调试模型预测、通过整个数据和切片来分析模型行为、大规模部署机器学习模型以及管理机器学习模型和数据集。使用 Qualdo,您可以从生产 ML 输入/预测数据、日志和应用程序数据中获得洞察力,以观察和改进您的模型性能。有模型部署和数据漂移和数据异常的自动监控,您可以看到质量指标和可视化。它是一个 MLOps 框架,可让您打包、部署、监控和管理数以千计的生产机器学习模型。

2022-10-20 19:15:36 619

原创 什么是模型监控?(Valohai)

它使您的 AI 团队能够识别和消除各种问题,包括糟糕的质量预测和糟糕的技术性能。因此,您的机器学习模型可提供最佳性能。一旦 Valohai 从原始日志中解析出指标,就可以使用 Valohai 部署监控 UI 随着时间的推移对其进行可视化,用户可以在其中分析任何选定时间范围的日志和指标。生产中的模型在操作系统级别与 Valohai 通信,这意味着它收集并存储您的进程内部打印的所有内容,无论是错误堆栈跟踪、模型指标还是健康信息。上面的清单将为实施彻底的模型监控提供有价值的考虑,以确保生产中持续不变的性能。

2022-10-20 19:13:45 1685 1

原创 Kubeflow 和 Argo 的综合比较

一些人正在寻找为 ML/MLOps 构建的特定工具,例如:Kubeflow,而另一些人则在寻找更通用的编排器,例如:Argo 或 Airflow,它们可以适用于机器学习工作流。它包括一个用于管理作业的用户界面、一个用于安排多步骤 ML 工作流的引擎、一个用于定义和操作管道的 SDK,以及用于通过 SDK 与系统交互的 Notebooks。当这两种解决方案都是开源的时,采用具有更多功能的解决方案可能是合乎逻辑的,尤其是当它们共享 Kubernetes 作为核心依赖项时。:这是 Argo 中最重要的组件。

2022-10-15 12:29:48 783

原创 无代码 AI 概览(Levity)

有些工具在非常特定的用户场景中表现出色 - 因为它们就是为此而构建的(例如,如果您尝试使用机器学习供个人使用,Lobe 非常棒,或者如果您主要是在寻找,请查看 Rossum 用于文档处理)。一些从业者指出,在某些情况下,重要的是要记住,一旦您在平台上开发了一个应用程序,只要该应用程序正在运行,您就会一直链接到该平台。我们经常使用“人工智能从基于规则的自动化结束的地方开始”这个短语——从我们的角度来看这是有道理的,但不应该一概而论(有些工具超越了纯粹的自动化,例如,如果是这样,他们通常更适合做这项工作。

2022-10-15 12:27:17 487

原创 无代码人工智能:它是什么,它为什么重要?(Noogata)

如今,大多数企业都在考虑如何变得更加以数据为驱动力,并更好地利用可用的大量数据来做出更有力的决策。关键是如何使用人工智能 (AI) 和机器学习 (ML) 来促进这一点。和Appian的报告显示,高管们对人工智能的潜在影响持积极态度,并致力于识别用户场景和潜在的人工智能解决方案。然而,虽然 AI 和 ML 将从根本上改变许多业务流程,但利用 AI 的力量可能是缓慢、复杂和昂贵的,需要数据科学团队来构建它,并需要数据科学家来使用它。Noogata 的无代码 AI 平台。

2022-10-15 12:26:14 2134

原创 我们为什么创建无代码 AI 平台 Noogata

基于云的数据仓库和数据湖解决方案(BigQuery、RedShift、Synapse、Snowflake、Databricks)、新一代 ETL/ELT 工具(Fivetran、Airbyte、dbt)、自助式分析和整个堆栈中的其他解决方案正在取得进展企业数据团队更容易构建、管理并成为组织的数据保管人,使数据可供整个组织使用和利用。这需要一种新的方法,我们正在采取这种方法。它允许企业为业务用户构建完整的端到端以行动为中心的体验,从收集数据到将模型的输出转换为组织流程(现有流程或仪表板的智能自动化)。

2022-10-15 12:24:20 660

原创 如何将 Apache Airflow 用于机器学习工作流

Apache Airflow 是一个强大的工具,用于创建、调度和监控工作流,但它是为 ETL 任务而构建的。机器学习任务需要特定的资源,并且它们的执行细节应该是版本控制的。如果您有资源来维护 Kubernetes 集群,您可以使用 KubernetesPodOperator 扩展机器学习任务。如果您想专注于构建模型,您可以使用为机器学习任务扩展 Airflow。这样,您还将获得每次执行的自动版本控制。...

2022-08-13 15:57:39 919

机器学习数据集

一些常用的机器学习数据集,包括保险数据,音乐分类,图片分类 等等

2019-01-13

ES入门文档

ES学习文档

2017-06-15

大数据面试指南(含答案)

包括Hadoop、Hive、Hbase、Java、Spring、Redis、Kafka等内容

2017-05-14

Hadoop权威指南(第四版)

There are new chapters covering YARN (Chapter 4), Parquet (Chapter 13), Flume(Chapter 14), Crunch (Chapter 18), and Spark (Chapter 19).

2015-05-17

51单片机学习代码及注释

8051单片机学习代码及详细注释,非常实用。

2015-03-03

BndTools安装及使用教程

使用BndTools必备教程。开发OSGi更加方便。

2015-02-11

8051微控制器

初学者学习51单片机必备的一本书籍,通俗易懂,实例很多。

2015-01-06

新概念51单片机C语言教程

非常适合初学者的一本书籍,绝对经典,而且能够找到配套视频,还能找到配套板子

2015-01-06

加密与解密 第三版

非常适用于初学者的一本书,通俗易懂,易于掌握。

2014-12-14

Java泛型与容器详细笔记.pdf (带书签)

讲述了容器与泛型的详细例子和具体代码,和Guava 与Apache commons的使用等等

2014-10-07

Java编程基础和面向对象基础必备知识点.pdf(带书签)

Java开发者要了解的基础知识,以及一些细节。

2014-10-04

[深入理解Java虚拟机:JVM高级特性与最佳实践].周志明.高清扫描版

本书极尽化繁为简之妙,带领你在轻松中领略Java虚拟机的奥秘。书中包含典型案例和最佳实践。。

2014-09-20

Qt Creater快速入门及本书源代码

本书适合QT4版本的编程爱好者,以前找了很久才找到,非常适合初学者,步骤非常详细。

2014-08-30

21天学通Java6(第五版)含源代码和课后习题代码

本书深入浅出,讲的非常适合初学Java的爱好者。也可供学习其他语言的程序员学习Java是参考

2014-08-27

汇编语言 王爽著 附课后习题答案

学习汇编语言不错的书籍,讲的非常通俗易懂。本书采用以8086CPU为中央处理器的PC机来进行学习。

2014-08-26

程序员SQL金典(杨中科)

一本非常适合初学数据库的书籍。各种数据库的语法的区别,非常适合作为参考书籍。

2014-08-20

《ZigBee实战演练》第三版

ZigBee 功能强大、组网方式千变万化,往往令很多初学者望而却步本书尽量以 最简单的描写来讲述的 ZigBee 的学习方法,从基础实验、组网演练到项目实战,

2014-08-19

OSGi web开发常用jar包

javax.servlet.jar ,javax.servlet.jsp.jar,org.eclipse.osgi_3.7.0.v20110613.jar,org.eclipse.equinox.http.helper.jar, org.apache.jasper_5.5.17.v201101211617.jar等等

2014-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除