- 博客(6008)
- 收藏
- 关注
原创 AI加速引擎 PAI-TorchAcc:OLMo训练加速最佳实践
阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对 PyTorch 性能在 OLMo 1B 上加速比达到 1.64X,在 OLMo 7B 上加速比达到 1.52X。本文分析了 PAI-TorchAcc 的性能收益来源。
2024-03-18 15:23:24 657 1
原创 通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践
阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。
2024-03-18 10:55:55 721
原创 AI加速引擎 PAI-TorchAcc:整体介绍与性能概述
PAI-TorchAcc是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架。PAI-TorchAcc提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无缝地接入HuggingFace上的模型,并用多种分布式策略进行训练加速。本文详细介绍PAI-TorchAcc的产品能力与性能。
2024-03-15 15:33:18 647 1
原创 阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
2024-03-14 14:59:12 692 1
原创 PTS 3.0:开启智能化的压测瓶颈分析
性能测试 PTS 是阿里云上一款简单易用,具备强大的分布式压测能力的 SaaS 压测平台。PTS 可以模拟复杂的业务场景,并快速精准地调度不同规模的流量,同时提供压测过程中多维度的监控指标和日志记录。用户无需准备资源,即可按需发起压测任务,监控压测指标,获取压测报告,进而能够高效率、全方位地验证业务站点的性能、容量和稳定性。
2024-03-13 16:24:30 817 1
原创 弱结构化日志 Flink SQL 怎么写?SLS SPL 来帮忙
本文介绍一种使用 SLS SPL 配置 SLS Connector 完成数据结构化的方案,覆盖日志清洗与格式规整场景。
2024-03-12 15:21:59 1338 3
原创 青团社:亿级灵活用工平台的云原生架构实践
青团社是国内领先的一站式灵活用工招聘服务企业,灵活用工行业的 Top1。青团社于 2013 年在杭州成立,业务已经覆盖全国,在行业深耕 10 年。我的分享将分为以下三部分:
2024-03-12 13:53:11 1031
原创 你好,iLogtail 2.0!
随着可观测数据采集需求的不断推陈出新,多样化的数据输入输出选项、个性化的数据处理能力组合、以及高性能的数据处理吞吐能力已经成为顶流可观测数据采集器的必备条件。
2024-03-11 15:59:54 572 1
原创 需求并行开发场景,如何高效发布
微服务架构下,每个应用服务独立开发、独立发布,小步快跑,持续快速交付业务需求。多人协同开发同一个应用时,分支开发模式是一个适合的协同方案。该模式下一个需求或任务通常对应一个 feature 分支,多个需求一起合并到 release 分支进行集成测试验证并发布。
2024-03-08 15:31:43 1011 1
原创 阿里云连续两年斩获全球存储顶会FAST最佳论文
上周,全球计算机存储顶会USENIX FAST 2024 在美国加州圣克拉拉召开,继去年获得国内首个FAST最佳论文奖后,凭借在分布式块存储上的创新,阿里云新作再次斩获FAST大会最佳论文奖。这也是国内唯一一家连续两年获得FAST最佳论文奖的科技公司。
2024-03-08 11:44:05 993
原创 AI 绘画平台难开发,难变现?试试 Stable Diffusion API Serverless 版解决方案
Stable Diffusion 模型,已经成为 AI 行业从传统深度学习时代走向 AIGC 时代的标志性里程碑。越来越多的开发者借助 stable-diffusion-webui(以下简称 SDWebUI)能力进行 AI 绘画领域创业或者业务上新,获得高流量及商业价值,但是面对多客户、高并发的复杂场景,使用原生 Stable Diffusion API 会面临以下挑战
2024-03-07 14:29:07 571 1
原创 解密 ARMS 持续剖析:如何用一个全新视角洞察应用的性能瓶颈?
随着软件技术发展迭代,很多企业软件系统也逐步从单体应用向云原生微服务架构演进,一方面让应用实现高并发、易扩展、开发敏捷度高等效果,但另外一方面也让软件应用链路变得越来越长,依赖的各种外部技术越来越多,一些线上问题排查起来变得困难重重。
2024-03-05 15:26:10 1023 1
原创 面向智算服务,构建可观测体系最佳实践
对于越来越火爆的人工智能领域来说,MLOps 是解决这一领域的系统工程,它结合了所有与机器学习相关的任务和流程,从数据管理、建模、持续部署的到运行时计算和资源管理。
2024-03-04 15:17:44 951 1
原创 MSE Nacos 配置变更审计平台使用指南
配置变更的途径主要包括控制台手动发布和使用 Nacos SDK 客户端等方式,为了配置变更的安全性,我们需要对这两种变更进行变更操作的通知和追溯;其中既包括这些变更操作的变更责任人、责任机器的追踪,也包括变更操作对于相关方的通知和告警。
2024-02-29 15:36:49 967 1
原创 Higress × OpenKruiseGame 游戏网关最佳实践
OpenKruiseGame(下文简称:OKG)是一个面向多云的开源游戏服 Kubernetes 工作负载,是 CNCF 工作负载开源项目 OpenKruise 在游戏领域的子项目,其提供了热更新、原地升级、定向管理等常用的游戏服管理功能。而游戏作为典型的流量密集型场景,在吞吐量、延迟性能、弹性与安全性等方面对入口网关提出了很高的要求。
2024-02-29 13:41:21 753
原创 应用监控 eBPF 版:实现高效协议解析的技术探索
随着 Kuberentes 等云原生技术的飞速发展,带来了研发与运维模式的变革。企业软件架构由单体服务向分布式、微服务演进。随着业务发展,多语言、多框架、多协议的微服务在企业中越来越多,软件架构复杂度越来越高,如何快速通过可观测工具快速定位出问题对研发人员至关重要。
2024-02-28 14:33:05 964 1
原创 阿里云推出 3.x Java 探针,解锁应用观测与治理的全新姿势
随着春节大促即将到来,为了确保线上业务高效稳定地运行,电商企业大多会对旗下关键业务应用进行多轮测试。通过模拟线上较高流量的请求,来观察服务性能的实际表现。
2024-02-27 15:55:16 876 1
原创 Kube Queue:Kubernetes 任务排队的利器
批处理作业(Batch Job)常应用于数据处理、仿真计算、科学计算和人工智能等领域,主要用于执行一次数据处理或模型训练任务。由于这类任务往往需要消耗大量计算资源,因此必须根据任务的优先级和提交者的可用资源情况进行合理排队,才能最大化集群资源的利用效率。
2024-02-27 15:29:59 933
原创 云原生网关哪家强:Sealos 网关血泪史
Sealos 公有云上线以来,用户呈爆发式增长,目前总共注册用户 8.7w,每个用户都去创建应用,每个应用都需要有自己的访问入口,就导致整个集群路由条目非常巨大,需要有支撑数十万条 Ingress 的能力。
2024-02-27 10:23:56 1940 1
原创 Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制
Koordinator 作为一个积极发展的开源项目,自 2022 年 4 月发布 v0.1.0 版本以来,经历了多次迭代,持续为 Kubernetes 生态系统带来创新和增强。项目的核心是提供混部工作负载编排、混部资源调度、混部资源隔离和混部性能调优的综合解决方案,帮助用户优化容器性能,并提升集群资源使用效率。
2024-02-22 15:11:19 658 1
原创 百万并发,API 网关抗住了亚运会流量高峰
本文主要介绍作为亚运会所有核心流量的入口,阿里云推出了一款百万并发规格的 API 网关,抗住了亚运会流量高峰,为亚运会提供强大的技术支持。
2024-02-22 11:21:42 722
原创 大语言模型推理提速,TensorRT-LLM 高性能推理实践
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型,本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。
2024-02-21 14:38:08 967 2
原创 解读 EventBridge Transform,数据转换和处理的灵活能力
阿里云 EventBridge 提供了强大而灵活的事件总线服务,它可以连接应用程序、阿里云云服务和阿里云 Serverless 服务来快速构建 EDA(Event-driven Architectures)事件驱动架构,驱动应用与应用,应用与云的连接。除此之外,它还可以作为流式的数据管道,在不同的数据仓库和数据处理或分析程序之间快速构建 ETL 系统。
2024-02-19 16:28:42 747 1
原创 从 13 个企业关心的问题看懂用云范式的改变
今天,容器和 K8s 已经成为应用研发运维的新标准,行业调研数据显示,2022 年有 64% 的最终用户在生产环境中使用了 K8s;2022 年托管在云上的 K8s 集群增速达到了 127%。我们也看到云托管的 K8s 将在 2023 年超过本地部署。这意味着容器化上云成为了新常态。
2024-02-19 10:14:42 918 1
原创 Sentinel 新版本发布,提升配置灵活性以及可观测配套
在功能上主要以流量为切入点,从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开发者保障微服务的稳定性。同时 Sentinel 将会在未来的 2.0 系列版本中,进一步支持流量路由、流量染色与标透传、异常流量调度、预热调权等能力。在生态对接以及使用方式上也会更加贴近云原生。
2024-02-05 10:16:30 1036 5
原创 成本更低、更可控,云原生可观测新计费模式正式上线
可观测作为企业 IT 运维必须品,在应对不同可观测场景时提供了非常多产品,以及与之对应的计费模式,供企业灵活选择。但如果产品价格说明不完整且不能有效评估现有业务规模及增长趋势,就会给企业带来非常高的成本规划与选型评估门槛。
2024-02-04 15:37:53 1168 2
原创 进击的 Serverless:Java 应用如何从容地面对突增流量
移动互联网时代,许许多多的业务都有着流量的周期性变化,无论是直播、游戏、点单系统、电商平台等等,都会存在着流量的高峰与波谷。如果采用固定的计算资源部署服务,使用的多了,大量资源在流量波谷闲置浪费,使用的少了,服务难以抗住高峰期的大规模流量,易带来业务损耗。
2024-02-01 17:26:08 985
原创 走出大模型部署新手村!小明这样用魔搭×函数计算
前文介绍了魔搭 ModelScope 社区模型服务 SwingDeploy 服务。开发者可以将模型从魔搭社区的模型库一键部署至阿里云函数计算,当选择模型并部署时,系统会选择对应的机器配置。按需使用可以在根据工作负载动态的减少资源,节约机器使用成本。5 分钟完成从开源模型至模型推理 API 服务的生产转换…
2024-02-01 10:23:21 784
原创 基于 Megatron-Core 的稀疏大模型训练工具:阿里云MoE大模型最佳实践
随着大模型技术的不断发展,模型结构和参数量级快速演化。大模型技术的应用层出不穷。大模型展现惊人效果,但训练和推理成本高,一直是巨大挑战。
2024-01-31 16:19:36 733 1
原创 十年后数据库还是不敢拥抱NUMA - 续篇
写这个续篇是我收到很多解释,因为跨Node 导致性能抖动,所以集团在物理机OS 的启动参数里设置了 numa=off ,也就是不管BIOS 中如何设置,我们只要在OS 层面设置一下 numa=off 就能让程序稳定下来不再抖了!
2024-01-31 14:14:03 1022
原创 PolarDB-X 最佳实践系列(四):如何设计一张订单表
本文主要内容是如何使用全局索引与CO_HASH分区算法(CO_HASH),实现高效的多维度查询。
2024-01-30 17:57:00 879 1
原创 云原生离线工作流编排利器 - 分布式工作流 Argo 集群
通过分布式工作流 Argo 集群,您可以轻松编排工作流,每个工作流步骤使用容器运行,可以在短时间内轻松运行大规模机器学习、仿真计算和数据处理等计算密集型作业,也可以快速运行 CI/CD 流水线。
2024-01-30 16:40:30 866
原创 Consul 留给你的时间不多了
本文主要介绍了 HashiCorp BSL license 变更对于用户商业或生产使用带来的潜在风险,注册中心的选型对比,如何使用 MSE Nacos 替换 Consul 消除潜在的风险。
2024-01-30 14:55:18 896
原创 定向减免!函数计算让轻量 ETL 数据加工更简单,更省钱
业内较为常见的高频短时 ETL 数据加工场景,即频率高时延短,一般均可归类为调用密集型场景。此场景有着高并发、海量调用的特性,往往会产生高额的计算费用,而业内推荐方案一般为攒批处理,业务实时性会有一定的影响。
2024-01-29 14:50:31 720 1
原创 秒速出图!体验 TensorRT 加速 Stable Diffusion 图像创作
Stable Diffusion WebUI 是 Github 上最为热门的利用生成式 AI 进行图像生成的项目。它采用 ClipText 对文字进行编码,然后采用 UNet+Scheduler 在潜在表示空间上进行 Diffusion,最后采用 Autoencoder Decoder 将第二步生成的扩散信息再转为图像。
2024-01-29 14:27:02 900
原创 阿里云 SAE 2.0 正式商用:极简易用、百毫秒弹性效率,降本 40%
本文主要介绍阿里云 Serverless 应用引擎(以下简称 SAE )如何帮助企业跨越技术鸿沟,从传统应用架构无感升级到 Serverless 架构,以更高效、更经济的方式进行转型,快速进入云原生快车道,让 2 人的研发团队享受 2000 人技术团队的红利。
2024-01-29 10:53:10 1093
原创 3分钟畅玩!一键部署幻兽帕鲁联机服务器
《幻兽帕鲁》火爆,如何快速拥有一个可以跟小伙伴们愉快玩耍的服务器呢?本教程将指引您在阿里云上快速完成幻兽帕鲁专用服务器部署,仅需点几下鼠标,2~3分钟左右就能可完成搭建,全程无需手动配置参数。
2024-01-26 15:11:39 446 1
原创 魔搭×函数计算:一键部署,缩短大模型选型到生产的距离
面对魔搭 ModelScope社区提供的海量模型,用户希望快速进行选型并生产使用起来,但在此之前,却一定会面临算力管理难、模型部署难等一系列问题,那么能否实现快速把选定的模型部署在云端功能强大的 GPU 上,由云端负责服务,扩展,保护和监控模型服务,同时免于运维和管理云上算力等基础设施呢?
2024-01-25 17:26:50 1039 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人