AI存储核心需求 模型权重 LLM模型权重是AI推理最基础的持久化存储数据,核心特征为一次写入、多次读取。 KV Cache存储诉求、延迟与成本痛点 综合两种KV Cache管理方式,AI推理场景对存储的核心诉求可总结为三点:容量大、数量多、分布式高效调度。 基于GD2FS的AI推理架构 基于GD2FS构建的LLM推理协同架构,核心是重塑端到端的AI推理链路,打破传统推理引擎、存储、调度系统的割裂状态。 AI推理是典型的系统性工程,性能优化不能局限于单一模块,需实现存储、推理、调度的全局协同。 、缓存吞吐、存储成本、资源调度等核心痛点,为超长上下文、高并发、大规模AI推理场景提供底层支撑。
: GB级别的顺序写 推理和RAG过程中: TB级别的随机读 归档过程中: PB级别的随机写 典型 AI 集群的存储剖析(按存储性能分层存储) 图片 左边绿色GPU服务器集群通常只能提供8个U.2的插槽 中间采用高性能全闪存,通过是TLC, 弥补机械盘性能, 总容量比HDD少 右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高 AI集群中的数据移动 图片 1.数据采集阶段,原始数据按顺序写入对象存储层 RAG 还可以创建额外的 I/O 活动 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘 旨在优化 AI 存储效率的产品组合 QLC 提升新型 AI DC(数据中心) 构建的电源效率 每个 DGX 有关建模详细信息,请参阅附录“QLC 功率效率与 HDD” 模型训练与数据存储 AI 数据穿越存储层之旅 最近的检查点基本在SSD上 早期的检查点数据在HDDS AI数据量级和性能 检查点:提高存储容量和吞吐量 Blob 存储层一次性访问可实现高吞吐量 AI负载中的存储扩展性 总结 AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求 AI行业也会带动存储行业发展,
Fig-2 AI训练工作流对应的存储方案定性说明。 Fig-3 图示 AI训练工作流中存储层动态交互过程。 数据转移到HDD层做长时保留 • 存储层的性能/容量,随GPUs数量及训练次数弹性扩展 AI模型训练前,要完成数据Tokenization/ Vectorization,用什么专用软件来实现? 核心要点:GPU从Blob存储层同时访问会驱动高吞吐量 Fig-6 从AI系统存储带宽需求,看HDD和SSD发展现况和机遇: • 当前系统使用SSD能满足训练和Checkpoint的性能读取(但成本较高 总结 作为运营主要AI训练资源云厂商,”巨硬“对AI应用层系统实践,应该说是富有经验的,从这篇分享中可以总结以下几点: • 和新兴存储厂商(WEKA/VAST/Infidant)等普遍拥抱闪存基础设施& (Fig-5); • HDD/SSD介质发展趋势,AI场景要兼顾容量和性能(Fig-7)。
SuperMicro:AI存储硬件方案-Fig-1 云厂商 AI存储方案 大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。 最高性能的 AI 训练和推理。 存储需求: • 全部为 NVMe 存储。 • 每个 SU 的性能要求:读取 125 GBps / 写入 62 GBps。 SuperMicro:AI存储硬件方案-Fig-2 企业级AI存储方案 Pod 级别的部署(较云厂商规模、性能要求降低) 企业用例,推理与训练的比较 存储需求: • 全 NVMe 或 PB 级别的分层存储 • 并行文件系统,高性能对象存储。 SuperMicro:AI存储硬件方案-Fig-3 基础计算硬件方案 在执行 AIOps 和 MLOps 时: • GPU 密集型服务器加速 AI 训练和推理。 SuperMicro:AI存储硬件方案-Fig-5 计算+存储(性能层)+容量层 方案 所有训练数据集和模型都存储在本地 • 数据湖使用容量优化的存储。
人工智能是数据的消耗大户,对存储有针对性的需求。这次我们讲讲面向AI场景的存储性能优化思路。 谈优化之前,我们先分析一下AI访问存储的几个特点: 海量文件,训练模型的精准程度依赖于数据集的大小,样本数据集越大,就为模型更精确提供了基础。 跟一些AI公司的同事交流中,大家经常提到的一个问题就是,用户在某一个目录下存放了海量文件,导致训练的时候出现性能问题,其实就是碰到了存储的热点问题。 综上,对于AI场景来说,分布式存储面临三大挑战: 海量文件的存储 小文件的访问性能 目录热点 海量文件的存储 首先讨论海量文件存储的问题。海量文件存储的核心问题是什么,是文件的元数据管理和存储。 总结 本文针对海量文件存储、小文件访问性能、热点访问三个维度,分析了面向AI场景下,分布式文件系统面临的挑战,以及我们的应对思路,也希望借此文和更多技术专家交流如何对AI场景下的存储方案进行针对性的优化
除了应用极广的循环优化,在 AI 编译器底层还存在指令和存储这两种不同优化。指令优化指令优化依赖于硬件提供的特殊加速计算指令。这些指令,如向量化和张量化,能够显著提高计算密度和执行效率。 并将结果存储到数组 C 当中。 张量化在 AI 应用日益广泛的今天,程序运行的数据形式经历了显著的演变。特别是以神经网络为代表的神经网络模型,其内部数据形式为多维矩阵,通常称为张量。 在 AI 系统中,这种视角下的内存管理显然无法支撑起 AI 应用。AI 系统通常需要处理大量的数据和复杂的算法,这就需要高效的内存分配和回收策略来支持它们的运行。 NPU 的内存管理机制包括:片上内存:NPU 通常具有片上内存,用于存储权重和激活等数据,以减少与外部内存的通信开销。内存访问模式:NPU 针对 AI 工作负载进行了优化,支持高并发的内存访问模式。
AI模型做出的每一个决策,它发现的每一个洞见,都源于为其训练和运行提供动力的海量数据储备。然而,随着AI模型变得越来越庞大和复杂,它们与数据交互的方式也带来了传统存储系统无法应对的挑战。 分散在分布式系统中的小文件以及对随机访问的需求,突显了AI的需求与最初为结构化、顺序工作流构建的基础设施能力之间的不匹配。 这篇博文探讨了对象存储如何为AI对数据的永不满足的渴望提供动力。 传统上,存储层通常是手动管理的,需要仔细编排才能在快速的临时存储和较慢的归档层之间移动数据。跨越数十PB非结构化数据的AI工作负载受益于对象存储固有的可扩展性。 与将某些操作集中化的存储系统不同,对象存储将数据和元数据分布在节点集群中,消除了单点瓶颈。这种架构允许AI工作负载随着数据增长线性扩展。 相关文章: 革新存储:GPU在现代基础设施中的作用 Tecton应对下一代生成式AI的重大挑战:个性化 AI 测试:更广泛的覆盖范围、更少的错误、新的风险 DevOps中使用AI:开发人员和运维人员需要了解什么
另一方面,以大模型为代表的多模态AI,数据结构、类型远比单模态AI复杂,数据量也更加庞大。 两大趋势相互叠加,市场对于存储的增量需求呼之欲出。 二、AI存储三要素:精度、效率、能耗 以往,训练模型的方法简单而粗暴:大量的数据加上人工,以及强大的算力,不断调优,提高模型精度。 很明显,前一种方式被广泛使用并达到了极限,后一种方式正呈星火燎原之势,开始席卷整个AI行业。 三、AI存储如何让企业用上大模型? 基于此,华为推出了两款AI存储产品:OceanStor A310 ,FusionCube A3000。 AI存储的未来 从工业社会到信息社会,伴随着新技术的发展,数据的总量呈几何级数增长。 如何利用好数据成为关键,而这又与存储技术息息相关,两者相互影响、互相作用。
本文将探讨AI对存储系统的影响趋势,分析AMD GPU生态系统在AI领域的优势,以及DPU在AI场景中的应用机遇,并通过实际案例研究展示DPU在加速存储访问中的显著效果。 1. AI对存储系统的影响趋势 AI的兴起生成性AI的快速发展及其在文本、图像和视频生成等领域的广泛应用。 大型语言模型(LLMs)模型规模的快速增长及其对高效存储和计算的需求。 阅读收获 深入理解AI对存储系统的影响及其未来趋势。 掌握AMD GPU生态系统在AI场景中的优势与应用。 了解DPU在AI存储优化中的关键作用与实际案例。 专访AMD GPU副总裁:解读AMD在HPC和AI领域的战略 存储优化的AI框架和基准测试 图表展示了两个关键的趋势: 存储优化的AI框架:随着AI模型变得越来越大,传统的内存和存储架构已经无法有效支持这些庞大的计算任务 AI系统中对分离存储的需求 图表强调了在AI系统中,尤其是在处理大规模AI模型和数据时,存储资源的优化和分离变得至关重要。
Fig-1 AI数据处理管道,类似版本2024年初海外多个存储厂商都有曝露过,基本包含以下组成元素: • 数据管道流程:数据摄取--准备(预训练)--LLM训练--微调/RAG/推理 • LLM训练过程 Fig-2 典型AI集群中的存储,包含以下3个组成部分: 1. GPU服务器-直连存储 • 有限存储(通常为8个U.2插槽) 2. 对象存储层 • 存储服务器或JBOD,包含大量存储设备(目前通常是HDD) Fig-3 在数据摄取环节,原始文件顺序写入到对象存储层中。 80%; • 空间利用率提高50%; Note:PPT中存储方案前缀为NAS,这是文件存储的方案,旨在说明存储层从原对象存储过渡到文件存储。 小结 • 认识AI数据流管道,不同环节数据体量和相应读写IO特征(Fig-1); • 企业AI生产基础设施的存储堆栈特征(Fig-2); • 思得基于QLC闪存的AI生产解决方案及其核心优势(Fig-9
MLPerf Storage是用于AI基准测试的存储解决方案。 2. 存储对于AI非常重要,但需要大量数据和加速器来完成基准测试。 3. 使用MLPerf Storage可以轻松地测试AI应用程序的存储需求。 MLPerf:AI场景的存储测试标准-Fig MLPerf:AI场景的存储测试标准-Fig-1 AI系统中的数据管道 • AI的存储范围广泛且复杂。 • 基准测试AI系统需要昂贵的加速器。 MLPerf:AI场景的存储测试标准-Fig-6 队列深度对IO行为的影响 • 队列深度是应用程序或存储层(如文件系统)并行性的结果。 MLPerf:AI场景的存储测试标准-Fig-10 • 为 AI 进行存储基准测试成本高昂,并且寻找数据集十分困难。 • MLPerf 存储使得测试 AI 应用程序的存储变得更容易。
如果说AI基础设施是一台发动机,那么AI存储的角色,早已不是“油箱”,而是燃料的管道调度系统——决定算力是否能释放,数据是否能高效流通,链路是否能真正跑通。 AI存储不只是基础设施 也是产业智能化的催化剂 如果说GPU是AI的“燃料”,那么存储,就是数据的“发动机”。 过去,它常常被看作一项“边缘投资”——放在机房角落的设备,用于归档、备份、合规。 如果说以前是“算力等数据”,现在则是“存储决定算力的上限”。 更进一步,高效、稳定的数据调用体系也正在成为判断AI平台SLA等级的关键指标——没有强大的存储,就没有可用的大模型。 IDC数据显示,2025年二季度全球AI计算与存储硬件投入约820亿美元,同比增长166%,并预计到2029年全球AI基础设施市场将达到7580亿美元。 其中,AI存储发挥的价值将越来越大——当模型多、任务多、租户多成为常态,存储系统需要承担更多“计算之外”的职责,包括缓存调度、能耗管理、任务优先级与服务质量(QoS)等。
随着AI在企业中的扩展,将强大存储解决方案与AI工作负载集成变得愈发重要。在当今AI驱动的环境中,数据是客户差异化的关键,其性能和可靠性对于实现AI的全部效益至关重要。” “有效的数据管理是AI项目性能、质量和成本效益的基础。AI优化存储在这方面起着关键作用,行业迫切需要一致的方法和接口来使用AI优化存储。荣幸与SNIA合作推进这些标准和解决方案。” 通过开放方法共同构建Storage.AI,可以加速创新并创建AI蓬勃发展所需的数据基础设施。”“AI工作负载要求存储解决方案具有前所未有的效率、可扩展性和性能。 人工智能的强大程度取决于其下的数据存储平台,AI的未来需要现代、可扩展的基础设施,构建时注重灵活性、性能和治理。”“随着AI工作负载需要更快速、更高效的数据处理,需要协作方法来解决随之而来的存储挑战。 很高兴加入SNIA Storage.AI倡议,贡献在内存和存储解决方案方面的专业知识,帮助制定行业标准、非专有方法,优化AI性能和效率。”
AI存储网络接口的速度之争 AI存储网络接口分为外部接口和内部接口。 根据大成鹏的客户的实际使用情况,目前AI算力使用是400G和200G为主,AI存储则以200G为主。 根据大成鹏的客户的实际使用情况,目前AI算力使用是800G和400G为主,AI存储则以400G和200G为主。 根据大成鹏的客户反馈情况,目前AI存储不会使用FC网络,国内设备主流还停留在16GFC和32GFC,速率跟不上算力需求。16GFC和32GFC使用的封装为SFP28。 存储领域,FC和SAS网络接口已经远远的赶不上以太网和IB。
ChatGPT的背后是AI的蓬勃发展。AI领域的大部分问题都是如何提高机器学习效率的问题,即如何能让机器更高效地学习客观物理世界并代替人类执行工作任务。 存储资源盘活系统会充分利用用户的全部资源来提供最好的性能,帮助用户进一步提高现有硬件资源的利用率。这对于硬件更新换代频率很快的AI领域来说是好消息:再也不用担心被淘汰的设备闲置了。 因此,存储资源盘活系统可以在同一个Linux操作系统实例中与其他应用程序并发运行,在不影响整体功耗的情况下大大提高了硬件利用率,也在一定程度上缓解了AI机房“耗电高”的痛点。 对于AI行业中训练样本、模型参数的指数级增长,存储资源盘活系统可以自如应对。 据《纽约时报》近日报道,谷歌宣称ChatGPT是其搜索业务的“红色警报”(Code Red),它的搜索量呈病毒式发展。 在AI的时代来临之前,存储资源盘活系统可以为其构建坚固、灵活的存储底座。
近日,国际权威咨询机构 Frost & Sullivan(沙利文)正式发布《2025年中国 AI 云存储解决方案市场报告》。 硬核实力,打造领先 AI 存储底座腾讯云 AI 存储解决方案是一个集统一、高效、高性能、灵活和智能于一体的综合性数据解决方案,帮助企业告别传统的数据管理难题,全面释放数据的巨大潜能,加速数字化转型和业务创新 拥抱智能未来,存储先行在 AI 浪潮席卷全球的今天,强大的云存储基础设施是智能化升级的关键基石。 腾讯云存储将持续投入技术创新,深耕 AI 场景,以更便捷、更稳定、更经济的存储服务,助力千行百业释放 AI 潜能,加速迈向智能未来。 扫描下方海报二维码,解锁沙利文《2025年中国 AI 云存储解决方案市场报告》原文!
存储方面,华为、阿里云、百度智能云、腾讯云等大厂,都相继推出了面向AI大模型的存储方案。 那么作为基础设施的三大件之一的存储,在AI大模型的场景下到底发生了哪些变化?又有哪些新的技术挑战? AI大模型带来的 存储挑战 算力、算法、数据,在发展AI过程中的重要性早已为人所熟知,但是作为数据的承载,存储却往往被忽略。 目前,国内各大厂商也相继发布了面向AI大模型场景的存储方案。 2023年12月,百度智能云发布了“百度沧海·存储”统一技术底座,同时面向数据湖存储和AI存储能力进行了全面增强。 在AI大模型的倒逼下,存储创新已在路上。
安防监控视频集中存储/云存储EasyCVR视频汇聚平台基于云边端一体化架构,可支持多协议、多类型设备接入,视频监控综合管理平台具有强大的数据接入、处理及分发能力,能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚 、整合、存储、集中管理。 在对接AI算法中台/数据中台/边缘计算硬件上, 视频分析EasyCVR可以获取AI检测识别的告警信息,并在平台【告警查询】模块中展示,支持通过告警类型、告警级别等进行检索和查看。 近期有项目提出需求,将智能视频监控综合管理系统EasyCVR对接AI算法平台接口,希望将返回的分析数据持久化保存到EasyCVR服务,并且在页面列表展示。今天来分享一下实现方式。 1)创建分析结果数据结构,如下:2)将数据写到数据库,如下:3)前端页面展示如下:视频存储磁盘阵列/安防视频监控/视频汇聚EasyCVR平台的告警功能,可以对监控设备上传的告警(离线、遮挡、故障等)及AI
索尼欲开发人工智能 投资美国AI创业公司 索尼本周表示,计划发展人工智能业务,并使其成为主要的营收来源。这一计划将从投资美国创业公司Cogitai开始。 来源:新浪科技 IBM发布“相变存储”技术 比现有闪存快70倍 IBM的研究员哈里斯·珀奇迪斯在周二的巴黎存储技术大会上宣布,单个相变存储单位已可以保存三位数据。 这意味着相变存储的技术成本下降,相对于传统存储技术更具竞争力。他认为,相变存储技术将于2017年成功商用。 目前,手机和PC使用两种技术保存数据,分别为能耗较大的DRAM动态存储,以及存取速度较慢、成本较低的闪存存储。相变存储技术结合了DRAM和闪存的优点。 DRAM的存取速度是相变存储的5到10倍,但相变存储的存取速度是闪存的约70倍。因此,搭载相变存储元件的手机应用加载速度将更快。
此外,文中还讨论了QLC技术如何在不牺牲性能的前提下,提供更高的存储密度和更低的成本,这对于大规模AI部署尤为重要。 文章为工程师和架构师提供了一个关于如何有效利用现代存储技术来支持AI应用发展的深入视角。 议程 AI/ML 数据管道概述 AI/ML 集群中的数据移动 基于 FIO 的工作负载性能 SSD 使用范围 Note 鹏弟9月末曾整理过一篇 Solidigm 发布的存储产品材料,与本文较类似,差异点在于本文对 AI 工作流的数据意识 关注以下重点: AI数据生产流大概可划分为5个过程,分别为:数据摄入(数据湖存储)、数据准备(基于ETL或AI分拣)、模型开发(即通常意义的训练环节)、模型应用(区分微调、推理和 这些数据帮助评估不同存储方案在 AI/ML 场景中的适用性。