首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏存内计算加速大模型

    架构优化:为模型提升铺平道路

    然而,模型的高效运行离不开强大的支持,而存架构的优化则是提升的关键所在。本文将探讨现有模型的需求以及RRAM架构优化如何为模型提升提供动力,为开发者提供一些实用的指导。 需求指数级增长,模型参数指数级增长。经过大规模预训练的模型,能够在各种任 务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等。 随着海量数据的持续 积累、人工智能多样化与算法的突破,模型参数规模呈现指数级增长,先后经历了预 训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现百万亿级突破。 与此同时,需求也呈现指数级增长。从行业分布上看,模型的应用领域逐步从学术拓 展至产业,2010 年后产业界对模型的应用与需求显著增长,成为主导力量。AI 期刊论文与开源项目快速增长。 2.2、存内计算技术的潜力为了应对模型的巨大需求,存内计算技术提供了一种潜在的解决方案。存内计算技术的基本思想是将数据计算移动到存储器中,实现原位计算,消除带宽限制和数据传输成本6。

    1.1K10编辑于 2024-05-14
  • 来自专栏大模型应用

    模型架构对比:Decoder-only、Encoder-Decoder、MoE深度解析.71

    注意机制:模型的核心大脑,负责捕捉文本/数据中的上下文关联,是消耗的核心来源之一,不同架构的注意机制设计差异极大。 legend(fontsize=10)ax2.grid(True, alpha=0.3)# 调整布局,保存图片(保存到当前工作目录,格式为png)plt.tight_layout()plt.savefig("模型架构对比图 .png", dpi=300, bbox_inches="tight")plt.show()print("图片已保存为:模型架构对比图.png")结果图示:图例说明:子图 1(普通坐标):可以看到 理解模型发展趋势:模型的发展始终围绕“提升能力”和“降低成本” 两个核心,Decoder-only 架构的流行、MoE 模型的兴起,都是优化的结果,理解差异可以帮助我们把握模型的未来发展方向 三种模型架构核心差异主要体现在注意机制、参数量与计算密度上,整体消耗从高到低依次为 Encoder-Decoder、Decoder-only、MoE 架构

    22543编辑于 2026-04-09
  • 来自专栏科技云报道

    更要“利”,“精装”触发模型产业新变局?

    自生成式人工智能服务(AIGC)和GPT模型训练爆火后,围绕、算法和数据相关的讨论此起彼伏,国产模型应用更是呈现出“千模大战”的状态。 众所周知,模型是一项“烧钱”的业务,而“烧钱”的最主要原因由于模型的计算复杂度很高,每次训练都需要使用大量的来进行计算和推理。 模型的需求是显而易见的,但更关键的点可能在于能否把更高效地挖掘出来。在不同的阶段,企业对于需求也不尽相同。 与需求一路高歌猛进形成鲜明对比的是,当前在力使用上仍面临许多挑战,存在着利用率低、混合算协同调度难等问题。 在这一过程中,模型尤其是垂类模型应用的发展,对智中心提出了更高要求,精细化、绿色化是智算算高质量发展的必然方向,投建逻辑将进入服务为主的2.0时代。

    83900编辑于 2025-03-04
  • 来自专栏大模型应用

    模型应用:拆解模型需求:是什么?怎么衡量?如何匹配?.64

    模型而言,核心体现在“单位时间内完成矩阵乘法、注意计算等核心操作的次数”。 2. 与显存、模型的协同三者并非孤立,而是形成“三角支撑”关系,缺一不可:显存决定:能否装下模型决定:模型运行速度内存决定:模型加载效率只有三者匹配,才能让模型流畅运行,其中任意的缺陷都会导致效率偏差或运行失败 模型、硬件匹配流程流程说明:4.1 确定模型参数与架构明确待部署模型的基本信息,包括:参数量(如 7B、13B、70B)网络架构类型:这是影响计算复杂度的关键因素。 根据架构不同,引入“架构系数”来反映其实际计算开销:若为 纯解码器结构(如 Llama、Qwen 等主流语言模型),其计算相对高效,架构系数取 2–2.5;若为 编解码器结构(如 T5),由于同时包含编码和解码过程 五、总结 力作为模型运行的核心支撑,其本质是硬件的计算效率,与显存、模型参数、精度形成紧密协同关系,脱离谈显存,模型只能“跑起来”却无法“跑流畅”;脱离模型,则会造成硬件资源浪费

    69764编辑于 2026-04-02
  • 来自专栏新智元

    即王道!千亿级AI模型,没有「网」怎么行?

    ---- 新智元报道 编辑:好困 yaxin 【新智元导读】就是生产,得者得天下。千亿级参数AI模型预示着大爆炸时代来临,不如织起一张「网」试试? 得者得天下。 模型,好使! 每次提到模型都避不开的就是: 1750亿参数的GPT-3。 为了训练GPT-3,微软新建了一个搭载了1万张显卡,价值5亿美元的中心。 汇聚:连接不同节点的高速网络,实现跨节点之间的合理调度,资源弹性分配,从而提升各个人工智能计算中心的利用率,实现对于整体能耗的节省,后续可支持跨节点分布学习,为模型的研究提供超级。 生态汇聚:采用节点互联标准、应用接口标准,实现网络内模型能力开放与应用创新成果共享,强化跨区域科研和产业协作。 各地中心就像大脑中数亿个突触,人工智能网络正如神经网络。 如此看来,网络的重要意义之一便是通过汇聚大数据+,使能了模型和重大科研创新,孵化新应用。 进而实现网络化,降低成本,提升计算能效。

    2K60发布于 2021-10-12
  • 来自专栏大模型应用

    模型应用:分层治理:基于模型四层匹配体系的优化方案.72

    ​一、引言 模型的应用,成了我们逃脱不开的话题,往往我们在谈到模型应用这个事情,焦虑似乎成了我们都会遇到的痛点。 今天我们一如既往对刨根问底,拆解三层核心构成与四层匹配体系,用通俗易懂的示例,和大家一起跳出加卡误区,掌握模型分层治理的核心逻辑,让每一份硬件投入都转化为实实在在的落地效率。 的三层核心构成这是模型的底层骨架,三层必须相互匹配,就像“木桶效应”,最短的那块板决定最终上限。 1.2 访存 模型的记忆与搬运工,如果说计算算是“手”,那么访存就是“眼睛+手臂+仓库”,它负责记住模型参数、临时中间结果,并在需要时快速把数据送到计算单元手上。 核心逻辑:当单卡无法满足模型的计算或存储需求时,需要使用多卡、多机构建集群。

    19043编辑于 2026-04-10
  • Coze玩转ChatGPT-4,存解决模型

    本篇文章将从费用和两个方面出发,先介绍一种免费使用ChatGPT-4的工具——Coze,再介绍可有效解决模型需求的存架构。 二.模型及存架构上一章节介绍了一种免费使用ChatGPT-4的工具,可以解决ChatGPT-4的费用问题,下面我将简单介绍ChatGPT-4引出的模型需求,并介绍一种解决方案——存架构。 如图44所示,模型需求增长速度约为750倍/2年,而芯片增长速度则仅为3.1倍/2年模型需求与芯片的不匹配已经成为当前主要矛盾。 图 44 模型训练需求与芯片增长速度的对比[5]模型的训练和推理不仅计算密集,而且极度依赖数据传输效率。 在这种架构下,内存不再仅仅是数据存储的地方,同时也成为数据处理的场所。这种架构能显著提高数据处理速度,降低能耗,是解决模型需求的一种具有极大前景的技术。

    2.4K10编辑于 2024-05-14
  • 来自专栏机器之心

    模型,如何越过AI门槛

    机器之心发布 机器之心编辑部 入局 AIGC,首先需要跨越对 AI 资源的考验 语言模型(LLM)的出现让人工智能的发展迈入新的阶段,也为其他许多行业打开了广阔的想象空间。 上月,彭博社发布了金融领域的垂类模型 BloombergGPT,基于开源的 GPT-3 框架,使用彭博社的金融大数据进行训练,展现出了极强的应用潜力,也充分印证了一点: 对于那些拥有丰富的领域专业知识和数据的公司 例如,可训练和部署 AI 聊天机器人,运行 DeepStream 流分析工具包,训练推荐系统 DLRM 模型,以及为数据科学家、数据工程师提供从数据准备、模型训练到预测的全流程加速支持。 在管理部署层面,宁畅可为用户提供稳定灵活的支持,以池化,弹性扩容,充分提升利用率。此外,宁畅还能够实现集群部署,按需调整,以集群的水平支持应用。 面对上百亿、千亿乃至万亿规模的训练参数,如何构建符合自身业务特点和需求的 AI 平台,进行计算资源的合理配置,让真正转化为生产

    1K30编辑于 2023-04-21
  • 来自专栏大飞的部落阁

    ARM和X86架构的CPU对比

    同时各大云计算厂商也推出了信创云(服务器),但是针对 ARM 和 X86 两种架构的 CPU ,很多人都存在疑问,今天我们就一起来对某主流云厂商的 ARM 和 X86 架构云服务器的 CPU 进行测试 工具安装 sysbench 用于测试 CPU 整型。 X86 的在整型计算能力上高出 2 倍多。 CPU 约为 X86 的 92%,表现还是不错的。 Tips 为什么 ARM 的整型比 X86 高? 因为 ARM 和 X86 的指令集架构不同,ARM 天生在简单指令处理中就比 X86 快,所以在整型计算中才能大幅领先。

    4.4K20编辑于 2022-06-17
  • 来自专栏新智元

    模型只有参数和?这款国产模型证明:落地为王!

    ---- 新智元报道   编辑:好困 David 【新智元导读】搞模型,什么最重要?突破天际的参数规模?不差钱的海量?还是一刷再刷的SOTA?这些可能都不是! 从结果上看,国网-百度·文心模型不仅提升了传统电力专用模型的精度,而且大幅降低了研发门槛,实现了、数据、技术等资源的统筹优化。 相信依托文心模型在开放生态上的持续发,百度AI生态建设无论是在深度和广度上都将迈上了新的台阶。 国产模型配国产架构,一个字:香 有模型,也必然会有相应的训练框架。 巨大的参数规模,以及不同模型平台之间的差异,给训练带来了极大的挑战。 飞桨分布式架构统筹考虑这些差异性问题,实现了端到端自适应分布式架构,根据模型平台的特点,自动选择并行策略,自动调优,高效执行,实现方案既具备通用性,又兼顾了高效性。

    2.1K20编辑于 2022-05-30
  • 重构模型落地链路:以弹性与多模态架构打破业务增长瓶颈

    拆解模型应用落地的场景耦合与错配困局 在泛娱乐、旅游规划及企业营销客服等高频交互场景中,企业推进模型应用落地时普遍面临底层资源利用率低下与业务层体验断裂的双重战略困境: 多模态知识处理与工作流强耦合导致流转僵化 部署全局智能体架构与动态调度引擎 针对上述瓶颈,腾讯云及行业生态伙伴提供了从底层、开发平台到音视频通信的端到端技术解决方案: 重构模型应用开发底座 (TCADP): 腾讯云智能体开发平台提供RAG 利用业务空闲期(低谷流量)自动部署开源模型执行数据蒸馏任务,实现资源的极致复用。 专用领域模型SFT微调与强化学习 (RL): 摒弃通用模型的冗余消耗,利用高质量私有行业数据进行SFT微调,并引入GRPO算法优化强化学习阶段,针对特定场景调优首字延迟与吞吐量。 沉淀全矩阵基础设施与核心组件护城河 腾讯云(及腾讯云智能高级产品架构师赵旭东、音视频产品总监崔立鹏团队)在底座能力上展现了明确的技术领先性与生态壁垒: 多模态解析能力行业破局: RAG框架搭载的OCR模型打破了业内普遍

    33120编辑于 2026-04-11
  • 来自专栏深度学习与python

    AI 模型竞争白热化,优化才是“超车点”?

    随着 AI 技术的高速发展,以及 AI 模型的广泛应用,AI 需求正在快速增加,大概每隔 3-4 个月就会增加一倍。 比如,特斯拉 FSD 全自动驾驶系统的融合感知模型训练消耗的当量是 500 个 PD。 可以看到,在 AI 模型时代,AI 领域的“军备竞赛”正从过去算法和数据层面的竞争,转变为底层的竞争。 1 AI 模型时代,需求爆发 作为 AI 的重要子领域,机器学习的发展最早可以追溯至 20 世纪 50 年代。 毫无疑问,AI 模型的训练是一个“非常昂贵的过程”。所以也有观点认为,成本是限制 AI 模型和生成式 AI 发展的因素之一。 “除了在软件、模型和算法层面进行多维度的优化之外,CPU 通用计算领域的发展历程可以为模型领域的成本优化提供一些借鉴意义”。蒋晓维提到。

    83730编辑于 2023-08-09
  • 来自专栏【腾讯云开发者】

    “GPT们”背后,谁来支撑模型训练需要的极致

    因此要充分发挥 GPU 计算资源的强大,必须构建一个全新的高性能网络底座,用高速网络的带宽来助推整个集群计算的高效率。   星脉组网架构 图3. 集合通信性能理论建模 上图从理论上展示了 1.6Tbps 带宽与 100Gbps 带宽的集合通信性能对比。 从集群的角度,相当于用同样的计算资源,超带宽网络能将系统提升48%。 图5. T5-MoE模型训练性能 上图是对 T5-MoE 模型的实测性能数据,主要通信模式是 All-to-All 。 同样可以看到,在64 GPU 模型下,1.6Tbps 带宽下的单次迭代训练耗时降低64%。从集群的角度,相当于用同样的计算资源,超带宽网络能将系统提升 2.8 倍。   All-to-All通信性能提升11倍 通信性能抖动减少85% 未来随着GPU的持续提升,GPU集群网络架构也需要不断迭代升级,才能保证系统的高利用率与高可用性。

    3.1K20编辑于 2023-03-24
  • 来自专栏腾讯云 DNSPod 团队

    “GPT们”背后,谁来支撑模型训练需要的极致

    其技术基座模型的给支持,往往伴随着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。业界主流 GPU 集群网络技术路线是什么?

    46020编辑于 2023-04-02
  • 来自专栏AI科技评论

    AI 模型开源之困:垄断、围墙与之殇

    国内在模型工作上的原创不足,就主要体现为盲追模型尺寸、但在底层架构上无甚创新,这是从事模型研究的业内专家的普遍共识。 清华大学计算机系的刘知远副教授向AI科技评论指出:国内在模型架构上有一些相对比较创新的工作,但基本上都还是以Transformer为基础,国内还比较缺乏像Transformer这种奠基式架构,以及BERT 3 不可承受之重: 模型开源的重要性是共识,但通往开源的路上还有一个巨大的拦路虎:。 这也正是当前模型落地所面临的最大挑战。 所以我们不得不直面模型开源后的窘境,那么,有哪些解决办法? 我们首先从本身的角度来考虑。未来大规模计算机群、中心的建设肯定是一个趋势,毕竟端上的计算资源终归难以满足需求。 「现在一张卡可以跑(就推理而言)一个十亿模型,按目前的增长速度,等到一张卡可以跑一个千亿模型也就是要得到百倍提升,可能需要十年。」张家兴解释。 模型的落地等不了这么久。

    74730编辑于 2023-04-12
  • 来自专栏大模型应用

    模型应用:模型优化方案:识别突破隐性瓶颈达到效能最大化.65

    一、引言 在模型落地实践中,我们都会面临一个共性困惑:明明显卡达标、模型量化适配,实际运行时却始终跑不满,甚至出现卡顿、显存溢出等问题。 模型级瓶颈体现在冗余计算的无声消耗之中,模型架构与参数设计中的冗余计算,会让在无效运算中流失:2.2.1 QKV注意冗余: 默认注意机制中,部分QKV矩阵维度存在无效运算 ,通过“注意头裁剪”可减少20%消耗,效果损耗仅3%;注意头太多会导致大量无效运算模型常用多头注意机制,但实际应用中30%~50% 的注意头对结果几乎没贡献。 边缘部署3.1 低功耗场景:平衡与功耗核心目标:在嵌入式GPU(如Jetson Orin、NVIDIA AGX Xavier)上部署模型,适配边缘设备低功耗、低延迟需求。 适配方案:量化+蒸馏+轻量化架构深度量化:采用INT4量化+模型蒸馏,将7B模型蒸馏为3B轻量化版本,需求降低60%,功耗控制在15W以内;架构适配:选用MobileLLM等边缘优化模型,替换原生Transformer

    30643编辑于 2026-04-03
  • 应对仿真潮汐,构建“存分离”混合云架构

    突破瓶颈与数据合规限制作为国内首家同时拥有高性能云端训练和推理产品的AI芯片设计企业,燧原科技致力于成为人工智能基础设施领域的领军企业。 在推进第二代人工智能训练推理产品组合的过程中,企业面临着严峻的研发效能与架构挑战:●应对仿真潮汐:在芯片仿真验证阶段,需求呈现爆发式增长(潮汐效应),导致本地资源短缺,系统稳定性下降,急需提升供给的弹性与稳定性 ●严守数据合规底线:出于严格的合规要求,核心代码与大量数据必须保留在本地存储,无法全量上云,造成了扩容与数据安全的冲突。 实施“存分离”混合云调度方案腾讯云联合速石科技,为燧原科技量身定制了**“存分离”**的混合云解决方案,通过精细化的架构设计解决资源与合规的矛盾:●构建云端弹性池:利用云上弹性计算资源,结合专线连接本地数据存储 ,实现云端数百台规格实例的在线仿真,解决本地资源瓶颈。

    30310编辑于 2025-12-22
  • 来自专栏大模型应用

    模型应用:矩阵乘加(GEMM)全解析:模型消耗的逻辑与优化.68

    重要作用 GEMM是模型的核心,体现在Transformer架构的核心模块(自注意机制、前馈神经网络)均以GEMM为核心运算,主要源于三优势:并行度极高:矩阵运算可通过GPU张量核心 这一公式是模型测算公式的底层核心,模型中的GEMM运算本质是高维矩阵乘法,其运算量直接决定了整体需求,后续测算的简化与校准均基于此公式展开。 同时验证了单头注意GEMM运算量理论值的准确性,帮助开发者理解高维场景下GEMM与模型架构的深度绑定关系。 四、GEMM与模型测算公式的关联大模型推理算测算公式(INT8精度:=参数量×序列长度×并发量÷100),本质是GEMM运算量的工程简化与校准。1. 综合以上因素,理论运算量经过系数校准(÷100)后,最终得到工程可用的简化公式,既保留核心逻辑,又降低了测算难度,适合快速估算模型推理的需求五、GEMM运算的优化策略GEMM运算的效率直接决定模型推理的利用率

    32032编辑于 2026-04-06
  • 来自专栏自然语言处理(NLP)论文速递

    拓展技术边界,掌握AI语言模型微调(LLaMA)方法 【赠

    一、训练(微调)-多GPU训练 当单GPU单张卡无法支撑模型的训练效率、无法放下一个模型,当业务对训练速度有一定要求,需要成倍的提高训练效率的时候,就需要GPU集群的技术来处理。 为了能够在比较普通的机器上也能微调模型,我们首先需要分析一下模型训练过程中都有哪些部分需要消耗存储空间。 在进行深度学习训练的时候,有4部分的显存开销,分别是模型参数(Parameters),模型参数的梯度(Gradients),优化器状态(Optimizer States)以及中间激活值(Intermediate 类比一下,既然是因为显存不足导致一张卡训练不了模型,那么ZeRO-Offload的想法就是:显存不足,内存来补。 基于模型的内在低秩特性,增加旁路矩阵来模拟全模型参数微调,LoRA通过简单有效的方案来达成轻量微调的目的,可以将现在的各种模型通过轻量微调变成各个不同领域的专业模型

    1.1K30编辑于 2023-10-24
  • 来自专栏大语言模型,算力共享

    OpenStack;异构网络架构服务与交易技术;服务编排与调度技术

    ​目录OpenStack一、OpenStack概述二、OpenStack的主要组件及功能三、OpenStack的架构四、OpenStack的应用场景异构网络架构服务与交易技术服务编排与调度技术OpenStack Neutron: 功能:提供网络服务,包括虚拟网络的创建和管理,支持多种网络模型(如公共云、私有云、混合云)和网络协议(如IPv4、IPv6)。 openstack/horizon: OpenStack Dashboard (Horizon) - horizon - OpenDev: Free Software Needs Free Tools异构网络架构对于异构资源 ,网络架构采用基于“K8S+轻量化 K8S”的两级联动 的架构来实现统一的资源调度纳管。 泛在资源的统一建模度量是调度的基础。针对泛在的资源,通 过模型函数将不同类型的资源映射到统一的量纲维度,形成业务层可理解、 可阅读的零散资源池。

    1.1K10编辑于 2024-08-03
领券