首页
学习
活动
专区
圈层
工具
发布

#gpu

一文讲透 GPUDirect RDMA:它到底解决了什么问题?AWS 上哪些 GPU 实例能用?

悠悠12138

这两年搞大模型训练、分布式推理、HPC 计算,绕不开几个词:GPU、NVLink、NCCL、EFA、RDMA、GPUDirect RDMA。

15310

Python Agent多GPU随机变分推断SVI加速层次贝叶斯价格弹性估计|附智能体代码数据

拓端

全文链接:https://tecdat.cn/?p=45987 原文出处:拓端数据部落公众号

9410

PPIO 构建下一代 AI 出海基础设施:Serverless GPU、全球调度与推理优化三位一体

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

AI 出海面临的核心战略困境 全球AI市场呈现TOKEN出海(底层能力输出)与AI应用出海(上层产品变现)双轮驱动格局。中国模型在TOKEN消耗量上已占据全球5...

13810

金融智算演进:基于异构算力与推理加速的国产GPU全栈落地路径

IT资讯研究所

腾讯科技 | 研究员 (已认证)

本文基于腾讯全球数字生态大会内容,探讨金融行业在算力封锁与推理转型背景下,依托异构算力纳管与全栈推理服务架构,推动国产GPU落地的路径。方案通过自研推理引擎、K...

16010

腾讯与浪潮联合方案:实现金融大模型推理40%性能提升与国产GPU规模化替代

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

行业困境:金融AI算力面临规模化部署与成本控制挑战 金融行业正全面进入大模型推理时代,但面临三大核心瓶颈:千卡级训练算力规模使中小客户难以支撑;模型适配优化技术...

13710

没有GPU硬件加持,爱立信链路技术让性能高出15%

通信行业搬砖工

在通信产业波谲云诡的利益天平上,任何脱离财务常识与资本底色的宏大叙事,都会在季度财报的冷酷审计面前现出原形。

14910

Cloud Studio与HAI:为AI教学与应用开发提供便捷的GPU算力解决方案

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

破解AI教学与开发的高门槛算力困境 AI教育教学已上升为国家战略,根据国务院《新一代人工智能发展规划》,到2030年需实现人工智能“三步走”发展目标。然而,高校...

15620

TCS异构算力管理平台:实现多元芯片统一调度与GPU利用率倍增

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

突破异构算力管理瓶颈 在AI算力需求激增的背景下,企业面临多元芯片管理难题。IDC数据显示,2024年中国加速服务器市场规模达221亿美元,同比增长134%,其...

11200

NCP-AIN 备考(4):AI 数据中心设计之GPU 间通信优化

GPUS Lady

本课程隶属于英伟达认证专业人工智能网络工程师(NCP-AIN)培训体系,带你掌握面向人工智能业务的高性能网络拓扑设计与优化方法。

13310

LLM分布式推理终极方案——以GPU为中心的云原生架构

皮振伟

这三级缓存架构依然遵循“速度越快,单位成本越高,容量越小”的金字塔型结构。例如,NVMe的性能远低于DDR,但1TB内存的成本约为NVMe的30~100倍,因此...

24810

大厂裁员17万人的真相:你的年薪,只值8张GPU

老周聊架构

Meta 本周启动了首轮大规模裁员,砍掉约 8000 个岗位,占员工总数的 10%。Amazon 近几个月裁掉约 3 万人。Microsoft 向约 12.5 ...

24810

手撕 GPT#01:五分钟上手,手把手带你用CPU 原生训练中文GPT模型,“我没有 GPU”的问题解了!!!

烟雨平生

问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:RoPE 是什么? 答:RoPE 是旋转位置编码,...

14510

陈立武:Intel 18A良率狂飙,CPU与GPU配比将转向4:1

芯智讯

5月20日消息,英特尔CEO 陈立武近日在接受CNBC 的《Mad Money》 节目采访时强调,英特尔的晶圆制造工厂“非常重要”,并且称其为美国的“国家宝藏”...

18510

Elasticsearch 向量索引速度提升 12 倍:在 GPU 和 CPU 层部署 NVIDIA cuVS

点火三周

NVIDIA cuVS 在 GPU 上构建 HNSW 图,使 Elasticsearch 中的向量索引速度最高提升 12 倍。本文将介绍两种生产部署模式:模式 ...

11410
领券