
数据来源: 腾讯全球数字生态大会城市峰会,主讲人罗方华(浪潮集团)
金融行业正面临从“模型训练”向“大规模推理”转型的战略拐点,同时叠加外部供应链限制,导致算力基础设施建设面临多重瓶颈:
针对金融行业的复杂需求,通过“算力基建+平台+网关”的三层架构提供解决方案:
通过系统级优化,在算子加速、成本降低及集群部署上取得具体量化收益:
核心指标 | 量化数据 | 技术支撑 |
|---|---|---|
计算性能 | 提升40%以上的Token生成速度 | 自研推理框架算子加速 |
运维成本 | 维持相同性能下,FP8精度可降低一半机器 | 低精度量化与异构调度 |
部署效率 | 数十秒完成模型权重分发;数分钟完成千亿参数模型下载预热 | 一键部署与镜像分发机制 |
首字时延 | 64卡超节点为2台单机32卡方案的 41.4% | NVIDIA B200测试DeepSeek R1 671B模型 |
输出吞吐 | 5台64卡超节点为10台单机32卡方案的 108.6% | EP并行+PD分离架构 |
客户背景: XX银行
实施规模: 已部署近500张沐曦C500 GPU,扩容建设国产推理算力池。
业务现状:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。