金融智算演进：基于异构算力与推理加速的国产GPU全栈落地路径

原创

IT资讯研究所

发布于 2026-06-01 21:04:24

1600

数据来源： 腾讯全球数字生态大会城市峰会，主讲人罗方华（浪潮集团）

金融行业正面临从“模型训练”向“大规模推理”转型的战略拐点，同时叠加外部供应链限制，导致算力基础设施建设面临多重瓶颈：

供应链断供风险： 美国制裁导致A100/H100相继被禁，2023年被定义为国产GPU产业化元年，海光DCU、华为昇腾910B等国产芯片需紧急补位。
算力规模门槛高： LO级预训练及L1级行业大模型训练需千卡级算力规模，中小客户难以独立支撑超节点方案建设。
技术适配成本高： 模型仓库构建、权重设置、框架适配及算子开发等技术难度大，导致模型适配优化工作量投入巨大。
推理场景复杂化： 长上下文处理需求增加，需构建按需分发的场景任务机制，并支持长/短上下文实例的热切换。

针对金融行业的复杂需求，通过“算力基建+平台+网关”的三层架构提供解决方案：

异构算力底座： 针对2026年国产GPU发展（预测显存带宽达HBM3E、支持FP8/FP4、卡间互联900GB/s），提供包含昆仑芯P900、沐曦C588/C600、海光BW 1100、阿里PPU在内的多品牌混合推理支持。
AI MaaS生态开放平台： 提供训推一体化服务，涵盖模型微调、应用推理、模型评估及部署。支持算法迁移、适配优化及算子开发，解决多模型实现首日适配的难题。
大模型服务网关： 基于Kubernetes，支持多维度路由策略（模型、版本、SLA），实现智能调度与负载均衡。
自研推理引擎技术栈：
- 架构： 大EP + PD分离分布式推理引擎。
- 加速： 利用RoCE网络与KVCache分级缓存实现“以存代算”。
- 调度： 支持Lora动态加载与Multi-Lora动态摆放策略，平衡流量调度。

通过系统级优化，在算子加速、成本降低及集群部署上取得具体量化收益：

核心指标	量化数据	技术支撑
计算性能	提升40%以上的Token生成速度	自研推理框架算子加速
运维成本	维持相同性能下，FP8精度可降低一半机器	低精度量化与异构调度
部署效率	数十秒完成模型权重分发；数分钟完成千亿参数模型下载预热	一键部署与镜像分发机制
首字时延	64卡超节点为2台单机32卡方案的 41.4%	NVIDIA B200测试DeepSeek R1 671B模型
输出吞吐	5台64卡超节点为10台单机32卡方案的 108.6%	EP并行+PD分离架构

KVCache优化： 通过全局共享KVCache资源池与智能网关全局调度，减少重复计算。
超节点效能对比： 针对DeepSeek R1 671B模型，单机64卡（1机）的效能指标为111.54，显著优于单机8卡*8机（453.05）的分散部署模式。

客户背景： XX银行

实施规模： 已部署近500张沐曦C500 GPU，扩容建设国产推理算力池。

业务现状：

模型覆盖： 已有6款大模型支持10万人调用，主要面向知识问答、合同审计。
技术适配： 以Qwen3-30B为例，每实例2卡沐曦C500部署（32K上下文），依托MXMACA软件栈兼容CUDA，60多款小模型将全部迁移至沐曦GPGPU。
场景应用：
- 智能服务： 整合投资分析、现金流管理的一站式智慧财富平台。
- 数字人交互： 基于SyncTalk、CogVideoX及DINet技术推动AI数字人落地。
- 视觉识别： 集成Fast-ReID（行人重识别）与RetinaFace（高精度人脸检测）。
- 风险控制： 实现信贷额度智能评测与广告海报自动生成（Stable Diffusion X）。

全场景兼容： 实现传统AI算力（英伟达+国产）全场景覆盖，支持从OCR、客服到生物识别的多样化需求，提供从LSTM模型到FP32单精度矢量算力的完整支持。
开发者生态： AI Ping平台已接入27+厂商、400+模型服务，通过“一码算力”实现全面融合与客观评测，解决开发者选型难、调优难问题。
产业趋势： 预测2026-2028年将实现国产GPU全栈替代。沐曦、摩尔、壁韧、天数等国产GPU芯片公司相继上市，配合头部云厂商（阿里磐久、百度天池等）推出的金融级超节点方案，共同推动金融智算集群发展。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。