
一、正在崛起的国产算力格局
中国AI芯片产业近年来迎来加速突破的黄金窗口期。根据国际数据公司(IDC)于2026年4月发布的《2025年度中国云端AI加速器市场报告》,2025年中国市场AI加速卡总交付量达400万片,其中国产厂商交付165万片,市场份额一举跃升至41%。华尔街投行摩根士丹利预测,到2030年中国AI芯片市场规模将达到670亿美元,国产芯片有望满足约76%的市场需求。
英伟达虽仍在中国市场保持55%的份额(约220万张),但与过去近九成的垄断地位相比已大幅缩水。国产厂商中,华为昇腾以81.2万张的出货量断层领跑,贡献了国产总出货量近五成,全市占率约20%,排名第二。阿里巴巴平头哥出货约25.6万颗(份额约6.6%),百度和寒武纪分别出货约11.6万颗(份额约3%),构建起清晰的梯队格局。
这一突破背后,政策推动尤为关键。中国半导体的第三期“大基金”注册资本高达3440亿元人民币,专注AI芯片及设备产业。外媒更披露,中国拟出台规模2000亿至5000亿元的新专项扶持计划,与“大基金”形成双轨协同格局。在采购端,上海要求2025年新建智算中心国产芯片占比超50%,北京提出2027年实现100%自主可控智算中心建设能力,多地还推出“算力券”制度降低国产芯片的使用门槛。
尤为值得注意的是,中国AI芯片的战略角色正从“训练”转向“推理”。联想集团数据显示,未来用于推理的AI算力将占到70%以上。推理场景对芯片要求不同——它不追求单卡峰值算力最高,而更看重吞吐能力、能效比和单位算力成本,这恰恰是国产芯片加速突围的巨大机遇。
二、主流国产AI芯片进展
1、华为昇腾系列
华为昇腾以“一年一代、算力翻倍”节奏领跑国产AI芯片阵营。2025年一季度量产的昇腾910C采用Chiplet封装技术,将两颗910B芯片整合在一起,基于中芯国际第二代7nm(N+2)工艺,集成约530亿个晶体管。在FP16精度下算力约640~800 TFLOPS,内存带宽约3.2 TB/s,配备128GB HBM2e内存。
昇腾910C的推理性能可达H100的60%,已支撑Atlas 900超节点规模化部署。其768卡规模超节点系统已累计出货超过500套,成为国内唯一真正大规模商用的超节点方案。
2026年,昇腾步伐进一步加快。第一季度推出的950PR推理芯片,配128GB内存,带宽达1.6 TB/s,单卡算力达到英伟达H20芯片的2.87倍。第四季度即将登场的950DT训练芯片将配备144GB内存、4 TB/s带宽,首次采用华为自研HiZQ 2.0内存技术。基于950DT的超节点理论上可互联8192张芯片,FP8精度下总算力高达1 EFLOPS,其中1024卡规模版本已落地,专门用于训练万亿参数级大模型。下一代960和970芯片也已列入2027—2028年的路线图。
软件生态方面,华为坚持全栈开放。CANN编译器和Mind系列工具链全面开放,围绕昇腾生态的合作伙伴已超过3000家。2026年初,DeepSeek正式选择昇腾950PR作为新一代旗舰模型的算力底座,V4模型底层代码已从英伟达的CUDA框架迁移到华为自研的CANN框架。
2、寒武纪思元系列
寒武纪是国产大模型训练的重要供应商。思元590采用7nm工艺和全新MLUarch05架构,定位云端训练/推理一体。在INT8精度下算力达512 TOPS,FP16精度下约256 TFLOPS,性能达英伟达A100的80%,功耗却降低15%。思元590配备96GB HBM2e显存,能效比达5 TOPS/W,8颗芯片组成集群后可跑千亿参数大模型。
该芯片于2024年发布,2025年已批量应用于多家互联网公司的智算集群,2026年初实现全场景规模出货。同时,新一代思元690已完成2.24万张测试片生产,计划当年量产,性能目标瞄准H100的80%。寒武纪2025年全年营业收入约64.97亿元,同比增长453.21%,实现上市五年来的首次年度盈利,走在了国产AI芯片专业化公司的商业化前列。
3、海光信息深算系列
海光信息的深算系列走了一条独具特色的道路——采用GPGPU架构并高度兼容CUDA生态。深算二号采用“类CUDA”通用并行计算架构,其软件平台DTK支持国际主流商业计算及人工智能软件。性能较前代深算一号提升100%以上,国产化率超90%。
在训练侧,深算二号单卡FP16算力约256 TFLOPS,性能接近A100/H100的70%~80%,千卡集群实测效率约65%,已能稳定运行70B参数以内大模型。在推理侧,深算二号INT8算力达1 PFLOPS,功耗仅300 W,已批量进入互联网大厂的CDN、搜索推荐场景。在落地层面,其已批量进入运营商、金融、能源等行业,拿下的集采订单超过11亿元。海光已启动深算三号的研发,预计AI性能将较深算二号有数倍提升。
4、 燧原科技
燧原科技即将于2026年6月冲刺科创板上市,是国产AI芯片企业中坚定选择DSA(领域专用架构)路线的代表。该路线将特定算法和场景的计算、通信特性“硬化”到芯片中,具备更高能效比和性价比。目前已自研四代架构、五款云端AI芯片,构建起从芯片、加速卡到软件平台的全栈产品体系。据其IPO招股书,2025年燧原AI加速卡及模组销售量达6.6万张,对应中国AI加速卡市场占有率约1.7%。
5、GPU“四小龙”
摩尔线程、沐曦、天数智芯、壁仞科技组成的“国产GPU四小龙”在2025年底集体冲刺或登陆资本市场。天数智芯是国内首个实现7nm GPGPU量产的企业,天垓系列侧重训练,智铠系列侧重推理,在互联网、智能制造等领域的兼容性测试通过率极高。壁仞科技主打原创“壁立仞”架构与Chiplet封装技术,专注于千卡级集群和大规模算力部署中的系统级解决方案。四家企业虽都还处于投入阶段,但毛利率普遍在50%以上,展现出极强的商业化潜力。
三、当前的核心挑战
尽管国产AI芯片整体进展迅猛,但仍面临三重核心挑战:
第一,生态壁垒尚未完全破解。CUDA生态在全球AI开发者的使用习惯上占据绝对主导,国产芯片虽在兼容性方面持续努力,但在复杂模型适配、开发者生态完善度上仍与国际巨头存在约5~10年差距。
第二,高端制程依赖进口。先进芯片制造能力不足,制约性能的进一步提升。华为、寒武纪等头部厂商采用的7nm制程仍依赖境外代工厂或中芯国际有限的工艺线,大规模量产能力和先进制程获取能力存在一定瓶颈。
第三,国际竞争持续加剧。美国不断加码先进芯片出口管制措施,试图遏制中国AI芯片产业的快速发展,供应链的稳定性和可持续性仍需进一步提升。
四、普遍应用场景的芯片与集群选型推荐
场景一:中小规模推理与边缘推理
- 推荐芯片型号:昆仑芯(各系列)/ 海光深算二号 / 寒武纪思元370
- 推荐芯片数量:1~4张
- 单卡算力范围:FP16约128~256 TFLOPS
- 推荐理由:上述芯片面向推理场景优化,在高频、实时的业务调用中能效比较高,部署灵活,适合中小规模企业和边缘场景。
场景二:大模型训练(70B~200B参数)
- 推荐芯片型号:华为昇腾910B / 海光深算二号 / 寒武纪思元590
- 推荐芯片数量:128~512张(千卡集群效率约65%)
- 单卡算力范围:FP16约256~800 TFLOPS
- 推荐理由:在大模型训练中,千卡及以上集群的互联效率和规模化训练稳定性是关键考量。上述芯片已在大厂场景中得到验证,能够支撑70B参数以内的主流模型训练。
场景三:万卡级超大规模训练(200B~万亿参数)
- 推荐芯片型号:华为昇腾950PR / 950DT
- 推荐芯片数量:≥1024张
- 单卡算力范围:950PR在推理优化场景下单卡可达H20的约2.87倍
- 推荐理由:华为昇腾950系列超节点方案支持1024卡至8192卡的规模化互联,配合液冷散热和自研内存技术,是当前国内唯一经过大规模商用验证的超大规模训练集群选型方案。
场景四:智算中心与政企基础算力底座
- 推荐芯片型号:华为昇腾910B系列 / 海光深算二号 / 寒武纪思元690
- 推荐芯片数量:128~512张集群起步,按项目需求扩容
- 单卡算力范围:FP16约256~800 TFLOPS
- 推荐理由:智算中心对芯片的稳定性、国产化率、软件生态完整度要求极高。华为昇腾和海光等已具备从芯片到软件栈一体化的交付能力,产品已被国内智算中心大量采购,具备规模化交付的成熟经验。
场景五:科研、高校与中小型AI研发实验室
- 推荐芯片型号:天数智芯智铠系列 / 摩尔线程MUSA系列 / 昆仑芯
- 推荐芯片数量:16~64张
- 单卡算力范围:FP16约64~128 TFLOPS
- 推荐理由:这些芯片对开发者的迁移成本较低,兼容性较好,适合中小规模团队的快速原型验证、教学科研与模型调优工作。
五、总结
从2021年国产AI芯片市场份额不足5%,到2025年一举跨越至41%,中国AI芯片产业已完成从“跟跑”到“并跑”的关键转变。随着国家数万亿级别的投资注入、AI产业重心从集中式训练转向大规模推理应用,以及国产大模型与国产算力之间“国模+国芯”的深度绑定,国产AI芯片正加速步入从“可用”到“好用”的黄金年代。
可以预见,到2030年,国产芯片有望满足中国约四分之三的AI算力需求。在芯片设计、制造工艺、软件生态等全产业链的共同突破下,中国AI芯片产业正书写着从“拿来主义”到“自主定义”的时代篇章。这不仅是产业升级的红利,更是国家科技实力持续跃升的核心符号。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。