搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

910b训练环境配置
首先需要了解CUDA和CANN以及pytorch和pytorch-npu之间的关系：
1.3K10编辑于 2025-06-04
来自专栏along的开发之旅
Ascend 910b上 paddle安装及运行报错排查
910b上安装paddle最新版还是比较容易的.安装参考官网:pip install paddlepaddle==3.0.0 -i https://www.paddlepaddle.org.cn/packages
1.5K10编辑于 2025-04-25
来自专栏along的开发之旅
Ascend 910b vllm运行报错: cannot import name log from torch.distributed.elastic
在Ascend 910b上运行vllm报错.
83110编辑于 2025-04-24
来自专栏along的开发之旅
Ascend 910b 运行vllm报错 libatb.so: cannot open shared object file
ascend上运行vllm报错, 说找不到 so库OSError: libatb.so: cannot open shared object file: No such file or directory
1.2K10编辑于 2025-04-24
来自专栏芯智讯
中国市场需求不佳，传英伟达下调H20芯片价格！
在某些情况下，英伟达H20芯片的售价已经比华为Ascend 910B低10%以上。相较之下，华为Ascend 910B售价约在12万元人民币左右。需要指出的是，英伟达H20是受美国出口管制影响下，英伟达针对中国市场推出的一款“阉割”产品。部分性能甚至不及Ascend 910B。显然，这样性能并不能满足中国AI厂商的需求。报道显示，在过去六个月中，只有五个买家或附属买家表示有兴趣购买H20芯片，而同期Ascend 910B芯片的购买者则达到十几个。相比之下，分销商销售的Ascend 910B单卡价格超过12万元，而八卡服务器的单卡价格为130万元至150万元。需要指出的是，去年Ascend 910B才开始加入AI市场竞争，并且供应量相对有限。
2.5K10编辑于 2024-05-28
来自专栏数通
架构之争：探秘英伟达与华为/海思GPU性能差异
英伟达GPU L2/T4/A10/A10G/V100对比：英伟达A100/A800/H100/H800/华为Ascend 910B对比：一句话总结，H100 vs. 对于 8 卡 A800 和 910B 模块而言，910B HCCS 的总带宽为392GB/s，与 A800 NVLink (400GB/s) 相当。然而，两者之间也存在一些区别。，8*A800也是类似的全网状拓扑）；华为HCCS采用对等拓扑（没有 NVSwitch 芯片之类的东西），所以（双向） GPU-to-GPU 最大带宽是56GB/s; H20/L20/Ascend 910B
3.1K10编辑于 2024-12-03
CANN：华为全栈AI计算框架的深度解析（终极扩展版 · 完整篇）
在昇腾生态中的战略定位 CANN位于昇腾AI全栈架构的中间层，向上支撑MindSpore、PyTorch、TensorFlow等主流框架，向下对接Ascend 310/910/910B等AI芯片。 FP16）典型应用场景 CANN支持情况 Ascend 310 8 TOPS 边缘推理、摄像头、无人机 ✅ 完整支持 Ascend 910 256 TOPS 数据中心训练 ✅ 完整支持 Ascend 910B data); hcclCommDestroy(comm); aclrtResetDevice(deviceId); return 0; } 性能分析：带宽利用率：在Ascend 910B causal=True, # 是否启用因果掩码（用于Decoder） softmax_scale=1.0 / math.sqrt(head_dim) ) 性能对比（Ascend 910B 链接到用户程序 g++ -o my_app main.cpp libmatmul.a -lacl -lhccl 应用场景与行业案例案例1：千亿参数MoE大模型训练硬件：1024 × Ascend 910B
1.5K10编辑于 2025-12-23
来自专栏福大大架构师每日一题
华为将大规模推出AI芯片，助力替代英伟达H100，打破限制！
据消息透露，910C芯片采用先进的集成工艺，将两个910B处理器集成在同一封装内，性能表现与英伟达H100相当，其计算能力和内存容量均为910B的两倍，并具备逐步优化的特点。
63610编辑于 2025-04-24
DeepSeek-V4：中国大模型的新范式革命—— 万字深度技术全景解析
3.1 硬件友好设计支持 FP8/INT4 量化：在昇腾 910B 上，V4-Flash 推理速度达 120 tokens/s； CUDA-Free：通过 OpenClaw 工具链，可在华为 NPU、 5.1 与华为昇腾深度协同模型训练：使用昇腾 910B 集群，配合 MindSpore 2.3；推理优化：通过 CANN 8.0 工具链，实现算子融合与内存复用；性能：在 8 卡 910B 上，
7K210编辑于 2026-04-29
CANN 技术全景图：构建自主可控的 AI 全栈底座
二、逐层解析：CANN 的核心技术能力第 5 层：Ascend 芯片 —— 算力之源达芬奇架构 NPU：Cube 单元支持 INT8/FP16/FP32 混合计算；高能效比：910B 达 256 FP32）运行时：Medical SDK + DICOM-SR 输出合规：等保三级 + 模型加密效果：22 秒/例，医生采纳率 89% 案例 2：L4 无人配送车感知系统芯片：双 Ascend 910B
41210编辑于 2026-02-09
腾讯云AI代码助手私有化方案：覆盖软件开发全流程的效能提升实践
显卡资源可按需估算：POC场景（10人同时使用补全+对话）需2张华为昇腾910B或1张NVIDIA A100；生产场景50人同时使用需14张A10/6张A100，100人需26张A10/11张A100， 500人需130张A10/52张A100，1000人需256张A10/103张A100；华为昇腾910B方案40人需8张卡（1台AT800服务器）、100人需24张卡（3台服务器）、500人需96张卡（合规与适配能力：符合国内行业客户SMAF诉求，保障训练代码与补全代码的安全性；已适配华为昇腾910B显卡、麒麟v10 sp2操作系统，支持国产算力与操作系统环境；提供效能度量数据看板，包含代码补全次数、
19810编辑于 2026-05-31
来自专栏烧结银
纳米烧结银：“养龙虾OPENCLAM”背后铲子的铲子
一、逻辑链条的逐层验证1.纳米烧结银是AI服务器散热的核心材料AI服务器，如搭载英伟达H100、昇腾910B等AI芯片的服务器是高功率电子设备，其GPU、CPU等核心芯片功耗可达700W以上，需高效散热材料保障稳定运行例如：英伟达DGXH100服务器搭载8颗H100GPU，单柜算力达640PFLOPS，可支持大模型的分布式训练；华为昇腾910B服务器采用7nm工艺，单芯片算力达256TFLOPS，为大模型的推理提供高效算力
32910编辑于 2026-03-12
CANN 能效分析：如何实现 10 TOPS/W 的极致能效比
NX 2.1 TOPS/W 边缘推理 Apple M3 Neural Engine 8.5 TOPS/W 移动端 Ascend 310P（CANN） 10.2 TOPS/W 工业边缘 Ascend 910B yolov8_int8 效果：模型 FP16 功耗 INT8 功耗能效比提升 ResNet-50 8.2W 5.1W +58% BERT-base 12.4W 7.3W +69% 此外，Ascend 910B
53510编辑于 2026-02-09
来自专栏轻咨询服务
近海区域的海流指标监控实战分享-需要什么配置的AI服务器和云平台
从项目配置来看，往往同时训练多个指标，800T的算力满足一个指标足够，如果要并行多指标运算，建议配置910B，甚至910C 4核 512G内存，它们的性能才是工程之选。
26600编辑于 2025-04-09
来自专栏轻咨询服务
气象全球基础要素模型配置AI服务器实战术分享
综上，共要15+15+5=25P INT8算力，必须用910B/910C这些AI服务器，如果需要实时推理，还必须16个芯片，64核/片，并行计算，也就是64*16=1024核的AI服务器才能满足。
29600编辑于 2025-04-10
腾讯云智算解决方案：将大模型训练周期从50天缩短至4天
端网协同协议TiTa与通信库TCCL：在128GPU规模下，AllReduce通信性能达260GB/s，较友商提升50%以上（来源：异腾910B测试数据）。
16310编辑于 2026-05-31
744B参数只激活5%，这个纯国产训练的AI在编程上追平了Opus 4.6
744B参数只激活5%，这个纯国产训练的AI在编程上追平了Opus4.6大家好，我是摘星，今天我们来拆解一下GLM-5.1——智谱AI刚发布的744B参数旗舰开源模型，全程零英伟达GPU、纯华为昇腾910B 先看几个关键数字：指标GLM-5.1总参数量744B（7440亿）每次推理激活参数量40B-44B架构MoE（256个专家/每次激活8个）上下文窗口200Ktokens开源协议MIT训练硬件10万块华为昇腾910B 四、10万块昇腾910B：纯国产算力训练的工程挑战4.1为什么"不用英伟达"这件事很重要？先说背景。全球AI训练芯片市场，英伟达长期占据80%以上份额。 10万块昇腾910B，基于华为的MindSpore框架，从预训练到监督微调到强化学习对齐，全流程没有一块英伟达GPU参与。从芯片（昇腾910B）到框架（MindSpore）到模型（GLM-5.1），一条完全不依赖英伟达的完整技术链路被验证了。这不是PPT上的规划，而是一个744B参数的旗舰模型实实在在跑出来的结果。
93510编辑于 2026-04-11
腾讯云AI代码助手：以智能编码提升30%开发效率
部署灵活性：支持TCS容器化私有部署，显卡资源按需配置（如100并发用户需A100显卡11张或晟腾910B显卡24张）。
16110编辑于 2026-05-31
国产AI芯片崛起与场景化选型
2025年一季度量产的昇腾910C采用Chiplet封装技术，将两颗910B芯片整合在一起，基于中芯国际第二代7nm（N+2）工艺，集成约530亿个晶体管。场景二：大模型训练（70B~200B参数）- 推荐芯片型号：华为昇腾910B / 海光深算二号 / 寒武纪思元590- 推荐芯片数量：128~512张（千卡集群效率约65%）- 单卡算力范围：FP16约场景四：智算中心与政企基础算力底座- 推荐芯片型号：华为昇腾910B系列 / 海光深算二号 / 寒武纪思元690- 推荐芯片数量：128~512张集群起步，按项目需求扩容- 单卡算力范围：FP16约256
61410编辑于 2026-06-11
腾讯云运营商行业人工智能解决方案：从基础设施到场景落地的全栈重构
包含TACO加速、自研紫霄AI芯片、910B/H20算力支持，以及星脉高性能计算网络架构和向量数据库，确底层算力底座的稳健与高效（来源：P9, P13）。适配国产 910B算力，具备多租户能力，核心功能包括多轮问答与意图理解。成效：构建了从知识生产到运营的端到端流程，不仅消耗了自建算力池，还实现了研发管理的精细化与智能化（来源：P28）。 3.
68110编辑于 2026-02-04

第 2 页第 3 页第 4 页第 5 页

点击加载更多

910b训练环境配置

Ascend 910b上 paddle安装及运行报错排查

Ascend 910b vllm运行报错: cannot import name log from torch.distributed.elastic

Ascend 910b 运行vllm报错 libatb.so: cannot open shared object file

中国市场需求不佳，传英伟达下调H20芯片价格！

架构之争：探秘英伟达与华为/海思GPU性能差异

CANN：华为全栈AI计算框架的深度解析（终极扩展版 · 完整篇）

华为将大规模推出AI芯片，助力替代英伟达H100，打破限制！

DeepSeek-V4：中国大模型的新范式革命—— 万字深度技术全景解析

CANN 技术全景图：构建自主可控的 AI 全栈底座

腾讯云AI代码助手私有化方案：覆盖软件开发全流程的效能提升实践

纳米烧结银：“养龙虾OPENCLAM”背后铲子的铲子

CANN 能效分析：如何实现 10 TOPS/W 的极致能效比

近海区域的海流指标监控实战分享-需要什么配置的AI服务器和云平台

气象全球基础要素模型配置AI服务器实战术分享

腾讯云智算解决方案：将大模型训练周期从50天缩短至4天

744B参数只激活5%，这个纯国产训练的AI在编程上追平了Opus 4.6

腾讯云AI代码助手：以智能编码提升30%开发效率

国产AI芯片崛起与场景化选型

腾讯云运营商行业人工智能解决方案：从基础设施到场景落地的全栈重构

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐