在边缘设备上跑大语言模型(LLM),内存就是一切。 OOM、卡顿、启动崩溃、性能不稳定……90% 的问题都来自对「内存生命周期」与「统一内存架构」不理解。
本文基于 Jetson Orin 官方优化文档,用最直白、可落地、工程化的方式,完整拆解 LLM 推理五阶段内存行为,并给出 AGX Orin / Orin NX / Orin Nano 通用的优化方案。
本文所有分析、测试、结论,均基于以下真实生产环境:

这里选择 8B 模型,是因为这是边缘设备能稳定、实用、商用的最大模型规模。

Orin 的内存系统并非传统「CPU 内存 + GPU 显存」分离架构,而是Unified Memory(统一内存)。
使用统一内存的代价:所有资源在同个共享池争夺,只要一处 OOM就会导致整个系统崩溃。
LLM 从加载到执行,会经历五个完全不同的内存行为阶段。 90% 的 OOM 都发生在这里。

从存储设备读取模型权重,放入共享内存。
关键点

框架启动、缓冲区分配、引擎构建。

结论
KV Cache 用于缓存过去所有 token 的注意力状态,是执行期最大内存开销。

KV Cache = 2 × Layers × Hidden_Size × Context_Length × Bytes_per_Element × Batch_Size
Context Length 每增加 1 倍,内存几乎线性暴增。
推理分为两个完全不同阶段:

你感受到的卡顿/崩溃 = 几乎都在 Prefill
对话结束后:

当内存耗尽时会出现下面错误信息或系统直接 Kill 进程:
CUDA allocation failed很多人以为 8B 会占满 64GB,其实完全不会。

意味着: ✅ 可同时运行 LLM + VLM(视觉语言模型) ✅ 可多模型并行 ✅ 可长时间稳定运行
硬件型号 | 可用内存 | 适用模型 | Context 容忍度 | 推荐框架 |
|---|---|---|---|---|
AGX Orin 64GB | ~58–62GB | 8B ~ 30B+(量化) | 极高 | LLM + VLM 双模 |
AGX Orin 32GB | ~28–30GB | 7B ~ 13B | 中高 | 默认优化 |
Orin NX 16GB | ~14GB | 7B ~ 8B(限4bit) | 低 | llama.cpp |
Orin Nano 8GB | ~7.6GB | 2B ~ 7B(极限) | 极低 | 关闭 GUI + 极致优化 |
# 关闭桌面 GUI(立即释放 1–2GB)
sudo systemctl set-default multi-user.target
sudo reboot
# Jetson 专属系统监测
tegrastats
# 查看系统内存
free -h
# 查看 GPU 负载与共享内存
nvidia-smi只要按照本文配置,Llama-3.1-8B 可在 Jetson Orin 上长时间稳定、高效、安全运行,真正实现边缘 AI 商用价值。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。