如何在只有CPU的个人电脑上运行大模型服务？

半吊子全栈工匠

发布于 2026-06-15 12:13:33

880

文章被收录于专栏：喔家ArchiSelf喔家ArchiSelf

在本地运行LLM，为我们提供了一种既能充分利用 AI 能力，又能有效保护数据隐私的理想方式。相比依赖云端服务的使用模式，本地部署让我们在享受无限访问 AI 的自由的同时，避免了将敏感信息上传到外部服务器所带来的潜在风险。

一个显著的优势是无需依赖互联网连接。无论你身处飞机上、偏远地区，还是遇到云服务商临时宕机的情况，本地运行的 AI 依然可以正常工作，不会因网络问题而中断使用体验。

另一个关键优势是更强的数据隐私保障和控制权。当我们在本地运行 LLM 时，所有的交互内容都保留在自己的设备中，不会被记录、分析或用于训练未来的模型。这对于重视隐私保护的个人用户以及对合规性有严格要求的企业来说，尤为重要。

此外，本地运行还意味着无限制地使用 AI。你不再受限于 API 的调用频率、token配额或付费墙的限制。无论是进行长时间对话、批量生成内容，还是深度探索模型能力，都可以随心所欲地使用，而且完全免费。

那么，如果你只有一台没有 GPU 的普通电脑，是否也能运行这些大模型呢？答案是肯定的，但需要做一些技术上的调整和取舍。

要在仅有 CPU 的设备上部署大语言模型，需要仔细评估运行时的资源消耗情况。尽管现代的大模型通常依赖 GPU 的强大算力来进行高效推理，但通过模型量化、优化推理引擎、使用轻量级框架等方式，我们可以在 CPU 上实现基本可用的性能。

具体来说，在部署前应综合考虑以下几个方面：模型的精度格式（如FP16、INT8或更低）、激活内存的占用、注意力机制所需的缓存空间，以及运行时系统本身的额外开销。虽然 CPU 推理速度相对较慢，但在某些低频次、非实时的应用场景下，仍然具备实用价值。

1. 如果有GPU的话......

在使用 GPU 运行大语言模型（LLM）时，一个非常关键的概念就是 VRAM（视频内存）。它是 GPU 上专用的高速存储空间，用于存放模型的权重、激活值以及推理过程中产生的中间计算结果。

从物理结构上看，VRAM 是直接焊接在 GPU 主板（PCB）上的内存芯片，与我们熟知的系统内存（RAM）不同，它被设计为能够提供高带宽和低延迟的数据访问能力，这对图形渲染、深度学习训练与推理等高性能计算任务至关重要。

常见的 VRAM 类型包括：

GDDR6 / GDDR6X：广泛应用于消费级和专业级显卡中，如 NVIDIA 的 RTX 系列或 AMD 的 Radeon 系列；
HBM（High Bandwidth Memory）：一种更高性能的内存类型，常见于面向人工智能、科学计算等领域的高端 GPU，例如 NVIDIA A100 或 AMD MI300。

这些类型的 VRAM 都具备快速读写能力，是支撑现代 AI 推理的重要基础。

值得注意的是，系统内存（RAM）和 VRAM 是两个不同的概念。系统内存通常位于主板上，主要供 CPU 使用；而 VRAM 则专属于 GPU，并且大多数情况下 CPU 无法直接访问。不过也有一些例外，比如苹果 M 系列芯片所采用的统一内存架构（Unified Memory Architecture），允许 CPU、GPU 和 Neural Engine 共享同一块内存池。在这种架构下，内存资源可以根据当前工作负载动态分配，无需为 GPU 预留固定容量，从而实现了更灵活的资源调度，特别适合处理 AI + 图形 + 多任务混合的工作场景。

那么，为什么我们需要关心 VRAM 的大小呢？一个最典型的例子就是运行像 LLaMA 7B 这样的大模型。

以 FP16（16位浮点精度）格式为例，仅模型权重本身就需要约 14GB 的内存空间：

模型参数数量为 70 亿（7B）；
每个参数占用 2 字节（FP16）；
所需权重内存 = 7 × 10⁹ × 2 = 14 GB。

但这只是理论最低值。在实际运行中，推理过程还会引入多个额外开销，使得所需 VRAM 提升到大约 16～20GB。这些额外部分主要包括：

临时激活值：根据批量大小（batch size）、序列长度（sequence length）和隐藏层维度（hidden size）动态生成；
注意力缓存：每个 token 对应的键值对（Key/Value Cache），用于加速解码过程；
I/O 缓冲区用于数据输入输出的临时存储；
框架开销如 PyTorch、CUDA 等底层库所需的内存对齐和运行时支持。

因此，在估算 VRAM 使用量时，通常会建议加上约 20% 的“经验性冗余”，以便更准确地反映真实环境下的资源需求。

如果你打算在本地部署并运行大模型，理解 VRAM 的作用及其使用方式是非常重要的一步。它不仅决定了你能否成功加载模型，也直接影响了推理速度、上下文长度以及整体体验的流畅程度。掌握这些基础知识，将帮助你在选择硬件、优化模型配置时做出更明智的决策。

2.在本地运行 LLM的一般方法

搭建本地运行的LLM其实比你想象的要简单得多，甚至完全不需要写一行代码。无论你是完全没有技术背景的新手，还是经验丰富的开发者，都有适合你的工具来快速上手。以下是根据不同的使用经验和需求推荐的一些主流方案。

如果你是初学者或者希望用最简单的方式体验本地大模型，LM Studio 是一个非常理想的选择。它提供了一个图形化界面，操作直观、友好，几乎可以“开箱即用”。你可以直接在软件中浏览、下载各种流行的开源模型，并与 AI 进行交互聊天。更重要的是，它支持上下文注入功能——你可以上传 PDF、CSV 或 DOCX 文件（最大 30MB），让 AI 在回答问题时参考这些文档内容。这种能力实际上就是本地版的 RAG，非常适合用于文档总结、报告分析、知识问答等场景。

对于有一定技术基础、习惯使用命令行的开发者来说，Ollama 则是一个更灵活、功能更强大的选择。它是一个基于终端的工具，支持一键下载和运行多种主流模型，并提供了简单的 API 接口，方便集成到自己的项目中。Ollama 还支持模型量化格式（如 GGUF），能够在保持高性能的同时显著降低资源消耗，适用于 CPU 和 GPU 环境下的本地推理任务。无需依赖云服务，也不需要昂贵的硬件设备，非常适合做原型设计或私有部署。

如果你对性能有更高的要求，比如希望实现高并发、低延迟的推理服务，那么可以考虑使用 vLLM。这是由加州大学伯克利分校的 Sky Computing Lab 开发的一个高效推理引擎，专为追求极致速度的用户打造。它不仅支持多请求并发处理，还能显著提升解码效率，在实际应用中表现尤为出色，特别适合构建本地 AI 服务端、企业级智能助手或需要快速响应的应用场景。

而对于那些希望拥有完全掌控权、并愿意投入时间进行深入探索的人工智能爱好者或研究人员来说，手动安装和部署模型无疑是最具吸引力的方式。你可以从 Hugging Face 等平台下载 GGUF 格式的模型文件，并借助 Python 生态中的 Transformers 等库进行加载和运行。这种方式虽然门槛较高，但灵活性最强，尤其适合需要对模型进行微调、优化或定制化开发的高级用户。

随着工具链的不断完善，本地运行大模型已经不再是少数高手的专属领域。无论你是想轻松试水、快速验证想法，还是深入研究模型行为，都能找到适合自己的方式。掌握这项技能，不仅能让你更好地保护数据隐私，也能为未来构建个性化 AI 应用打下坚实的基础。

3.如果只有 CPU 的话……

在仅有 CPU 的笔记本电脑上本地托管大语言模型（LLM）可能听起来像是一个挑战，但其实通过一些优化和合适的工具，这一目标完全可以实现。首先，我们需要下载 Llama.CPP 并选择一个适合 CPU 运行的模型。

对于那些希望在 CPU 上运行 LLM 的用户来说，选择正确的模型至关重要。这里我们以 Llama 3.2 指令 3B 模型为例来说明整个过程。尽管它的体积较小，但对于推理任务来说表现相当不错。需要注意的是，这款模型缺乏广泛的世界知识，并且在处理复杂的推理任务时表现欠佳。然而，如果你的应用场景不需要这些高级功能，那么这可能是你唯一需要的模型。

毫无疑问，Hugging Face 是下载模型的最佳来源之一。当你打算为 CPU 下载模型时，请确保选择 GGUF 版本，因为这是 Llama CPP 支持的文件类型，而且大多数流行的模型都有对应的 GGUF 版本可供下载。

假设你已经成功下载了所需的模型文件，下一步就是安装 Llama.cpp。根据你的操作系统不同，有几种入门方式可以选择。我个人推荐安装 Python 绑定，因为它相对简单易用。只需使用以下命令即可完成安装：

pip install llama-cpp-python

几分钟后，就能准备好托管自己的模型了。作为一名 Python 开发者，可以选择这种方法，不过还有其他选项，比如 Docker 实现等。

接下来，可以使用下面的脚本来调用模型并打印输出结果：

from llama_cpp import Llama

# 实例化模型
my_aweseome_llama_model = Llama(
    model_path="./path/to/model.gguf",
    n_ctx=128
)

prompt ="写一首关于月亮的诗"
max_tokens =100
temperature =0.3
top_p =0.1
echo =True
stop =["Q","\n"]

# 定义参数
model_output = my_aweseome_llama_model(
       prompt,
       max_tokens=max_tokens,
       temperature=temperature,
       top_p=top_p,
       echo=echo,
       stop=stop,
)
final_result = model_output["choices"][0]["text"].strip()

这段代码展示了如何利用 Llama.cpp 来执行最基本的推理任务。虽然这是一个非常基础的应用示例，但它足以让你开始探索更多可能性。例如，你还可以尝试托管像 Gemma3 这样的多模态 LLM，并输入图像数据进行处理。

当然，上述内容只是 Llama.cpp 功能的一个小片段。若想了解更多高级用法或详细配置，请参考官方文档获取更多信息。

4.哪些 LLM 在 CPU 上表现最好？

对于仅依赖 CPU 的用户来说，找到能在本地高效运行的大语言模型（LLM）是一个挑战。经过对几十个较小且量化的 LLM 进行测试后，个人发现只有少数几个模型能够在合理的速度下提供满意的响应。

Meta Llama 3（特别是 Llama 3.23B） 是测试过的模型中，平衡大小与性能的最佳选择。该模型文件为 unsloth/Llama-3.2-3B-Instruct-GGUF，它虽然体积不大，但功能强大，非常适合用于检索增强生成（RAG）、分类或摘要等任务。在英特尔酷睿 i5、16GB 内存的笔记本电脑上，这款模型能够以每秒约 16 个token的速度生成文本，这对于一般配置的笔记本电脑而言已经相当不错了。值得注意的是，这里使用的是 4 位量化的版本，这在不影响性能的前提下显著减少了资源需求。尽管它可能不适合生产环境，但对于原型设计来说，它无疑是一个出色的选择。此外，如果对资源占用有更高的要求，还有一个 1B 版本可供尝试。

另一款表现出色的模型是 Microsoft Phi-3-mini-4k-instruct，其模型文件为 microsoft/Phi-3-mini-4k-instruct-gguf。在我的测试中，这款模型在相同设备上的token生成速度与 Llama 3.23B 相近，达到了每秒 12 个token。然而，它的响应质量有时甚至优于 Llama 模型，特别是在推理能力方面表现尤为突出。尽管 Phi-3 的上下文窗口较小，但它在速度和性能之间找到了一个良好的平衡点。

接下来是 DeepSeek-R1-Distill-Llama-8B，其模型文件为 unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF。尽管原始的 DeepSeek R1 模型由于资源需求过高无法在普通笔记本电脑上运行，但经过蒸馏后的版本却可以在 CPU 上流畅运行。蒸馏技术通过将大模型的知识转移到小模型中，使得这款模型在同类大小的模型中表现出色。然而，它的主要缺点在于吞吐量较低，每秒只能生成 5-6 个token，这限制了它在批处理任务中的应用。尽管如此，对于代理工作流的原型设计而言，它仍然是一个不错的选择。

Google Gemma-3–27B-it-GGUF（模型文件：unsloth/gemma-3-27b-it-GGUF）是一款多模态 LLM，尽管它太大以至于无法在笔记本电脑上运行，但在 AWS 实例上，它曾帮助我在几分钟内为数百张图片添加了标题。它是在 CPU 上能找到并运行的最好的多模态 LLM 之一。虽然还有其他选项如 Llama 4 Scout，但由于它相对较新，尚未有机会对其进行测试。

最后，值得一提的是Qwen/Qwen2.5-7B-Instruct-GGUF。Qwen 2.5 在编码任务方面表现优异，尤其是在小型 LLM 类别中。在笔记本电脑上，它的token生成速度约为每秒 9 个，表现尚可。尽管尚未在云环境中进行测试，但我相信更强大的处理器和额外的 RAM 能够进一步提升其性能。随着 Qwen3 的发布，未来可能会带来更快、更好的编程模型。

只要选择了合适的模型，并根据具体需求进行优化，即使是普通的笔记本电脑也能实现令人满意的效果。