2026年本地大模型(Local LLM)硬件选型实用指南

要多少内存、显存、GPU才够用?这是一份给工程师看的本地LLM硬件选型指南——不超买、不踩坑。

为什么要写这篇

在前一篇如何在日常工作中使用本地LLM模型中,我们讨论了为什么 要本地化部署LLM——隐私、离线可用、成本可控、可定制化。

但每个真正动手尝试的人,在五分钟之内都会撞上同一个问题:

"我这台机器到底能跑哪些模型?速度怎么样?"

模型卡上的"最低配置要求"在实战中几乎都不靠谱——通常过于乐观。本文是实战版本:真实数字、诚实的取舍,以及更新到2026年4月的具体硬件分层推荐。

内存基础公式

最重要的公式只有一个:

所需内存 ≈ (参数量 × 每参数字节数) + KV cache + 系统开销

就这样,其他都是这个公式的细化。

"7B"模型表示有70亿参数。在FP16精度下(每个参数2字节),仅加载权重就需要14 GB。此外还要算上:

KV cache — 与上下文长度和模型大小成正比。7B模型在8K context下大约1–2 GB,32K context下4–8 GB。
框架开销 — 通常额外10–20%。
激活内存 — 推理时较小,但不为零。

实战中,在纯权重大小的基础上预留约20–30%的余量。FP16的7B模型实际需要约18 GB可用内存,而不是14 GB。

这就是为什么 量化(quantization) 是本地LLM中最重要的概念。

量化简明说

量化是把权重从FP16(16位浮点)压缩为低精度整数表示。模型质量略有下降,但内存节省非常显著。

格式	每参数比特数	7B模型	14B模型	32B模型	70B模型	相对FP16质量
FP16	16	14.0 GB	28.0 GB	64.0 GB	140 GB	基准
Q8_0	8.5	7.5 GB	15.0 GB	34.0 GB	75 GB	~99%
Q6_K	6.6	5.8 GB	11.5 GB	26.5 GB	58 GB	~98%
Q5_K_M	5.7	5.0 GB	10.0 GB	23.0 GB	50 GB	~97%
Q4_K_M	4.8	4.2 GB	8.5 GB	19.5 GB	42 GB	~95%
Q3_K_M	3.9	3.4 GB	7.0 GB	16.0 GB	35 GB	~90%(质量下降明显)
Q2_K	3.0	2.6 GB	5.5 GB	12.0 GB	27 GB	显著退化

实用经验法则:

Q4_K_M 是默认的最佳平衡点。除非有特殊理由,否则就用它。
Q5_K_M 或 Q6_K 适合显存充裕、对质量有要求的场景(RAG、代码、推理任务)。
Q8_0 仅在内存非常充裕、追求接近FP16质量时使用。
Q3_K_M 及更低 仅在没有其他选择时使用——质量下降肉眼可见。

在典型的8K–16K context下,这些数字基础上再预留约25%给KV cache和系统开销。32K以上的长context会让KV cache显著膨胀,甚至成为内存占用的主要部分。

KV cache:经常被忽略的成本

KV cache的大小与context长度成正比。在长上下文的应用场景(长文档RAG、代码仓库、多轮对话)中,小模型的KV cache甚至可能超过权重本身。

FP16下每1K context的KV cache大约占用:

模型大小	每1K context
7B	~150 MB
14B	~250 MB
32B	~500 MB
70B	~1.2 GB

也就是说,32B模型在32K context下,光KV cache就要约16 GB。这是为什么很多人做长context RAG时会突然遇到OOM,而仅靠权重大小估算根本预测不到。一些推理引擎(llama.cpp、MLX)支持KV cache量化(KV用Q8或Q4),可以将其压缩到原来的1/2或1/4——质量损失通常可以忽略不计。如果你的工具支持,务必开启。

四个硬件分层

2026年的本地LLM硬件,实战上分为四个层级。请按你的主要用途选择,而不是按你最有野心的目标。

第一层 — 入门 / 笔记本日常使用

内存: 8–16 GB unified,或 8–12 GB VRAM
可流畅运行: 3B–8B(Q4_K_M)
Tokens/second: 15–35(对话场景可用)

现实硬件:

MacBook Air M2/M3/M4 16 GB
Mac mini M4 16 GB
笔记本 + RTX 4060 8 GB / 4070 8 GB
台式机 + RTX 3060 12 GB(性价比之选)

推荐模型(2026年4月):

Qwen 2.5 7B Instruct Q4_K_M — 中文表现优秀,多语言能力强
Llama 3.1 8B Instruct Q4_K_M — 通用基线模型
GLM-4-9B-Chat Q4_K_M — 智谱出品,中文场景表现稳定
Gemma 3 9B Q4_K_M — 较新,效率高
Phi-4 14B Q3_K_M — 体积小但能力强,量化偏紧

做不到的事: 真正的推理任务、大规模RAG、需要14B+模型的高质量量化。这一层适合对话、起草文档、轻量代码补全和基础摘要,别勉强它做更多。

第二层 — 性价比甜点(大多数读者应该在这一层)

内存: 24–48 GB unified,或 16–24 GB VRAM
可流畅运行: 13B–14B(Q5/Q6),32B(Q4)
Tokens/second: 25–80(取决于模型和平台)

现实硬件:

MacBook Pro M3 Pro / M4 Pro 36–48 GB
Mac Studio M2 Max 32 GB
台式机 + RTX 4070 Ti Super 16 GB
台式机 + RTX 4080 16 GB
RTX 3090 24 GB(二手) — 2026年依然是性价比之王。在咸鱼、华强北、淘宝二手市场可以找到合理价位
RTX 4090 24 GB(全新)

推荐模型:

Qwen 2.5 14B Instruct Q5_K_M — 多语言通用王者,中文能力一流
Qwen 2.5 32B Instruct Q4_K_M — 越级表现的明星模型
DeepSeek-R1-Distill-Qwen-32B Q4 — 这一层最强推理模型,本土团队作品
Llama 3.3 70B Q3_K_M — 勉强能跑,质量有损失但可行
bge-m3 或 Qwen3-Embedding-0.6B 作为嵌入模型搭配使用

这一层适合大多数专业用途:认真的代码助手、企业文档RAG、长文档摘要、中英日韩多语言工作流等。

第三层 — 进阶用户 / 小团队工作站

内存: 64–128 GB unified,或 32–48 GB VRAM
可流畅运行: 32B(Q6/Q8),70B(Q4_K_M)
Tokens/second: 70B级别 10–25

现实硬件:

Mac Studio M4 Max 64–128 GB
MacBook Pro M4 Max 64–128 GB(便携工作站)
台式机 + RTX A6000 48 GB(工作站卡)
RTX 3090 24 GB × 2张(共48 GB,NVLink可选)— GB单价最优
RTX 4090 24 GB × 2张(共48 GB,无NVLink)
RTX 5090 32 GB 单卡(新一代)

推荐模型:

DeepSeek-R1-Distill-Llama-70B Q4 — 开源推理模型的天花板
Qwen 2.5 72B Instruct Q4_K_M — 多语言旗舰
Llama 3.3 70B Instruct Q4_K_M — 旗舰开源权重模型
Qwen 2.5 Coder 32B Q6_K — 高质量专用代码模型

到了这一层,本地LLM才真正在严肃工作中具备实用性:适当量化的70B级模型在大多数任务上已经可以与中端云API掰手腕。RAG、agentic工作流、跨仓库代码生成——都能在这一层落地。

第四层 — 发烧友 / 生产服务器

内存: 192 GB+ unified,或 80–192 GB VRAM(多卡)
可流畅运行: 70B(Q8)、100B+模型、DeepSeek-V3这类MoE模型
Tokens/second: 高度取决于配置

现实硬件:

Mac Studio M3 Ultra / M4 Ultra 192–512 GB unified
RTX 3090 × 4张(共96 GB)上工作站主板
H100 80 GB 或 A100 80 GB 单卡(有二手市场)
RTX 6000 Ada × 2张 48 GB

这一层才能现实地跑动 DeepSeek-V3(671B MoE,激活37B) 这种模型——即便Q4,权重依然要350 GB+。MoE模型有个有趣特性:每个token只激活部分参数,所以在内存带宽极高的系统上(如Mac Studio Ultra),吞吐量可能出乎意料地好。

对大多数读者而言这一层属于过度配置,只有在为5人以上团队部署、运行生产级RAG、或做模型研究时才有意义。

Apple Silicon vs NVIDIA:诚实的取舍

这是最常被问的问题。诚实的答案是"看情况",但下面是真正能帮你做决策的对比:

Apple Silicon的优势:

统一内存架构 Mac Studio M4 Max 128 GB一台机器就能装下70B模型,而NVIDIA这边要么需要RTX A6000 48 GB,要么需要双3090
能效比 在M4 Max上跑70B模型大约只需80W;同样的负载用双3090会拉到600W+
静音、低发热、稳定 这点在小公寓或办公室环境很关键。台式GPU的噪音是真实的烦恼
没有驱动地狱 它就是能用

Apple Silicon的劣势:

同等NVIDIA硬件下推理速度更慢 70B模型在M4 Max上约12–15 tok/s;在双3090上约22–28 tok/s
高端内存的单价贵得多 Mac的128 GB远比双3090的48 GB昂贵
训练和微调生态有限 推理没问题,但MLX之外的训练比较痛苦
没有CUDA 大多数工具、库、研究代码都默认CUDA优先

NVIDIA的优势:

速度没什么好说的——纯推理吞吐量NVIDIA胜
CUDA生态 所有框架、所有论文、所有工具都优先支持CUDA
灵活性 加卡容易,升级容易
二手市场成熟 国内市场RTX 3090 24 GB流通量大,价格合理

NVIDIA的劣势:

散热和噪音 在南方夏天的房间里是个真问题
耗电高 双卡rig稳定600W+
驱动和CUDA版本混乱 时不时会坏
消费级单卡VRAM上限低 24 GB卡了消费级很多年,5090的32 GB只是小幅度提升

实战建议:

个人开发者、日常使用、希望安静: Mac,买你能负担的最大统一内存
个人开发者、追求速度、不介意桌面机: RTX 3090二手或4090
小团队、给同事提供模型服务: 双3090工作站
手头已有硬件: 用现有的就行,两边都能用

纯CPU能跑吗?

能跑,但不要把它作为方案核心。在DDR5和较新的CPU上,7B Q4模型大约能跑到4–8 tokens/second——非交互式批量任务勉强可用,但对话场景体验糟糕。13B及以上的模型在CPU上慢到无法交互使用。

如果服务器只能用CPU,llama.cpp配合所有CPU优化是首选工具。但通常正确答案是"买一张二手3090或一台Mac mini"。

决策树

flowchart TD
    Start["What is your primary use case?"]
    Start --> Daily["Daily chat, drafting, light coding"]
    Start --> RAG["RAG over private documents"]
    Start --> Code["Serious coding assistant"]
    Start --> Reason["Reasoning, analysis, agents"]

    Daily --> DailyMem["Need: 16-32 GB unified or 12 GB VRAM"]
    RAG --> RAGMem["Need: 32-64 GB unified or 16-24 GB VRAM"]
    Code --> CodeMem["Need: 48-96 GB unified or 24 GB VRAM"]
    Reason --> ReasonMem["Need: 96 GB+ unified or 48 GB+ VRAM"]

    DailyMem --> DailyHW["Mac mini M4 16-32 GB<br/>or RTX 3060 12 GB used"]
    RAGMem --> RAGHW["Mac M4 Pro 36-48 GB<br/>or RTX 3090 24 GB used"]
    CodeMem --> CodeHW["Mac Studio M4 Max 64 GB<br/>or RTX 4090 24 GB"]
    ReasonMem --> ReasonHW["Mac Studio M4 Max 128 GB<br/>or 2x RTX 3090 48 GB"]

常见踩坑

反复见到的错误模式:

按"想用的模型"买,而不是"会用的模型" 大多数用户90%的时间都在用8B–14B模型。别为了一个月碰两次的70B去买128 GB配置。
忽略KV cache 长context RAG和对话是完全不同的内存问题,要分别评估。
为"塞进去"而选Q3量化 如果不得不降到Q3_K_M才能装下,不如换个小模型用Q5_K_M跑,质量更好。
把模型和嵌入模型的内存预算混算 做RAG时嵌入模型和LLM都要在内存里,要分别计算。
忘了系统占用 给操作系统和应用预留4–8 GB,别把统一内存全分给LLM。
低估发热问题 南方夏天没空调的房间里跑双3090,会触发thermal throttling,实际算力打折扣。规划好通风。
误解MoE的内存需求 DeepSeek-V3虽然"激活37B",但671B全参数仍需加载到内存(或offload,但吞吐量会崩)。

实测基准数据(2026年4月)

单用户、约4K context下的推理速度参考:

硬件	8B Q4	14B Q4	32B Q4	70B Q4
MacBook Air M3 16 GB	22 t/s	OOM	OOM	OOM
Mac mini M4 24 GB	30 t/s	18 t/s	OOM	OOM
MacBook Pro M4 Pro 48 GB	45 t/s	28 t/s	14 t/s	OOM
Mac Studio M4 Max 128 GB	70 t/s	50 t/s	28 t/s	14 t/s
RTX 3060 12 GB	60 t/s	offload	offload	offload
RTX 3090 24 GB	110 t/s	75 t/s	35 t/s	offload
RTX 4090 24 GB	140 t/s	95 t/s	45 t/s	offload
RTX 3090 × 2 (48 GB)	110 t/s	75 t/s	50 t/s	22 t/s
RTX 5090 32 GB	170 t/s	115 t/s	60 t/s	offload