2026年本地大模型(Local LLM)硬件选型实用指南

要多少内存、显存、GPU才够用?这是一份给工程师看的本地LLM硬件选型指南——不超买、不踩坑。


为什么要写这篇

在前一篇 如何在日常工作中使用本地LLM模型 中,我们讨论了为什么 要本地化部署LLM——隐私、离线可用、成本可控、可定制化。

但每个真正动手尝试的人,在五分钟之内都会撞上同一个问题:

"我这台机器到底能跑哪些模型?速度怎么样?"

模型卡上的"最低配置要求"在实战中几乎都不靠谱——通常过于乐观。本文是实战版本:真实数字、诚实的取舍,以及更新到2026年4月的具体硬件分层推荐。


内存基础公式

最重要的公式只有一个:

所需内存 ≈ (参数量 × 每参数字节数) + KV cache + 系统开销

就这样,其他都是这个公式的细化。

"7B"模型表示有70亿参数。在FP16精度下(每个参数2字节),仅加载权重就需要14 GB。此外还要算上:

  • KV cache — 与上下文长度和模型大小成正比。7B模型在8K context下大约1–2 GB,32K context下4–8 GB。
  • 框架开销 — 通常额外10–20%。
  • 激活内存 — 推理时较小,但不为零。

实战中,在纯权重大小的基础上预留约20–30%的余量。FP16的7B模型实际需要约18 GB可用内存,而不是14 GB。

这就是为什么 量化(quantization) 是本地LLM中最重要的概念。


量化简明说

量化是把权重从FP16(16位浮点)压缩为低精度整数表示。模型质量略有下降,但内存节省非常显著。

格式 每参数比特数 7B模型 14B模型 32B模型 70B模型 相对FP16质量
FP16 16 14.0 GB 28.0 GB 64.0 GB 140 GB 基准
Q8_0 8.5 7.5 GB 15.0 GB 34.0 GB 75 GB ~99%
Q6_K 6.6 5.8 GB 11.5 GB 26.5 GB 58 GB ~98%
Q5_K_M 5.7 5.0 GB 10.0 GB 23.0 GB 50 GB ~97%
Q4_K_M 4.8 4.2 GB 8.5 GB 19.5 GB 42 GB ~95%
Q3_K_M 3.9 3.4 GB 7.0 GB 16.0 GB 35 GB ~90%(质量下降明显)
Q2_K 3.0 2.6 GB 5.5 GB 12.0 GB 27 GB 显著退化

实用经验法则:

  • Q4_K_M 是默认的最佳平衡点。除非有特殊理由,否则就用它。
  • Q5_K_M 或 Q6_K 适合显存充裕、对质量有要求的场景(RAG、代码、推理任务)。
  • Q8_0 仅在内存非常充裕、追求接近FP16质量时使用。
  • Q3_K_M 及更低 仅在没有其他选择时使用——质量下降肉眼可见。

在典型的8K–16K context下,这些数字基础上再预留约25%给KV cache和系统开销。32K以上的长context会让KV cache显著膨胀,甚至成为内存占用的主要部分。


KV cache:经常被忽略的成本

KV cache的大小与context长度成正比。在长上下文的应用场景(长文档RAG、代码仓库、多轮对话)中,小模型的KV cache甚至可能超过权重本身。

FP16下每1K context的KV cache大约占用:

模型大小 每1K context
7B ~150 MB
14B ~250 MB
32B ~500 MB
70B ~1.2 GB

也就是说,32B模型在32K context下,光KV cache就要约16 GB。这是为什么很多人做长context RAG时会突然遇到OOM,而仅靠权重大小估算根本预测不到。一些推理引擎(llama.cpp、MLX)支持KV cache量化(KV用Q8Q4),可以将其压缩到原来的1/2或1/4——质量损失通常可以忽略不计。如果你的工具支持,务必开启。


四个硬件分层

2026年的本地LLM硬件,实战上分为四个层级。请按你的主要 用途选择,而不是按你最有野心的目标。

第一层 — 入门 / 笔记本日常使用

内存: 8–16 GB unified,或 8–12 GB VRAM
可流畅运行: 3B–8B(Q4_K_M)
Tokens/second: 15–35(对话场景可用)

现实硬件:

  • MacBook Air M2/M3/M4 16 GB
  • Mac mini M4 16 GB
  • 笔记本 + RTX 4060 8 GB / 4070 8 GB
  • 台式机 + RTX 3060 12 GB(性价比之选)

推荐模型(2026年4月):

  • Qwen 2.5 7B Instruct Q4_K_M — 中文表现优秀,多语言能力强
  • Llama 3.1 8B Instruct Q4_K_M — 通用基线模型
  • GLM-4-9B-Chat Q4_K_M — 智谱出品,中文场景表现稳定
  • Gemma 3 9B Q4_K_M — 较新,效率高
  • Phi-4 14B Q3_K_M — 体积小但能力强,量化偏紧

做不到的事: 真正的推理任务、大规模RAG、需要14B+模型的高质量量化。这一层适合对话、起草文档、轻量代码补全和基础摘要,别勉强它做更多。

第二层 — 性价比甜点(大多数读者应该在这一层)

内存: 24–48 GB unified,或 16–24 GB VRAM
可流畅运行: 13B–14B(Q5/Q6),32B(Q4)
Tokens/second: 25–80(取决于模型和平台)

现实硬件:

  • MacBook Pro M3 Pro / M4 Pro 36–48 GB
  • Mac Studio M2 Max 32 GB
  • 台式机 + RTX 4070 Ti Super 16 GB
  • 台式机 + RTX 4080 16 GB
  • RTX 3090 24 GB(二手) — 2026年依然是性价比之王。在咸鱼、华强北、淘宝二手市场可以找到合理价位
  • RTX 4090 24 GB(全新)

推荐模型:

  • Qwen 2.5 14B Instruct Q5_K_M — 多语言通用王者,中文能力一流
  • Qwen 2.5 32B Instruct Q4_K_M — 越级表现的明星模型
  • DeepSeek-R1-Distill-Qwen-32B Q4 — 这一层最强推理模型,本土团队作品
  • Llama 3.3 70B Q3_K_M — 勉强能跑,质量有损失但可行
  • bge-m3Qwen3-Embedding-0.6B 作为嵌入模型搭配使用

这一层适合大多数专业用途:认真的代码助手、企业文档RAG、长文档摘要、中英日韩多语言工作流等。

第三层 — 进阶用户 / 小团队工作站

内存: 64–128 GB unified,或 32–48 GB VRAM
可流畅运行: 32B(Q6/Q8),70B(Q4_K_M)
Tokens/second: 70B级别 10–25

现实硬件:

  • Mac Studio M4 Max 64–128 GB
  • MacBook Pro M4 Max 64–128 GB(便携工作站)
  • 台式机 + RTX A6000 48 GB(工作站卡)
  • RTX 3090 24 GB × 2张(共48 GB,NVLink可选)— GB单价最优
  • RTX 4090 24 GB × 2张(共48 GB,无NVLink)
  • RTX 5090 32 GB 单卡(新一代)

推荐模型:

  • DeepSeek-R1-Distill-Llama-70B Q4 — 开源推理模型的天花板
  • Qwen 2.5 72B Instruct Q4_K_M — 多语言旗舰
  • Llama 3.3 70B Instruct Q4_K_M — 旗舰开源权重模型
  • Qwen 2.5 Coder 32B Q6_K — 高质量专用代码模型

到了这一层,本地LLM才真正在严肃工作中具备实用性:适当量化的70B级模型在大多数任务上已经可以与中端云API掰手腕。RAG、agentic工作流、跨仓库代码生成——都能在这一层落地。

第四层 — 发烧友 / 生产服务器

内存: 192 GB+ unified,或 80–192 GB VRAM(多卡)
可流畅运行: 70B(Q8)、100B+模型、DeepSeek-V3这类MoE模型
Tokens/second: 高度取决于配置

现实硬件:

  • Mac Studio M3 Ultra / M4 Ultra 192–512 GB unified
  • RTX 3090 × 4张(共96 GB)上工作站主板
  • H100 80 GB 或 A100 80 GB 单卡(有二手市场)
  • RTX 6000 Ada × 2张 48 GB

这一层才能现实地跑动 DeepSeek-V3(671B MoE,激活37B) 这种模型——即便Q4,权重依然要350 GB+。MoE模型有个有趣特性:每个token只激活部分参数,所以在内存带宽极高的系统上(如Mac Studio Ultra),吞吐量可能出乎意料地好。

对大多数读者而言这一层属于过度配置,只有在为5人以上团队部署、运行生产级RAG、或做模型研究时才有意义。


Apple Silicon vs NVIDIA:诚实的取舍

这是最常被问的问题。诚实的答案是"看情况",但下面是真正能帮你做决策的对比:

Apple Silicon的优势:

  • 统一内存架构 Mac Studio M4 Max 128 GB一台机器就能装下70B模型,而NVIDIA这边要么需要RTX A6000 48 GB,要么需要双3090
  • 能效比 在M4 Max上跑70B模型大约只需80W;同样的负载用双3090会拉到600W+
  • 静音、低发热、稳定 这点在小公寓或办公室环境很关键。台式GPU的噪音是真实的烦恼
  • 没有驱动地狱 它就是能用

Apple Silicon的劣势:

  • 同等NVIDIA硬件下推理速度更慢 70B模型在M4 Max上约12–15 tok/s;在双3090上约22–28 tok/s
  • 高端内存的单价贵得多 Mac的128 GB远比双3090的48 GB昂贵
  • 训练和微调生态有限 推理没问题,但MLX之外的训练比较痛苦
  • 没有CUDA 大多数工具、库、研究代码都默认CUDA优先

NVIDIA的优势:

  • 速度 没什么好说的——纯推理吞吐量NVIDIA胜
  • CUDA生态 所有框架、所有论文、所有工具都优先支持CUDA
  • 灵活性 加卡容易,升级容易
  • 二手市场成熟 国内市场RTX 3090 24 GB流通量大,价格合理

NVIDIA的劣势:

  • 散热和噪音 在南方夏天的房间里是个真问题
  • 耗电高 双卡rig稳定600W+
  • 驱动和CUDA版本混乱 时不时会坏
  • 消费级单卡VRAM上限低 24 GB卡了消费级很多年,5090的32 GB只是小幅度提升

实战建议:

  • 个人开发者、日常使用、希望安静: Mac,买你能负担的最大统一内存
  • 个人开发者、追求速度、不介意桌面机: RTX 3090二手或4090
  • 小团队、给同事提供模型服务: 双3090工作站
  • 手头已有硬件: 用现有的就行,两边都能用

纯CPU能跑吗?

能跑,但不要把它作为方案核心。在DDR5和较新的CPU上,7B Q4模型大约能跑到4–8 tokens/second——非交互式批量任务勉强可用,但对话场景体验糟糕。13B及以上的模型在CPU上慢到无法交互使用。

如果服务器只能用CPU,llama.cpp配合所有CPU优化是首选工具。但通常正确答案是"买一张二手3090或一台Mac mini"。


决策树

flowchart TD
    Start["What is your primary use case?"]
    Start --> Daily["Daily chat, drafting, light coding"]
    Start --> RAG["RAG over private documents"]
    Start --> Code["Serious coding assistant"]
    Start --> Reason["Reasoning, analysis, agents"]

    Daily --> DailyMem["Need: 16-32 GB unified or 12 GB VRAM"]
    RAG --> RAGMem["Need: 32-64 GB unified or 16-24 GB VRAM"]
    Code --> CodeMem["Need: 48-96 GB unified or 24 GB VRAM"]
    Reason --> ReasonMem["Need: 96 GB+ unified or 48 GB+ VRAM"]

    DailyMem --> DailyHW["Mac mini M4 16-32 GB<br/>or RTX 3060 12 GB used"]
    RAGMem --> RAGHW["Mac M4 Pro 36-48 GB<br/>or RTX 3090 24 GB used"]
    CodeMem --> CodeHW["Mac Studio M4 Max 64 GB<br/>or RTX 4090 24 GB"]
    ReasonMem --> ReasonHW["Mac Studio M4 Max 128 GB<br/>or 2x RTX 3090 48 GB"]

常见踩坑

反复见到的错误模式:

  1. 按"想用的模型"买,而不是"会用的模型" 大多数用户90%的时间都在用8B–14B模型。别为了一个月碰两次的70B去买128 GB配置。
  2. 忽略KV cache 长context RAG和对话是完全不同的内存问题,要分别评估。
  3. 为"塞进去"而选Q3量化 如果不得不降到Q3_K_M才能装下,不如换个小模型用Q5_K_M跑,质量更好。
  4. 把模型和嵌入模型的内存预算混算 做RAG时嵌入模型和LLM都要在内存里,要分别计算。
  5. 忘了系统占用 给操作系统和应用预留4–8 GB,别把统一内存全分给LLM。
  6. 低估发热问题 南方夏天没空调的房间里跑双3090,会触发thermal throttling,实际算力打折扣。规划好通风。
  7. 误解MoE的内存需求 DeepSeek-V3虽然"激活37B",但671B全参数仍需加载到内存(或offload,但吞吐量会崩)。

实测基准数据(2026年4月)

单用户、约4K context下的推理速度参考:

硬件 8B Q4 14B Q4 32B Q4 70B Q4
MacBook Air M3 16 GB 22 t/s OOM OOM OOM
Mac mini M4 24 GB 30 t/s 18 t/s OOM OOM
MacBook Pro M4 Pro 48 GB 45 t/s 28 t/s 14 t/s OOM
Mac Studio M4 Max 128 GB 70 t/s 50 t/s 28 t/s 14 t/s
RTX 3060 12 GB 60 t/s offload offload offload
RTX 3090 24 GB 110 t/s 75 t/s 35 t/s offload
RTX 4090 24 GB 140 t/s 95 t/s 45 t/s offload
RTX 3090 × 2 (48 GB) 110 t/s 75 t/s 50 t/s 22 t/s
RTX 5090 32 GB 170 t/s 115 t/s 60 t/s offload

"OOM" = 内存不足。"offload" = 部分卸载到CPU,吞吐量下降5–10倍。

实际数字会随量化方式、context长度、prompt处理、软件栈(llama.cpp / MLX / vLLM / Ollama)变化。请把这些数据当作参考,而不是承诺。


总结

本地LLM最优硬件,就是能跑动你实际使用的模型类别、且为KV cache和系统留足余量的最便宜配置 。对2026年的大多数专业用户来说:

  • Mac mini M4 24–32 GB — 日常使用
  • Mac Studio M4 Max 64 GB 或 二手RTX 3090 — 严肃工作场景
  • Mac Studio M4 Max 128 GB 或 双3090 — 团队级或70B级别工作负载

不要为不会兑现的野心超买。也不要省到不得不用Q3量化拖累质量。最佳点在第二层,大多数人在那里都很舒服。

硬件就位之后,下一步是选择推理栈并接入实际工作流。这两个话题我们在其他文章中讨论过:

如果你在为组织级部署选硬件——多用户、与现有系统集成、安全合规要求——那是另一场对话。联系我们,我们帮你把规模算对。


Simplico为泰国、日本及全球客户构建生产级AI、ERP和安全系统。我们已为工厂环境、SOC工作流和文档智能平台部署过本地LLM技术栈。如果你的本地LLM项目正在启动,需要工程视角而不是销售话术,请联系 tum@simplico.net 或 LINE @simplico。


Get in Touch with us

Chat with Us on LINE

iiitum1984

Speak to Us or Whatsapp

(+66) 83001 0222

Related Posts

Our Products