2026年本地大模型(Local LLM)硬件选型实用指南
要多少内存、显存、GPU才够用?这是一份给工程师看的本地LLM硬件选型指南——不超买、不踩坑。
为什么要写这篇
在前一篇 如何在日常工作中使用本地LLM模型 中,我们讨论了为什么 要本地化部署LLM——隐私、离线可用、成本可控、可定制化。
但每个真正动手尝试的人,在五分钟之内都会撞上同一个问题:
"我这台机器到底能跑哪些模型?速度怎么样?"
模型卡上的"最低配置要求"在实战中几乎都不靠谱——通常过于乐观。本文是实战版本:真实数字、诚实的取舍,以及更新到2026年4月的具体硬件分层推荐。
内存基础公式
最重要的公式只有一个:
所需内存 ≈ (参数量 × 每参数字节数) + KV cache + 系统开销
就这样,其他都是这个公式的细化。
"7B"模型表示有70亿参数。在FP16精度下(每个参数2字节),仅加载权重就需要14 GB。此外还要算上:
- KV cache — 与上下文长度和模型大小成正比。7B模型在8K context下大约1–2 GB,32K context下4–8 GB。
- 框架开销 — 通常额外10–20%。
- 激活内存 — 推理时较小,但不为零。
实战中,在纯权重大小的基础上预留约20–30%的余量。FP16的7B模型实际需要约18 GB可用内存,而不是14 GB。
这就是为什么 量化(quantization) 是本地LLM中最重要的概念。
量化简明说
量化是把权重从FP16(16位浮点)压缩为低精度整数表示。模型质量略有下降,但内存节省非常显著。
| 格式 | 每参数比特数 | 7B模型 | 14B模型 | 32B模型 | 70B模型 | 相对FP16质量 |
|---|---|---|---|---|---|---|
| FP16 | 16 | 14.0 GB | 28.0 GB | 64.0 GB | 140 GB | 基准 |
| Q8_0 | 8.5 | 7.5 GB | 15.0 GB | 34.0 GB | 75 GB | ~99% |
| Q6_K | 6.6 | 5.8 GB | 11.5 GB | 26.5 GB | 58 GB | ~98% |
| Q5_K_M | 5.7 | 5.0 GB | 10.0 GB | 23.0 GB | 50 GB | ~97% |
| Q4_K_M | 4.8 | 4.2 GB | 8.5 GB | 19.5 GB | 42 GB | ~95% |
| Q3_K_M | 3.9 | 3.4 GB | 7.0 GB | 16.0 GB | 35 GB | ~90%(质量下降明显) |
| Q2_K | 3.0 | 2.6 GB | 5.5 GB | 12.0 GB | 27 GB | 显著退化 |
实用经验法则:
- Q4_K_M 是默认的最佳平衡点。除非有特殊理由,否则就用它。
- Q5_K_M 或 Q6_K 适合显存充裕、对质量有要求的场景(RAG、代码、推理任务)。
- Q8_0 仅在内存非常充裕、追求接近FP16质量时使用。
- Q3_K_M 及更低 仅在没有其他选择时使用——质量下降肉眼可见。
在典型的8K–16K context下,这些数字基础上再预留约25%给KV cache和系统开销。32K以上的长context会让KV cache显著膨胀,甚至成为内存占用的主要部分。
KV cache:经常被忽略的成本
KV cache的大小与context长度成正比。在长上下文的应用场景(长文档RAG、代码仓库、多轮对话)中,小模型的KV cache甚至可能超过权重本身。
FP16下每1K context的KV cache大约占用:
| 模型大小 | 每1K context |
|---|---|
| 7B | ~150 MB |
| 14B | ~250 MB |
| 32B | ~500 MB |
| 70B | ~1.2 GB |
也就是说,32B模型在32K context下,光KV cache就要约16 GB。这是为什么很多人做长context RAG时会突然遇到OOM,而仅靠权重大小估算根本预测不到。一些推理引擎(llama.cpp、MLX)支持KV cache量化(KV用Q8或Q4),可以将其压缩到原来的1/2或1/4——质量损失通常可以忽略不计。如果你的工具支持,务必开启。
四个硬件分层
2026年的本地LLM硬件,实战上分为四个层级。请按你的主要 用途选择,而不是按你最有野心的目标。
第一层 — 入门 / 笔记本日常使用
内存: 8–16 GB unified,或 8–12 GB VRAM
可流畅运行: 3B–8B(Q4_K_M)
Tokens/second: 15–35(对话场景可用)
现实硬件:
- MacBook Air M2/M3/M4 16 GB
- Mac mini M4 16 GB
- 笔记本 + RTX 4060 8 GB / 4070 8 GB
- 台式机 + RTX 3060 12 GB(性价比之选)
推荐模型(2026年4月):
- Qwen 2.5 7B Instruct Q4_K_M — 中文表现优秀,多语言能力强
- Llama 3.1 8B Instruct Q4_K_M — 通用基线模型
- GLM-4-9B-Chat Q4_K_M — 智谱出品,中文场景表现稳定
- Gemma 3 9B Q4_K_M — 较新,效率高
- Phi-4 14B Q3_K_M — 体积小但能力强,量化偏紧
做不到的事: 真正的推理任务、大规模RAG、需要14B+模型的高质量量化。这一层适合对话、起草文档、轻量代码补全和基础摘要,别勉强它做更多。
第二层 — 性价比甜点(大多数读者应该在这一层)
内存: 24–48 GB unified,或 16–24 GB VRAM
可流畅运行: 13B–14B(Q5/Q6),32B(Q4)
Tokens/second: 25–80(取决于模型和平台)
现实硬件:
- MacBook Pro M3 Pro / M4 Pro 36–48 GB
- Mac Studio M2 Max 32 GB
- 台式机 + RTX 4070 Ti Super 16 GB
- 台式机 + RTX 4080 16 GB
- RTX 3090 24 GB(二手) — 2026年依然是性价比之王。在咸鱼、华强北、淘宝二手市场可以找到合理价位
- RTX 4090 24 GB(全新)
推荐模型:
- Qwen 2.5 14B Instruct Q5_K_M — 多语言通用王者,中文能力一流
- Qwen 2.5 32B Instruct Q4_K_M — 越级表现的明星模型
- DeepSeek-R1-Distill-Qwen-32B Q4 — 这一层最强推理模型,本土团队作品
- Llama 3.3 70B Q3_K_M — 勉强能跑,质量有损失但可行
- bge-m3 或 Qwen3-Embedding-0.6B 作为嵌入模型搭配使用
这一层适合大多数专业用途:认真的代码助手、企业文档RAG、长文档摘要、中英日韩多语言工作流等。
第三层 — 进阶用户 / 小团队工作站
内存: 64–128 GB unified,或 32–48 GB VRAM
可流畅运行: 32B(Q6/Q8),70B(Q4_K_M)
Tokens/second: 70B级别 10–25
现实硬件:
- Mac Studio M4 Max 64–128 GB
- MacBook Pro M4 Max 64–128 GB(便携工作站)
- 台式机 + RTX A6000 48 GB(工作站卡)
- RTX 3090 24 GB × 2张(共48 GB,NVLink可选)— GB单价最优
- RTX 4090 24 GB × 2张(共48 GB,无NVLink)
- RTX 5090 32 GB 单卡(新一代)
推荐模型:
- DeepSeek-R1-Distill-Llama-70B Q4 — 开源推理模型的天花板
- Qwen 2.5 72B Instruct Q4_K_M — 多语言旗舰
- Llama 3.3 70B Instruct Q4_K_M — 旗舰开源权重模型
- Qwen 2.5 Coder 32B Q6_K — 高质量专用代码模型
到了这一层,本地LLM才真正在严肃工作中具备实用性:适当量化的70B级模型在大多数任务上已经可以与中端云API掰手腕。RAG、agentic工作流、跨仓库代码生成——都能在这一层落地。
第四层 — 发烧友 / 生产服务器
内存: 192 GB+ unified,或 80–192 GB VRAM(多卡)
可流畅运行: 70B(Q8)、100B+模型、DeepSeek-V3这类MoE模型
Tokens/second: 高度取决于配置
现实硬件:
- Mac Studio M3 Ultra / M4 Ultra 192–512 GB unified
- RTX 3090 × 4张(共96 GB)上工作站主板
- H100 80 GB 或 A100 80 GB 单卡(有二手市场)
- RTX 6000 Ada × 2张 48 GB
这一层才能现实地跑动 DeepSeek-V3(671B MoE,激活37B) 这种模型——即便Q4,权重依然要350 GB+。MoE模型有个有趣特性:每个token只激活部分参数,所以在内存带宽极高的系统上(如Mac Studio Ultra),吞吐量可能出乎意料地好。
对大多数读者而言这一层属于过度配置,只有在为5人以上团队部署、运行生产级RAG、或做模型研究时才有意义。
Apple Silicon vs NVIDIA:诚实的取舍
这是最常被问的问题。诚实的答案是"看情况",但下面是真正能帮你做决策的对比:
Apple Silicon的优势:
- 统一内存架构 Mac Studio M4 Max 128 GB一台机器就能装下70B模型,而NVIDIA这边要么需要RTX A6000 48 GB,要么需要双3090
- 能效比 在M4 Max上跑70B模型大约只需80W;同样的负载用双3090会拉到600W+
- 静音、低发热、稳定 这点在小公寓或办公室环境很关键。台式GPU的噪音是真实的烦恼
- 没有驱动地狱 它就是能用
Apple Silicon的劣势:
- 同等NVIDIA硬件下推理速度更慢 70B模型在M4 Max上约12–15 tok/s;在双3090上约22–28 tok/s
- 高端内存的单价贵得多 Mac的128 GB远比双3090的48 GB昂贵
- 训练和微调生态有限 推理没问题,但MLX之外的训练比较痛苦
- 没有CUDA 大多数工具、库、研究代码都默认CUDA优先
NVIDIA的优势:
- 速度 没什么好说的——纯推理吞吐量NVIDIA胜
- CUDA生态 所有框架、所有论文、所有工具都优先支持CUDA
- 灵活性 加卡容易,升级容易
- 二手市场成熟 国内市场RTX 3090 24 GB流通量大,价格合理
NVIDIA的劣势:
- 散热和噪音 在南方夏天的房间里是个真问题
- 耗电高 双卡rig稳定600W+
- 驱动和CUDA版本混乱 时不时会坏
- 消费级单卡VRAM上限低 24 GB卡了消费级很多年,5090的32 GB只是小幅度提升
实战建议:
- 个人开发者、日常使用、希望安静: Mac,买你能负担的最大统一内存
- 个人开发者、追求速度、不介意桌面机: RTX 3090二手或4090
- 小团队、给同事提供模型服务: 双3090工作站
- 手头已有硬件: 用现有的就行,两边都能用
纯CPU能跑吗?
能跑,但不要把它作为方案核心。在DDR5和较新的CPU上,7B Q4模型大约能跑到4–8 tokens/second——非交互式批量任务勉强可用,但对话场景体验糟糕。13B及以上的模型在CPU上慢到无法交互使用。
如果服务器只能用CPU,llama.cpp配合所有CPU优化是首选工具。但通常正确答案是"买一张二手3090或一台Mac mini"。
决策树
flowchart TD
Start["What is your primary use case?"]
Start --> Daily["Daily chat, drafting, light coding"]
Start --> RAG["RAG over private documents"]
Start --> Code["Serious coding assistant"]
Start --> Reason["Reasoning, analysis, agents"]
Daily --> DailyMem["Need: 16-32 GB unified or 12 GB VRAM"]
RAG --> RAGMem["Need: 32-64 GB unified or 16-24 GB VRAM"]
Code --> CodeMem["Need: 48-96 GB unified or 24 GB VRAM"]
Reason --> ReasonMem["Need: 96 GB+ unified or 48 GB+ VRAM"]
DailyMem --> DailyHW["Mac mini M4 16-32 GB<br/>or RTX 3060 12 GB used"]
RAGMem --> RAGHW["Mac M4 Pro 36-48 GB<br/>or RTX 3090 24 GB used"]
CodeMem --> CodeHW["Mac Studio M4 Max 64 GB<br/>or RTX 4090 24 GB"]
ReasonMem --> ReasonHW["Mac Studio M4 Max 128 GB<br/>or 2x RTX 3090 48 GB"]
常见踩坑
反复见到的错误模式:
- 按"想用的模型"买,而不是"会用的模型" 大多数用户90%的时间都在用8B–14B模型。别为了一个月碰两次的70B去买128 GB配置。
- 忽略KV cache 长context RAG和对话是完全不同的内存问题,要分别评估。
- 为"塞进去"而选Q3量化 如果不得不降到Q3_K_M才能装下,不如换个小模型用Q5_K_M跑,质量更好。
- 把模型和嵌入模型的内存预算混算 做RAG时嵌入模型和LLM都要在内存里,要分别计算。
- 忘了系统占用 给操作系统和应用预留4–8 GB,别把统一内存全分给LLM。
- 低估发热问题 南方夏天没空调的房间里跑双3090,会触发thermal throttling,实际算力打折扣。规划好通风。
- 误解MoE的内存需求 DeepSeek-V3虽然"激活37B",但671B全参数仍需加载到内存(或offload,但吞吐量会崩)。
实测基准数据(2026年4月)
单用户、约4K context下的推理速度参考:
| 硬件 | 8B Q4 | 14B Q4 | 32B Q4 | 70B Q4 |
|---|---|---|---|---|
| MacBook Air M3 16 GB | 22 t/s | OOM | OOM | OOM |
| Mac mini M4 24 GB | 30 t/s | 18 t/s | OOM | OOM |
| MacBook Pro M4 Pro 48 GB | 45 t/s | 28 t/s | 14 t/s | OOM |
| Mac Studio M4 Max 128 GB | 70 t/s | 50 t/s | 28 t/s | 14 t/s |
| RTX 3060 12 GB | 60 t/s | offload | offload | offload |
| RTX 3090 24 GB | 110 t/s | 75 t/s | 35 t/s | offload |
| RTX 4090 24 GB | 140 t/s | 95 t/s | 45 t/s | offload |
| RTX 3090 × 2 (48 GB) | 110 t/s | 75 t/s | 50 t/s | 22 t/s |
| RTX 5090 32 GB | 170 t/s | 115 t/s | 60 t/s | offload |
"OOM" = 内存不足。"offload" = 部分卸载到CPU,吞吐量下降5–10倍。
实际数字会随量化方式、context长度、prompt处理、软件栈(llama.cpp / MLX / vLLM / Ollama)变化。请把这些数据当作参考,而不是承诺。
总结
本地LLM最优硬件,就是能跑动你实际使用的模型类别、且为KV cache和系统留足余量的最便宜配置 。对2026年的大多数专业用户来说:
- Mac mini M4 24–32 GB — 日常使用
- Mac Studio M4 Max 64 GB 或 二手RTX 3090 — 严肃工作场景
- Mac Studio M4 Max 128 GB 或 双3090 — 团队级或70B级别工作负载
不要为不会兑现的野心超买。也不要省到不得不用Q3量化拖累质量。最佳点在第二层,大多数人在那里都很舒服。
硬件就位之后,下一步是选择推理栈并接入实际工作流。这两个话题我们在其他文章中讨论过:
- 如何在日常工作中使用本地LLM模型 — 概念入门
- LM Studio代码场景的System Prompt工程实战 — 榨干模型潜力
- LlamaIndex + pgvector:面向泰语和日语商业文档的生产级RAG — 在此基础上构建真实RAG
如果你在为组织级部署选硬件——多用户、与现有系统集成、安全合规要求——那是另一场对话。联系我们,我们帮你把规模算对。
Simplico为泰国、日本及全球客户构建生产级AI、ERP和安全系统。我们已为工厂环境、SOC工作流和文档智能平台部署过本地LLM技术栈。如果你的本地LLM项目正在启动,需要工程视角而不是销售话术,请联系 tum@simplico.net 或 LINE @simplico。
Get in Touch with us
Related Posts
- The Accounting Software Your Firm Uses Is Built for Your Clients, Not for You
- Choosing Hardware for Local LLMs in 2026: A Practical Sizing Guide
- Why Your Finance Team Spends 40% of Their Week on Work AI Can Now Do
- 用纯开源方案搭建生产级 SOC:Wazuh + DFIR-IRIS + 自研集成层实战记录
- How We Built a Real Security Operations Center With Open-Source Tools
- FarmScript:我们如何从零设计一门农业IoT领域特定语言
- FarmScript: How We Designed a Programming Language for Chanthaburi Durian Farmers
- 智慧农业项目为何止步于试点阶段
- Why Smart Farming Projects Fail Before They Leave the Pilot Stage
- ERP项目为何总是超支、延期,最终令人失望
- ERP Projects: Why They Cost More, Take Longer, and Disappoint More Than Expected
- AI Security in Production: What Enterprise Teams Must Know in 2026
- 弹性无人机蜂群设计:具备安全通信的无领导者容错网状网络
- Designing Resilient Drone Swarms: Leaderless-Tolerant Mesh Networks with Secure Communications
- NumPy广播规则详解:为什么`(3,)`和`(3,1)`行为不同——以及它何时会悄悄给出错误答案
- NumPy Broadcasting Rules: Why `(3,)` and `(3,1)` Behave Differently — and When It Silently Gives Wrong Answers
- 关键基础设施遭受攻击:从乌克兰电网战争看工业IT/OT安全
- Critical Infrastructure Under Fire: What IT/OT Security Teams Can Learn from Ukraine’s Energy Grid
- LM Studio代码开发的系统提示词工程:`temperature`、`context_length`与`stop`词详解
- LM Studio System Prompt Engineering for Code: `temperature`, `context_length`, and `stop` Tokens Explained













