联想 PGX、Mac 顶配,到底能不能本地跑 DeepSeek-V4-Flash?
2026-05-19
最近很多人看到联想 ThinkStation PGX 这类“桌面 AI 超级电脑”,第一反应是:
既然它能跑 200B 参数模型,那能不能本地跑 DeepSeek-V4-Flash?
结论先说清楚:
单台联想 PGX 不适合本地跑完整 DeepSeek-V4-Flash;Mac 顶配更有机会,但也只是“能跑起来”,不等于“跑得爽、跑得稳、跑得快”。
一、判断一台电脑能不能跑大模型,核心看 3 个数
不要只看宣传里的“AI 算力”“TOPS”“超级芯片”,真正决定能不能跑的,是这三个东西:
1. 总参数量
DeepSeek-V4-Flash 是 284B 总参数、13B 激活参数、1M 上下文;DeepSeek-V4-Pro 更大,是 1.6T 总参数、49B 激活参数。这两个都是 MoE 模型。(Hugging Face)
这里最容易误解的是:
13B 激活参数,不代表只需要 13B 模型的内存。
MoE 模型推理时每个 token 只激活一部分专家,但模型权重整体仍然要被加载、切分、调度。也就是说,看部署门槛时,不能只看激活参数,必须看总参数和权重精度。
2. 内存/显存容量
大模型本地推理,第一道门槛不是 CPU,也不是硬盘,而是:
权重能不能装进内存/显存。
DeepSeek-V4-Flash 是 284B 参数,即使用 4bit 粗略估算:
284B × 4bit ≈ 142GB
这还只是理想化权重体积,没有算运行开销、KV Cache、框架占用、系统占用,以及 FP4 + FP8 混合精度带来的额外复杂度。
所以,128GB 内存的机器,天然就非常紧张。
3. 上下文长度
DeepSeek-V4 系列支持 1M token 上下文。上下文越长,KV Cache 压力越大。DeepSeek 官方也强调 V4 系列做了长上下文优化,但优化不等于没有成本。(DeepSeek API Docs)
所以实际部署时经常会出现一种情况:
模型能加载,但上下文一拉长,速度、内存和稳定性立刻出问题。
二、联想 PGX 到底是什么水平?
你截图里的联想 ThinkStation PGX,大体配置是:
| 项目 | 配置 |
|---|---|
| 芯片 | NVIDIA GB10 Grace Blackwell |
| 统一内存 | 128GB LPDDR5x |
| 内存带宽 | 273GB/s |
| AI 算力 | 最高 1000 TOPS / 1 PFLOP FP4 稀疏 |
| 硬盘 | 1TB 或 4TB NVMe |
| 系统 | NVIDIA DGX OS / Ubuntu Linux Pro |
| 双机互联 | 两台 PGX 可支持更大模型 |
联想官方对 PGX 的定位是“个人 AI 开发工作站”,单台可处理最高约 200B 参数模型,两台连接后可处理最高约 405B 参数模型。(Lenovo StoryHub)
这句话已经把答案说得很清楚了:
单台 PGX:约 200B 参数模型 DeepSeek-V4-Flash:284B 总参数
所以,单台 PGX 不适合跑完整 DeepSeek-V4-Flash。
三、为什么 PGX 单台不建议跑 DeepSeek-V4-Flash?
原因很简单:
1. 参数量超过单机舒适区
PGX 单台官方定位是最高约 200B 参数模型,而 V4-Flash 是 284B。
这不是差一点,是已经超过了它的合理边界。
2. 128GB 统一内存偏紧
V4-Flash 即使极低精度估算,权重体积也很容易超过 128GB 的舒适范围。
更麻烦的是,本地跑模型不是“权重塞进去就完事”,还要留空间给:
-
推理框架;
-
KV Cache;
-
系统进程;
-
tokenizer;
-
显存/内存调度;
-
长上下文运行开销。
所以单台 PGX 很容易变成:
能折腾 不好用 上下文受限 速度慢 稳定性差
3. 两台 PGX 理论上更接近,但不建议作为主方案
两台 PGX 互联后,官方说可处理最高 405B 参数模型。这个数字覆盖了 V4-Flash 的 284B 参数量。(Lenovo StoryHub)
但实际工程上还要解决:
-
模型并行;
-
框架兼容;
-
网络互联;
-
权重切分;
-
推理吞吐;
-
长上下文内存控制;
-
本地部署维护成本。
所以两台 PGX 可以作为技术探索,但不适合作为稳定生产方案。
四、Mac 顶配为什么反而更有机会?
Mac 顶配能跑超大模型,靠的不是传统意义上的独立显卡,而是:
超大统一内存。
Apple Mac Studio M3 Ultra 官方规格可到 32 核 CPU、80 核 GPU、819GB/s 内存带宽。(apple.com)
Mac 的优势是 CPU 和 GPU 共用统一内存。对大模型来说,这一点很关键。
传统 PC 的问题是:
内存很大,但显存不够 显卡很强,但显存太小
Mac 的优势是:
统一内存够大 模型权重可以整体放进统一内存 不用完全受独立显卡显存限制
所以,很多人说“Mac 顶配可以跑”,这个说法大方向是对的。
但要补一句:
它通常指的是量化版、本地体验版、低并发场景,不是生产级高吞吐部署。
另外,512GB 统一内存版本是否还能在官方渠道正常购买,需要下单前确认;近期有媒体报道苹果已调整或移除部分高内存 Mac Studio 配置选项。(Tom's Hardware)
五、个人电脑最低配置怎么选?
如果目标是本地体验 DeepSeek-V4-Flash,我建议按下面这个标准判断。
| 目标 | 最低建议 | 判断 |
|---|---|---|
| 只调用 DeepSeek API | 普通电脑即可 | 最现实 |
| 本地折腾 V4-Flash 量化版 | Mac Studio M3 Ultra,256GB 统一内存起步 | 勉强线 |
| 本地更稳地跑 V4-Flash | Mac Studio M3 Ultra,512GB 统一内存更理想 | 更安全,但看渠道 |
| 单台联想 PGX | 不推荐 | 128GB 内存偏紧 |
| 两台 PGX 互联 | 可探索 | 不建议生产 |
| 真正稳定部署 | 云 GPU / 多卡服务器 | 更适合生产 |
一句话:
256GB 是“能折腾”的门槛,512GB 才更像个人电脑里的安全线。
六、PGX 值不值得买?
要看你买它干什么。
如果你买 PGX 是为了专门跑 DeepSeek-V4-Flash
不建议。
它不适合拿来硬扛 284B 的 V4-Flash,更不适合 V4-Pro。
如果你买 PGX 是为了做企业 AI 工作站
可以考虑。
它更适合这些场景:
-
本地跑 70B 级模型;
-
跑 100B-200B 内模型;
-
做企业知识库 RAG;
-
跑 OpenClaw、小龙虾、Agent、Skills;
-
做本地原型开发;
-
做私有数据处理;
-
做边缘 AI 推理测试;
-
做小规模模型微调或评估。
也就是说,PGX 更像是:
企业 AI 开发机 / 本地智能体工作站 / 私有化原型验证机。
它不是:
单机版 DeepSeek-V4 服务器。
七、最现实的企业落地方案
如果你要做企业 AI 应用,我更推荐这个组合:
本地 PGX / Mac: 负责知识库、数据处理、RAG、Agent、Skills、本地文件、业务系统连接 DeepSeek-V4: 通过 API 提供大模型推理能力
这样好处很明显:
-
本地数据可控;
-
系统响应稳定;
-
不硬扛超大模型部署;
-
成本更可控;
-
体验更接近真实生产;
-
智能体、工作流、业务系统可以本地跑;
-
大模型能力通过 API 补足。
DeepSeek 官方也已经提供 V4 API,并支持 OpenAI Chat Completions 与 Anthropic API 形式调用。(DeepSeek API Docs)
八、最终采购建议
如果你的目标是 本地跑 DeepSeek-V4-Flash:
优先:Mac Studio M3 Ultra 高内存版本 其次:两台 PGX 互联做技术探索 不建议:单台 PGX 硬跑
如果你的目标是 企业 AI 落地、智能体演示、OpenClaw 工作流、RAG、Skills 自动化:
PGX 可以买 但 DeepSeek-V4 建议走 API
如果你的目标是 稳定生产部署 DeepSeek-V4:
直接上云 GPU / 专业多卡服务器 不要纠结个人电脑
九、一句话总结
联想 PGX 是一台不错的桌面 AI 工作站,但它不是 DeepSeek-V4-Flash 的最佳本地部署机器;Mac 顶配靠大统一内存更适合“把超大模型塞进去跑”,但真正企业落地,最稳的方案仍然是:本地跑业务系统和智能体,大模型走 API。
发表评论: