极客前沿

内存价格居高不下，让不少想尝鲜本地AI大模型的玩家望而却步。毕竟，动辄128GB的DDR5内存条，价格堪比一台中端主机。不过，存储厂商Lexar似乎找到了一条新路子——把大模型“塞”进SSD里。

在最近的采访中，Lexar首席技术官Daniel Guo透露，公司正在研发一种名为“AI Storage Core”的SSD，专门用于卸载大语言模型（LLM）对DRAM的依赖。Guo算了一笔账：DRAM的制造成本大约是NAND闪存的6倍，而AI模型运行时，大量参数其实并不需要时刻待在内存里。如果能把这些数据“挪”到更便宜的SSD上，就能大幅降低整机成本。

Lexar的内部测试结果相当惊人。以Qwen 3.5 122B模型为例，传统方案需要128GB内存，光内存成本就超过4500美元。而借助Lexar的软硬件优化，仅需32GB内存就能跑起来，内存占用减少了至少40%。更关键的是，性能并未崩盘：在35B参数子模型上，Lexar方案跑出了15.6 tokens/秒的速度，而传统框架只有5.2 tokens/秒。当尝试加载完整的122B模型时，Llama.cpp直接崩溃，而Lexar的SSD卸载方案还能稳定输出4.4 tokens/秒。

这背后的技术逻辑并不复杂：LLM推理时，并不是所有参数都会被同时激活。Lexar通过智能预取和缓存算法，将当前不需要的模型参数“暂存”到SSD，需要时再快速加载。这类似于操作系统的虚拟内存，但针对AI工作负载做了深度优化。当然，SSD的延迟远高于DRAM，所以Lexar在固件和驱动层面做了大量调优，确保数据搬运的瓶颈最小化。

对于普通用户来说，这意味着什么？简单说，你不需要为了跑本地大模型而砸重金买128GB内存。一台32GB内存的PC，搭配一块Lexar AI SSD，就能运行百亿参数级别的模型。这无疑会降低本地AI的门槛，让更多开发者和爱好者能在家里的电脑上折腾LLM，而不是依赖云端API。

从行业角度看，Lexar的思路也给了其他存储厂商启示：SSD不再只是存储数据的仓库，而是可以主动参与计算。随着AI模型越来越大，内存墙问题愈发突出，这种“存储辅助计算”的架构或许会成为未来PC的标配。当然，目前Lexar的方案还处于早期阶段，实际体验能否达到宣传效果，还需要更多第三方测试。但至少，它让我们看到了一条更平价的AI之路。

最后，吐槽一句：内存厂商们，你们再不降价，SSD就要来抢饭碗了！