极客前沿

极客资讯 正文

内存太贵?Lexar用SSD给AI大模型“减负”

2026-06-17 00:30 | TechPowerUp ...

内存价格居高不下,让不少想尝鲜本地AI大模型的玩家望而却步。毕竟,动辄128GB的DDR5内存条,价格堪比一台中端主机。不过,存储厂商Lexar似乎找到了一条新路子——把大模型“塞”进SSD里。

在最近的采访中,Lexar首席技术官Daniel Guo透露,公司正在研发一种名为“AI Storage Core”的SSD,专门用于卸载大语言模型(LLM)对DRAM的依赖。Guo算了一笔账:DRAM的制造成本大约是NAND闪存的6倍,而AI模型运行时,大量参数其实并不需要时刻待在内存里。如果能把这些数据“挪”到更便宜的SSD上,就能大幅降低整机成本。

Lexar的内部测试结果相当惊人。以Qwen 3.5 122B模型为例,传统方案需要128GB内存,光内存成本就超过4500美元。而借助Lexar的软硬件优化,仅需32GB内存就能跑起来,内存占用减少了至少40%。更关键的是,性能并未崩盘:在35B参数子模型上,Lexar方案跑出了15.6 tokens/秒的速度,而传统框架只有5.2 tokens/秒。当尝试加载完整的122B模型时,Llama.cpp直接崩溃,而Lexar的SSD卸载方案还能稳定输出4.4 tokens/秒。

News Image

这背后的技术逻辑并不复杂:LLM推理时,并不是所有参数都会被同时激活。Lexar通过智能预取和缓存算法,将当前不需要的模型参数“暂存”到SSD,需要时再快速加载。这类似于操作系统的虚拟内存,但针对AI工作负载做了深度优化。当然,SSD的延迟远高于DRAM,所以Lexar在固件和驱动层面做了大量调优,确保数据搬运的瓶颈最小化。

对于普通用户来说,这意味着什么?简单说,你不需要为了跑本地大模型而砸重金买128GB内存。一台32GB内存的PC,搭配一块Lexar AI SSD,就能运行百亿参数级别的模型。这无疑会降低本地AI的门槛,让更多开发者和爱好者能在家里的电脑上折腾LLM,而不是依赖云端API。

从行业角度看,Lexar的思路也给了其他存储厂商启示:SSD不再只是存储数据的仓库,而是可以主动参与计算。随着AI模型越来越大,内存墙问题愈发突出,这种“存储辅助计算”的架构或许会成为未来PC的标配。当然,目前Lexar的方案还处于早期阶段,实际体验能否达到宣传效果,还需要更多第三方测试。但至少,它让我们看到了一条更平价的AI之路。

最后,吐槽一句:内存厂商们,你们再不降价,SSD就要来抢饭碗了!