DeepSeek技术解密：条件记忆如何破解AI算力瓶颈？

科技IT 2026-02-02 user95655242

2025年春节期间，DeepSeek重磅推出其大模型产品R1。该产品性能直接对标OpenAI o1正式版，更以超低的训练成本突破行业长期存在的成本限制，配合全面开源的策略，在AI领域投下了一枚“重磅炸弹”。

在R1取得行业突破后，DeepSeek的技术演进方向便持续受到关注。日前，据科技媒体The Information援引知情人士透露，DeepSeek计划于2月中旬正式发布其新一代旗舰大模型DeepSeek V4。这一消息引发了行业对其技术走向的广泛猜测。

值得注意的是，就在2026年1月13日，DeepSeek与北京大学合作发表了一篇题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于可扩展查找的条件记忆：大语言模型稀疏性的新维度》)的论文。该研究聚焦于大模型的条件记忆(Engram)模块，深入探索了稀疏性建模的新路径，并在结论中明确指出，Engram将成为下一代稀疏模型的关键建模原语。由于论文发表与新模型发布时间高度接近，有行业观点认为，文中提出的Engram很可能构成DeepSeek V4的核心技术架构。

Transformer陷入低效困境？

随着大模型参数规模突破万亿、应用场景不断扩展，算力瓶颈已成为制约技术落地的主要障碍。无论是Transformer架构，还是其衍生的混合专家模型(MoE)，均陷入“用计算模拟记忆”的效率困境，那就是大量算力被耗费在静态知识的重复重构上。DeepSeek团队提出的Engram模块，通过存储与计算分离的新范式，为模型开辟了Engram这一新的稀疏性维度，试图从架构层面突破算力限制。

大模型的任务通常可分为两类：一是静态知识检索，例如查询“水的化学式是H₂O”这类固定事实;二是动态组合推理，如数学证明、代码调试等需实时逻辑推演的任务。Transformer采用同一套高成本的神经计算流程处理这两类任务，导致显著算力浪费。

以理解“水的化学式是H₂O”为例，Transformer需通过复杂的自注意力机制与多层前馈网络逐层进行语义组合，实质是用高代价的矩阵运算模拟简单的知识匹配。这种“以计算代替查表”的模式，本质上是将低复杂度问题置于高成本运算中处理。更重要的是，静态知识处理所占用的计算资源，会挤占动态推理任务的算力，限制模型的深层推理能力。

即便是作为优化方案的MoE架构，也未能根本突破上述困境。MoE通过条件计算实现参数稀疏激活，仅调用部分专家网络参与计算，虽提升了参数利用率，却未改变“用计算模拟记忆”的核心逻辑。面对静态知识，MoE仍需激活专家网络进行矩阵运算;在长文本场景中，局部固定搭配的重复计算还会占用注意力容量，导致有效上下文长度缩短与关键信息捕捉能力下降。这种“记忆-计算混同”的架构设计，已成为制约大模型算力效率提升的结构性瓶颈。

“查算分离”重构大模型任务分工

DeepSeek提出的Engram模块，其名称来源于神经科学中的“记忆痕迹”，核心设计理念是实现“该查的不算，该算的专注”。简言之，即通过专用记忆模块快速检索“水的化学式是H₂O”这类静态知识，而让Transformer/MoE主干网络专注于数学证明、代码调试等动态推理任务，借存储与计算分离避免算力浪费。

Engram摒弃了Transformer的动态计算模式，转而采用经现代化改造的N-gram查表机制作为记忆检索引擎，从根源降低静态知识调用的复杂度。N-gram因“存储爆炸与“多义性歧义”长期被边缘化，Engram通过两项关键优化实现突破：

一是分词器压缩与规范化。通过对token进行兼容性分解后再规范化组合(NFKC规范化)、大小写统一等处理，将语义相同但形式不同的token(如“Apple”与“apple”)映射至同一规范ID，使128k词表的有效规模降低约23%，显著缓解了N-gram组合的存储与检索压力。

二是多头哈希检索机制。对2-gram/3-gram局部上下文，采用多套独立哈希规则将其映射至固定大小的嵌入表，通过多哈希头结果拼接提升检索准确性，同时避免存储爆炸――无论N-gram组合数量多少，嵌入表大小恒定，从而实现查找速度与数据量无关。

静态记忆模块还需解决如何适配动态上下文、避免多义性歧义的问题(例如“Apple”可指水果或科技公司)。Engram通过上下文感知门控机制，实现静态记忆与动态语境的精准匹配。同时，引入深度因果卷积与SiLU激活函数，并经由残差连接将门控后的记忆向量嵌入至Transformer特定层。该设计既保证了静态记忆的高效调用，也实现了记忆与上下文的动态适配。

Engram的确定性寻址特性还带来了关键的系统级优化空间，进一步强化了“查算分离”的效率优势。在存储层面，千亿参数规模的Engram嵌入表可直接存放于廉价的CPU内存(DRAM)，而非昂贵的GPU显存(HBM)，大幅降低了硬件成本;在计算层面，GPU执行主干网络计算的同时，CPU可通过PCIe通道异步预取后续层所需的记忆向量，实现通信与计算的完全重叠。

总的来说，Engram模块通过条件记忆机制，实现了静态知识存储与动态计算的彻底分离，从架构根源破解了Transformer的算力浪费难题。其核心创新在于重新定义了大模型的任务分工：让Engram模块如“海马体”般负责知识存储与快速检索，让Transformer/MoE主干如“前额叶皮层”般专注复杂推理。这种“查算分离”范式，在提升性能与效率的同时，也降低了大模型的部署门槛。

写在最后

在算力成本居高不下的当下，Engram模块的出现标志着大模型架构设计正从“盲目追求参数规模”转向“精准优化算力效率”。Engram作为新的稀疏性维度，将与条件计算共同构成下一代大模型的核心架构基础，为AI技术更广泛地赋能中小企业、落地千行百业铺平道路。

来源：比特网

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

上一篇：传OpenAI酝酿Q4上市想抢先劲敌Anthropic一步

下一篇：初芯基金战略控股优美芯，点亮中国高端泛半导体制造的“中国光源”

DeepSeek技术解密：条件记忆如何破解AI算力瓶颈？

分类导航

最新文章

本栏文章

随机文章

友情链接

DeepSeek技术解密：条件记忆如何破解AI算力瓶颈？

相关阅读

分类导航

最新文章

本栏文章

随机文章

友情链接