DeepSeek技术解密:条件记忆如何破解AI算力瓶颈?

科技IT 2026-02-02 user95655242

  2025年春节期间,DeepSeek重磅推出其大模型产品R1。该产品性能直接对标OpenAI o1正式版,更以超低的训练成本突破行业长期存在的成本限制,配合全面开源的策略,在AI领域投下了一枚“重磅炸弹”。

  在R1取得行业突破后,DeepSeek的技术演进方向便持续受到关注。日前,据科技媒体The Information援引知情人士透露,DeepSeek计划于2月中旬正式发布其新一代旗舰大模型DeepSeek V4。这一消息引发了行业对其技术走向的广泛猜测。

  值得注意的是,就在2026年1月13日,DeepSeek与北京大学合作发表了一篇题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》)的论文。该研究聚焦于大模型的条件记忆(Engram)模块,深入探索了稀疏性建模的新路径,并在结论中明确指出,Engram将成为下一代稀疏模型的关键建模原语。由于论文发表与新模型发布时间高度接近,有行业观点认为,文中提出的Engram很可能构成DeepSeek V4的核心技术架构。

  Transformer陷入低效困境?

  随着大模型参数规模突破万亿、应用场景不断扩展,算力瓶颈已成为制约技术落地的主要障碍。无论是Transformer架构,还是其衍生的混合专家模型(MoE),均陷入“用计算模拟记忆”的效率困境,那就是大量算力被耗费在静态知识的重复重构上。DeepSeek团队提出的Engram模块,通过存储与计算分离的新范式,为模型开辟了Engram这一新的稀疏性维度,试图从架构层面突破算力限制。

  大模型的任务通常可分为两类:一是静态知识检索,例如查询“水的化学式是H2O”这类固定事实;二是动态组合推理,如数学证明、代码调试等需实时逻辑推演的任务。Transformer采用同一套高成本的神经计算流程处理这两类任务,导致显著算力浪费。

  以理解“水的化学式是H2O”为例,Transformer需通过复杂的自注意力机制与多层前馈网络逐层进行语义组合,实质是用高代价的矩阵运算模拟简单的知识匹配。这种“以计算代替查表”的模式,本质上是将低复杂度问题置于高成本运算中处理。更重要的是,静态知识处理所占用的计算资源,会挤占动态推理任务的算力,限制模型的深层推理能力。

  即便是作为优化方案的MoE架构,也未能根本突破上述困境。MoE通过条件计算实现参数稀疏激活,仅调用部分专家网络参与计算,虽提升了参数利用率,却未改变“用计算模拟记忆”的核心逻辑。面对静态知识,MoE仍需激活专家网络进行矩阵运算;在长文本场景中,局部固定搭配的重复计算还会占用注意力容量,导致有效上下文长度缩短与关键信息捕捉能力下降。这种“记忆-计算混同”的架构设计,已成为制约大模型算力效率提升的结构性瓶颈。

  “查算分离”重构大模型任务分工

  DeepSeek提出的Engram模块,其名称来源于神经科学中的“记忆痕迹”,核心设计理念是实现“该查的不算,该算的专注”。简言之,即通过专用记忆模块快速检索“水的化学式是H2O”这类静态知识,而让Transformer/MoE主干网络专注于数学证明、代码调试等动态推理任务,借存储与计算分离避免算力浪费。

  Engram摒弃了Transformer的动态计算模式,转而采用经现代化改造的N-gram查表机制作为记忆检索引擎,从根源降低静态知识调用的复杂度。N-gram因“存储爆炸与“多义性歧义”长期被边缘化,Engram通过两项关键优化实现突破:

  一是分词器压缩与规范化。通过对token进行兼容性分解后再规范化组合(NFKC规范化)、大小写统一等处理,将语义相同但形式不同的token(如“Apple”与“apple”)映射至同一规范ID,使128k词表的有效规模降低约23%,显著缓解了N-gram组合的存储与检索压力。

  二是多头哈希检索机制。对2-gram/3-gram局部上下文,采用多套独立哈希规则将其映射至固定大小的嵌入表,通过多哈希头结果拼接提升检索准确性,同时避免存储爆炸――无论N-gram组合数量多少,嵌入表大小恒定,从而实现查找速度与数据量无关。

  静态记忆模块还需解决如何适配动态上下文、避免多义性歧义的问题(例如“Apple”可指水果或科技公司)。Engram通过上下文感知门控机制,实现静态记忆与动态语境的精准匹配。同时,引入深度因果卷积与SiLU激活函数,并经由残差连接将门控后的记忆向量嵌入至Transformer特定层。该设计既保证了静态记忆的高效调用,也实现了记忆与上下文的动态适配。

  Engram的确定性寻址特性还带来了关键的系统级优化空间,进一步强化了“查算分离”的效率优势。在存储层面,千亿参数规模的Engram嵌入表可直接存放于廉价的CPU内存(DRAM),而非昂贵的GPU显存(HBM),大幅降低了硬件成本;在计算层面,GPU执行主干网络计算的同时,CPU可通过PCIe通道异步预取后续层所需的记忆向量,实现通信与计算的完全重叠。

  总的来说,Engram模块通过条件记忆机制,实现了静态知识存储与动态计算的彻底分离,从架构根源破解了Transformer的算力浪费难题。其核心创新在于重新定义了大模型的任务分工:让Engram模块如“海马体”般负责知识存储与快速检索,让Transformer/MoE主干如“前额叶皮层”般专注复杂推理。这种“查算分离”范式,在提升性能与效率的同时,也降低了大模型的部署门槛。

  写在最后

  在算力成本居高不下的当下,Engram模块的出现标志着大模型架构设计正从“盲目追求参数规模”转向“精准优化算力效率”。Engram作为新的稀疏性维度,将与条件计算共同构成下一代大模型的核心架构基础,为AI技术更广泛地赋能中小企业、落地千行百业铺平道路。

来源:比特网
The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

Copyright © 2099 搜索科技

苏ICP备2023036119号-10 |——:

|—— TXT地图 | 网站地图 |