梁文峰署名的DeepSeek新论文发表,指出大型模型“记忆”的缺陷 – 新京报
新京报贝壳财经讯(记者罗一丹)1月12日下午,DeepSeek发表了题为《Conditional Memory via Scalable Search: A New Sparsity Axis for Large Language Models》的新文章。梁文峰再次跻身作者榜末位。本文由北京大学和 DeepSeek 联合完成。新京报贝壳财经记者阅读该论文发现,其核心直接指出了当前大规模语言模型的记忆“缺点”,并提出了“条件记忆”的概念。为了实现“条件记忆”,DeepSeek 提出的解决方案是一个名为 Engram(字面意思是记忆跟踪)的模块。该模块将语言建模任务分为两个分支:“静态模式搜索”和“动态组合推理”。第一个负责快速检索确定性知识,如实体和重复文本,而第二个则交付给 Transformer 架构并专注于完成复杂的逻辑运算。该论文的结论是:“我们相信条件记忆是下一代稀疏模型的重要建模原语。”目前,有不少猜测称DeepSeek的下一代模型将重现2025年春节盛况,并在春节前推出,但在这样的背景下,本文可以对庐山模型的“真面目”进行一次解答。编辑:颜娟芳、校对:颜丽