真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文 | AI 资讯 | 云织星·工具台
大模型还能递归读上下文?? 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 让大模型轻松处理比自身上下文窗口长两个数量级的超长文本! MIT CSAIL研究团队提出了一种叫做递归语言模型RLM的长文本处理新方法,来解决上下文腐烂问题。 不修改模型架构、不升级模块设计,但能让GPT-5、Qwen-3这类顶尖模型推理层具备千万级token的超长文本处理能力。 核心思路是不把提示词直接塞进大模型的上下文窗口,而把它“外包”给可交互的Python环境,让模型主动通过自动编程和递归调用拆解任务、按需处理。 啊?大模型读上下文也能递归操作? 先说上下文腐烂这个扎心的问题。 不管大模型宣称自己的上下文窗口有多大,它们处理超长文本时,都会遇到文本越长,模型对早期信息的记忆越模糊,推理性能直线下滑的问题。 这就像我们读百万字小说,读到后半段,早就忘了前半段的关键情节。 现在主流的解决办法有上下文压缩、检索增强生成RAG,或者对模型进行架构级优化。 比如,GPT-5.2-Codex采用的就是窗口内的原生上下文压缩技术,在持续数周的大型代码仓库协助任务中保持全上下文信息。
如页面未自动加载,请开启 JavaScript。