美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本 | AI 资讯 | 云织星·工具台
不用从头训,中期就能全转稀 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 256K文本预加载提速超50%,还解锁了1M上下文窗口。 美团龙猫LongCat系列新年出招,发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention)。 新技术集中火力,重点解决长文本任务的理解、算力难题。 相比于LongCat系列之前的全注意力MLA机制,LoZA只改了一半的核心模块。 但模型长文本能力从256K扩展到1M,解码速度还快了不少。 甚至比同类型的Qwen-3模型表现还要好。 接下来看具体方案。 全注意力机制的算力瓶颈在于平方级的计算复杂度O (L²),这导致模型在处理长文本任务时对显卡要求高,还会出现推理延迟问题。 LoZA的核心思路是专注于处理重要的内容,不重要的部分少花力气。 作为LongCat系列的核心技术升级,LoZA主要是在原来的MLA机制上做改造。 具体分两步。 首先,给模型里的多头潜在注意力模块MLA做一个全局“筛查”,找出哪些模块可以被改造。 在原来的MLA架构中,每个MLA模块都是处理注意力的核心单元,现在的新方案是给每个模块配一个可学习权重α。
如页面未自动加载,请开启 JavaScript。