四行代码让大模型上下文暴增 3 倍,羊驼 Mistral 都适用
华人学者发布了全新的大模型窗口扩展方法 SelfExtended(简称 SE),只需四行代码,即可让大模型的窗口长度暴增 3 倍。SE 是 “即插即用” 的方法,适配任意大模型,并且在 Mistral 和 Llama2 上已经试验成功。使用 SE 处理后,模型在长文本任务中的表现显著增强。SE 使用了两种注意力机制,解决了大模型处理长文本时遇到的编码超限问题。
华人学者发布了全新的大模型窗口扩展方法 SelfExtended(简称 SE),只需四行代码,即可让大模型的窗口长度暴增 3 倍。SE 是 “即插即用” 的方法,适配任意大模型,并且在 Mistral 和 Llama2 上已经试验成功。使用 SE 处理后,模型在长文本任务中的表现显著增强。SE 使用了两种注意力机制,解决了大模型处理长文本时遇到的编码超限问题。
发表评论