用于 LLM/AI 模型的 Mamba 架构

分类:AI/ML 标签:
Save and Share:

什么是 Mamba?

Mamba 是一种很有前景的 LLM 架构,可以替代 Transformer 架构。它的优势在于内存效率、可扩展性以及处理超长序列的能力。

Mamba 基于状态空间模型 (SSM) 和门控多层感知机 (MLP) 机制。

它是如何工作的?

  1. 输入投影: 增加输入序列的维度。
  2. 卷积处理: 应用一维卷积和一个激活函数。
  3. 门控: 对输入数据和投影结果进行逐元素相乘。
  4. 重复: 步骤 2-3 可以重复多次。

Mamba 架构的优点:

  • 高性能: 在 LAMBADA 和 PIQA 测试中表现出色,甚至超过了规模是其两倍的模型。
  • 内存效率: 在反向传播期间利用重计算,从而节省内存,类似于 Flash Attention。
  • 可扩展性: 在长序列上优于 Transformer++,尤其是在增加计算能力和模型大小时。
  • 长上下文: 可以处理高达一百万个 token 的上下文。
  • 高效的文本复制: 擅长文本复制任务。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注