Save and Share:
Mamba là gì?
Mamba là một kiến trúc LLM đầy hứa hẹn, mang đến một giải pháp thay thế cho kiến trúc Transformer. Điểm mạnh của nó nằm ở hiệu quả bộ nhớ, khả năng mở rộng và khả năng xử lý các chuỗi dữ liệu rất dài.
Mamba được xây dựng dựa trên Mô hình Không gian Trạng thái (SSM) và cơ chế Mạng nơ-ron nhiều lớp (MLP) có cổng.
Cách thức hoạt động?
- Chiếu đầu vào: Tăng số chiều của chuỗi đầu vào.
- Xử lý tích chập: Áp dụng phép tích chập một chiều và một hàm kích hoạt.
- Cơ chế cổng: Dữ liệu đầu vào và kết quả chiếu được nhân theo từng phần tử.
- Lặp lại: Bước 2-3 có thể được lặp lại nhiều lần.
Ưu điểm của Kiến trúc Mamba:
- Hiệu suất cao: Thể hiện kết quả xuất sắc trong các bài kiểm tra LAMBADA và PIQA, vượt trội hơn cả các mô hình có kích thước gấp đôi.
- Hiệu quả bộ nhớ: Sử dụng tính toán lại trong quá trình lan truyền ngược, giúp tiết kiệm bộ nhớ tương tự như Flash Attention.
- Khả năng mở rộng: Vượt trội hơn Transformer++ trên các chuỗi dài, đặc biệt khi tăng cường sức mạnh tính toán và kích thước mô hình.
- Xử lý ngữ cảnh dài: Có thể xử lý ngữ cảnh lên đến một triệu token.
- Sao chép văn bản hiệu quả: Vượt trội trong các tác vụ sao chép văn bản.