J

Jamba V0.1

由ai21labs開發
Jamba是最先進的混合SSM-Transformer大語言模型,結合了Mamba架構與Transformer優勢,支持256K上下文長度,在吞吐量和性能上超越同規模模型。
下載量 6,247
發布時間 : 3/28/2024

模型概述

Jamba是首個生產級Mamba實現,作為預訓練的混合專家(MoE)生成文本模型,激活參數120億,總參數520億。適用於文本生成、微調和研究開發。

模型特點

混合架構創新
結合Mamba的SSM架構與傳統Transformer,實現吞吐量提升同時保持高性能
超長上下文支持
支持256K tokens的上下文長度,單塊80GB GPU可處理140K tokens
高效專家混合
採用MoE設計,總參數520億但僅激活120億參數,平衡性能與效率
生產級實現
首個可用於實際生產的Mamba架構實現,為應用開發提供新可能

模型能力

長文本生成
知識問答
文本續寫
指令微調基礎

使用案例

研究與開發
架構創新研究
探索混合SSM-Transformer架構的性能邊界
在多個基準測試中達到或超越同規模模型
企業應用
長文檔處理
利用256K上下文長度處理超長文檔
可保持長距離語義一致性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase