J

Jamba V0.1 9B

由TechxGenus開發
Jamba是最先進的混合SSM-Transformer架構大語言模型,結合了注意力機制和Mamba架構的優勢,支持256K上下文長度,適合在單張80GB GPU上進行推理。
下載量 22
發布時間 : 4/8/2024

模型概述

Jamba是一個預訓練的混合專家(MoE)生成文本模型,激活參數120億,所有專家總參數520億。該模型在同類尺寸模型中,大多數常見基準測試表現優於或持平最佳模型。

模型特點

混合架構
結合了Transformer的注意力機制和Mamba架構的優勢,提升了模型吞吐量。
長上下文支持
支持高達256K的上下文長度,適合處理長文檔和複雜任務。
高效推理
優化後的實現可在單張80GB GPU上處理高達140K令牌,適合實際部署。
混合專家(MoE)
採用混合專家架構,激活參數120億,總參數520億,平衡了性能和效率。

模型能力

文本生成
長上下文處理
高效推理

使用案例

文本生成
內容創作
生成高質量的文章、故事或其他文本內容。
代碼生成
輔助開發人員生成代碼片段或完成編程任務。
研究與開發
模型微調
作為基礎模型,可通過PEFT庫進行微調,適應特定任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase