B

Bamba 9B V1

由ibm-ai-platform開發
Bamba-9B 是基於 Mamba-2 架構的解碼器專用語言模型,經過兩階段訓練,擅長處理廣泛的文本生成任務。
下載量 16.19k
發布時間 : 12/3/2024

模型概述

Bamba-9B 是一款高效的語言模型,採用兩階段訓練方法,第一階段在 Dolma v1.7 數據集的 2 萬億 token 上訓練,第二階段額外訓練了 2000 億 token 以提升性能。

模型特點

兩階段訓練
第一階段在 2 萬億 token 上訓練,第二階段在 2000 億高質量 token 上進一步優化。
高效架構
基於 Mamba-2 架構,具有 32 層和 4096 隱藏維度,支持 4096 上下文長度。
量化支持
提供 FP8 量化版本,顯著減少內存佔用,提升推理效率。

模型能力

文本生成
語言理解
上下文推理

使用案例

通用文本生成
內容創作
生成文章、故事或其他創意文本內容。
問答系統
回答用戶提出的各種問題。
教育
學習輔助
幫助學生理解複雜概念或生成學習材料。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase