B

Bamba 9B V1

Developed by ibm-ai-platform
Bamba-9B 是基於 Mamba-2 架構的解碼器專用語言模型,經過兩階段訓練,擅長處理廣泛的文本生成任務。
Downloads 16.19k
Release Time : 12/3/2024

Model Overview

Bamba-9B 是一款高效的語言模型,採用兩階段訓練方法,第一階段在 Dolma v1.7 數據集的 2 萬億 token 上訓練,第二階段額外訓練了 2000 億 token 以提升性能。

Model Features

兩階段訓練
第一階段在 2 萬億 token 上訓練,第二階段在 2000 億高質量 token 上進一步優化。
高效架構
基於 Mamba-2 架構,具有 32 層和 4096 隱藏維度,支持 4096 上下文長度。
量化支持
提供 FP8 量化版本,顯著減少內存佔用,提升推理效率。

Model Capabilities

文本生成
語言理解
上下文推理

Use Cases

通用文本生成
內容創作
生成文章、故事或其他創意文本內容。
問答系統
回答用戶提出的各種問題。
教育
學習輔助
幫助學生理解複雜概念或生成學習材料。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase