M

Mamba 7b Rw

由TRI-ML開發
Mamba-7B 是一個基於 Mamba 架構的 70 億參數模型,在 RefinedWeb 數據集上進行了多輪訓練(1.2 萬億標記)。Mamba 是一種狀態空間模型,不使用自注意力機制,在多種自然語言基準測試中表現出色。
下載量 188
發布時間 : 4/8/2024

模型概述

Mamba-7B 是一個自迴歸語言模型,基於 Mamba 架構,專為文本生成任務設計。它在 1.2 萬億標記的 RefinedWeb 數據集上訓練,支持英語語言。

模型特點

基於 Mamba 架構
Mamba 是一種狀態空間模型,不使用自注意力機制,具有線性時間複雜度和高效推理能力。
大規模訓練數據
在 1.2 萬億標記的 RefinedWeb 數據集上訓練,覆蓋廣泛的自然語言任務。
高效推理
由於 Mamba 架構的特性,模型在推理時具有較高的效率和較低的計算成本。

模型能力

文本生成
自然語言理解
問答系統

使用案例

自然語言處理
文本生成
生成連貫且上下文相關的文本,適用於內容創作、對話系統等。
生成的文本具有較高的連貫性和相關性。
問答系統
回答用戶提出的問題,適用於客服、教育等領域。
在 MMLU 數據集上準確率為 33.3。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase