M

Mamba 7b Rw

TRI-MLによって開発
Mamba-7BはMambaアーキテクチャに基づく70億パラメータのモデルで、RefinedWebデータセットで複数回のトレーニング(1.2兆トークン)を受けています。Mambaは状態空間モデルで、自己注意機構を使用せず、さまざまな自然言語ベンチマークで優れた性能を発揮します。
ダウンロード数 188
リリース時間 : 4/8/2024

モデル概要

Mamba-7Bは、テキスト生成タスク向けに設計されたMambaアーキテクチャに基づく自己回帰型言語モデルです。1.2兆トークンのRefinedWebデータセットでトレーニングされ、英語をサポートしています。

モデル特徴

Mambaアーキテクチャに基づく
Mambaは状態空間モデルで、自己注意機構を使用せず、線形時間計算量と効率的な推論能力を持っています。
大規模トレーニングデータ
1.2兆トークンのRefinedWebデータセットでトレーニングされ、幅広い自然言語タスクをカバーしています。
効率的な推論
Mambaアーキテクチャの特性により、モデルは推論時に高い効率と低い計算コストを実現します。

モデル能力

テキスト生成
自然言語理解
質問応答システム

使用事例

自然言語処理
テキスト生成
一貫性があり文脈に関連したテキストを生成し、コンテンツ作成や対話システムなどに適しています。
生成されたテキストは高い一貫性と関連性を持っています。
質問応答システム
ユーザーの質問に回答し、カスタマーサポートや教育などの分野に適しています。
MMLUデータセットでの精度は33.3です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase