🚀 Falcon3-Mamba-R1-v0
このモデルは、Falcon3-Mamba-7B-Instructをベースに微調整されたもので、応答を生成する前に論理的な推論と構造化された問題解決を行うように最適化されています。Mambaアーキテクチャを利用しており、トークン数が増えても線形にスケールするため、高速かつ効率的な推論モデルであり、高品質な応答を維持します。
📚 ドキュメント
モデルの詳細
モデルの説明:
このモデルはFalcon3-Mamba-7B-Instructの微調整版で、応答を生成する前に論理的な推論と構造化された問題解決を最適化しています。
Mambaアーキテクチャを活用しており、トークン数の増加に対して線形にスケーリングするため、高速で効率的な推論モデルであり、高品質な応答を維持します。
この微調整版は、微調整パイプラインの初期チェックポイントから派生しています。
- 開発者: Hanzla Javaid
- ベースモデル: tiiuae/Falcon3-Mamba-7B-Instruct
- モデルタイプ: Mambaベースの因果デコーダ
- モデルリリース日: 2025年3月
プロパティ |
詳細 |
モデルタイプ |
Mambaベースの因果デコーダ |
ベースモデル |
tiiuae/Falcon3-Mamba-7B-Instruct |
モデルリリース日 |
2025年3月 |
想定される用途
直接的な使用:
このモデルは以下の用途に設計されています。
- 推論が重要なタスク(数学、論理、構造化された問題解決)
- STEM分野の質問応答
- 汎用的なテキスト生成
下流の使用:
- 金融、法律、医学、研究などの特定ドメインのアプリケーションへの微調整
- 高度な推論能力が必要なチャットボットやバーチャルアシスタントへの統合
- 構造化されたロジック構築による自動コーディングアシスタントの強化
想定外の使用:
- 誤情報や欺瞞的なアプリケーション
- 高リスク分野での自動決定(人間の監視なしの医療診断など)
- 公平性が重要であるが明示的に制御されていないバイアスに敏感なアプリケーション
バイアスと制限
既知のバイアス:
- このモデルは英語データを優先するため、多言語タスクでの性能は低くなる可能性があります。
- 微調整により、トレーニングデータに含まれるバイアスが導入または増幅される可能性があり、特に倫理、政治、文化的な観点において顕著です。
技術的な制限:
- 64Kトークンを超える長文生成では性能が低下する可能性があります。
推奨事項:
- ユーザーは、特に重要なアプリケーションでは出力の精度を検証する必要があります。
- 本番環境にデプロイする際には、定期的にバイアス評価を行う必要があります。
⚠️ 重要提示
このモデルは英語データを優先するため、多言語タスクでの性能は低くなる可能性があります。また、微調整によりトレーニングデータに含まれるバイアスが導入または増幅される可能性があります。64Kトークンを超える長文生成では性能が低下する可能性があります。
💡 使用建议
ユーザーは、特に重要なアプリケーションでは出力の精度を検証する必要があります。本番環境にデプロイする際には、定期的にバイアス評価を行う必要があります。
🚀 クイックスタート
このモデルを使用するには、transformers
を使ってロードすることができます。
repo_name = "hanzla/Falcon3-Mamba-R1-v0"
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained(repo_name)
model = AutoModelForCausalLM.from_pretrained(
repo_name,
device_map="auto",
torch_dtype=torch.float16,
)
def generate_text(prompt,generation_model,generation_tokenizer,max_tokens=1024):
messages = [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": prompt},
]
input_text = generation_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(input_text)
input_ids = generation_tokenizer(input_text, return_tensors="pt").input_ids.to("auto")
outputs = generation_model.generate(input_ids, max_new_tokens=max_tokens)
generated_tokens = outputs[0][len(input_ids[0]):]
return tokenizer.decode(generated_tokens, skip_special_tokens=True)
🔧 技術詳細
トレーニング手順
- 事前学習ベースモデル: Falcon3-Mamba-7B-Instruct
- 微調整データ: open-thoughts/OpenThoughts-114kからのSTEM問題のサブセット
- トレーニング戦略: GRPO
- トレーニングハイパーパラメータ:
- バッチサイズ: 4
- エポック数: 3
- 精度: 混合(fp16 / bf16)
- ハードウェア: 2xH100 GPU
評価
テストデータとメトリクス:
微調整されたモデルの性能は、さまざまなベンチマークで評価され、推論能力と全体的な性能が評価されました。以下の表は、微調整されたモデルとベースモデルの比較を示しています。
カテゴリ |
ベンチマーク |
Falcon3-Mamba-R1-v0 |
ベースFalcon3-Mamba-7B-Instruct |
一般 |
MMLU (5-shot) |
72.1 |
65.3 |
数学 |
GSM8K (5-shot) |
89.5 |
65.2 |
技術仕様
モデルアーキテクチャ:
- Mambaブロック: 64
- 隠れ層サイズ: 4096
ソフトウェア要件:
transformers >= 4.38
torch >= 2.1
accelerate >= 0.25
mamba-ssm
causal-conv1d>=1.4.0