モデル概要
モデル特徴
モデル能力
使用事例
license: apache-2.0 datasets:
- TIGER-Lab/AceCode-87K
- bespokelabs/Bespoke-Stratos-17k
- cognitivecomputations/dolphin-r1
- tuenguyen/dolphin_r1_reasoning
- facebook/natural_reasoning
- open-r1/OpenThoughts-114k-math
- HuggingFaceTB/smoltalk language:
- en base_model:
- marin-community/marin-8b-base tags:
- text-generation

Marin 8Bモデルカード
これはMarin 8B SFTモデルのモデルカードです。Marinプロジェクトはオープンソースの基盤モデルを開発するための共同プロジェクトです。
データセット
Marin 8B Baseで使用されたデータセット
Marin 8B Baseは以下の多様なデータセットでトレーニングされました:
- Nemotron-CC
- DCLM Baseline
- Starcoder Data
- Proofpile 2
- FineMath 3+
- Dolma、以下を含む:
- Dolmino-Mix-1124、以下を含む:
- FLAN
- CodeSearchNet(OWMフィルター適用)
- GSM8K
- MetaMath
- MathCoder2 Synthetic
そして新しいデータセット:
- Marin Markdownified StackExchange
- Marin Markdownified Wikipedia
- Marin Markdownified Ar5iv
- Marin Datashop Science QA
(これらのデータセットは現在アップロード中です。最初の3つは元のライセンスに従い、4つ目(ウェブコンテンツの言い換えに基づく)はCC-BY-SA 4.0でライセンスされます。)
詳細なレポートはReadTheDocsサイトで利用可能です。
Marin 8B Instructで使用されたデータセット
Marin 8B Instructは現在SFTのみのモデルです。以下のデータセットでトレーニングされました:
- TIGER-Lab/AceCode-89K
- bespokelabs/Bespoke-Stratos-17k
- cognitivecomputations/dolphin-r1(推論と非推論サブセットを含む)
- tuenguyen/dolphin_r1_reasoning
- facebook/natural_reasoning
- open-r1/OpenThoughts-114k-math
- HuggingFaceTB/smoltalk
- allenai/tulu-3-sft-mixture
- PrimeIntellect/verifiable-math-problems
将来的に改良版モデルをリリースする可能性が高いです。
チェックポイント
複数のトレーニングチェックポイントをリリースしています。その他のチェックポイントはリクエストに応じて提供可能です。
ベースモデルチェックポイント
メインページ:marin-community/marin-8b-base
(現在さらにチェックポイントをアップロード中です。)
名前 | トレーニングトークン数 | リンク |
---|---|---|
deeper-starling |
13.7T | marin-community/marin-8b-base |
現在main
はdeeper-starling
を指します。これは将来的に変更される可能性がありますが、モデルの互換性は維持します。特定のチェックポイントが必要な場合はrevision
引数を使用してください。
Instructモデルチェックポイント
メインページ:marin-community/marin-8b-instruct
名前 | トレーニングトークン数 | リンク |
---|---|---|
deeper-starling-05-15 |
5.3B | marin-community/marin-8b-instruct |
現在main
はdeeper-starling-05-15
を指します。これは将来的に変更される可能性がありますが、モデルの互換性は維持します。特定のチェックポイントが必要な場合はrevision
引数を使用してください。
インストール
Marin 8BはLlamaアーキテクチャを使用しているため、Hugging Face TransformersライブラリやLlamaアーキテクチャをサポートする他のライブラリでそのまま動作します。
トークナイザーはLlama 3トークナイザーのバリアントを使用しています:stanford-crfm/marin-tokenizer。同じ語彙を持ちますが、利便性のため基本トークナイザーにチャットテンプレートがバンドルされています。
推論
標準のHuggingFace TransformersライブラリでMarinを使用できます:
from transformers import AutoModelForCausalLM, AutoTokenizer
marin = AutoModelForCausalLM.from_pretrained("marin-community/marin-8b-base")
tokenizer = AutoTokenizer.from_pretrained("marin-community/marin-8b-base")
message = ["The Marin wind is"]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = marin.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
特定のチェックポイントを読み込むには、revision
引数を追加します:
marin = AutoModelForCausalLM.from_pretrained("marin-community/marin-8b-base", revision="deeper-starling")
モデル説明
- 開発者: Stanford CRFMのMarinチーム
- モデルタイプ: Transformerスタイルの自己回帰型言語モデル
- 知識カットオフ: ~2024年7月
- 言語(NLP): 英語
- ライセンス: コードとモデルはApache 2.0でリリース
- 連絡先:
dlwh at stanford.edu
モデルソース
- プロジェクトページ: https://marin.community
- リポジトリ:
- コアリポジトリ(データと実験管理): https://github.com/marin-community/marin
- トレーニングコード: https://github.com/stanford-crfm/levanter
- レトロスペクティブ: https://marin.readthedocs.io/en/latest/reports/marin-8b-retro.html
- W&Bログ: Marin 8B
評価
ベースモデル結果
Llama 3.1 8Bやオープンソースの7-8BモデルOlmo 2 7B、MAP NEO 7Bと比較するため、標準的なベンチマークを実行しました。すべてのベンチマークでは、LM Eval Harnessを各タスクのデフォルト設定で使用しました(セットアップの違いにより報告結果と異なる場合があります)。
平均 | AGI Eval LSAT-AR | ARC Easy | ARC Challenge | BBH | BoolQ | CommonSense QA | COPA | GPQA | HellaSwag 0-shot | HellaSwag 10-shot | lambada_openai | MMLU 5-shot | MMLU 0-shot | MMLU Pro | OpenBookQA | PIQA | WinoGrande | WSC | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Marin 8B Base (Starling) | 68.3 | 20.9 | 86.5 | 63.1 | 50.6 | 85.9 | 79.1 | 92.0 | 30.3 | 82.3 | 83.6 | 74.7 | 67.6 | 65.9 | 36.5 | 44.2 | 84.4 | 74.5 | 82.1 |
Llama 3.1 Base | 67.0 | 20.4 | 85.8 | 58.9 | 46.4 | 84.2 | 75.2 | 92.0 | 32.3 | 79.4 | 81.9 | 74.7 | 66.4 | 65.5 | 33.3 | 45.8 | 82.9 | 74.4 | 83.5 |
OLMo 2 Base | 66.7 | 17.4 | 85.0 | 60.7 | 44.4 | 85.5 | 75.4 | 89.0 | 26.8 | 80.5 | 81.7 | 73.1 | 63.9 | 61.9 | 30.6 | 46.2 | 82.5 | 74.3 | 86.1 |
MAP NEO 7B | 62.2 | 23.0 | 81.1 | 52.0 | 42.4 | 84.7 | 81.7 | 82.0 | 27.8 | 72.5 | 73.3 | 64.6 | 58.2 | 56.4 | TODO | 39.4 | 79.0 | 66.1 | 73.3 |
Marin 8B Baseはほとんどのタスクで良好な結果を示しています。
モデル詳細
事前トレーニングプロセスの詳細については技術的レトロスペクティブを参照してください。
アーキテクチャ詳細
- アーキテクチャ: Llama 3 8B
- 隠れ層サイズ: 4096
- フィードフォワードサイズ: 14336
- レイヤー数: 32
- アテンションヘッド数: 32
- KVヘッド数: 8
トークナイザー詳細
Marin 8BはLlama 3トークナイザーのバリアントを使用:stanford-crfm/marin-tokenizer。同じ語彙を持ちますが、利便性のため基本トークナイザーにチャットテンプレートがバンドルされています。
トレーニングフェーズ
事前トレーニングフェーズ
- Kestrel (DCLM WSD-Sフェーズ): WSD-Sを使用したDCLM+StarCoder+Proofpile2(0→2.7Tトークン)
- Ocelot (DCLM WSDフェーズ): バッチサイズ増加、WSD使用(2.7T→3.78Tトークン)
- Jellyfish (最初のクールダウン): 高品質データ(~Dolmino+Fine Math)(3.78T→4.78Tトークン)
- Phoenix (再加熱): 急速な再加熱+Nemotron-CC(Starcoderを含む)(4.78T→11.1Tトークン)
- Starling (2回目のクールダウン): 別のクールダウン。最初のクールダウンと同様のプロセスだが、いくつかの新しいデータセットを追加(11.1T→12.75Tトークン)
- Deeper Starling: やや多くの事前トレーニング(12.75T→13.7Tトークン)
Kestrelを除くすべてのリリース済み事前トレーニングチェックポイントは、モデル重みの指数移動平均を使用しています。
SFTフェーズ
SFTは比較的単純で、5.3Bトークンのみの1フェーズでした。
バイアス、リスク、制限事項
安全性フィルタリングなしのベース言語モデルやファインチューニングモデルと同様に、このモデルはユーザーによって有害でセンシティブなコンテンツを生成するよう簡単に促される可能性があります。特にバイアスに関連するケースでは、意図せずそのようなコンテンツが生成されることもあるため、この技術を適用する際にはリスクを考慮することを推奨します。さらに、Marinや任意のLLMからの多くの記述はしばしば不正確であるため、応答は検証されるべきです。
Marin 8Bは安全性チューニングや評価を受けていません。このモデルを使用する際には十分に注意し、この技術を適用する際のリスクを考慮することを強く推奨します。特に、このモデルは完全自律的な使用を意図していません。
モデルカード連絡先
このモデルカードの誤りについては、このリポジトリでissueを開いてください。技術的な問い合わせはdlwh at stanford.edu
までお願いします。
謝辞
このモデルの計算リソースはGoogleのTPU Research Cloudから提供されました。
(このモデルカードはOlmo 2のモデルカードを基にしています。)



