Marin 8b Instruct

marin-communityによって開発

Marin 8Bはオープンソースの8Bパラメータ規模の大規模言語モデルで、Llamaアーキテクチャに基づいて開発され、英語テキスト生成タスクをサポートします。

大規模言語モデル

Safetensors

英語オープンソースライセンス:Apache-2.0 #マルチタスク推論 #数学強化 #コード生成最適化

ダウンロード数 239

リリース時間 : 5/14/2025

モデル概要

Marin 8BはMarinコミュニティによって開発された協力的なオープンソースベースモデルで、強力なテキスト生成と理解能力を持ち、さまざまな自然言語処理タスクに適しています。

モデル特徴

マルチデータセットトレーニング

Nemotron-CC、DCLM Baseline、Starcoder Dataなどの高品質データセットを含む多様なデータセットでトレーニング

オープンソースコラボレーション

Marinプロジェクトの一部として、オープンソースコラボレーション方式で開発

優れた性能

複数のベンチマークテストで同様のオープンソースモデルよりも優れたパフォーマンスを発揮

モデル能力

テキスト生成

コード生成

数学的推論

常識的質問応答

使用事例

コード関連

コード生成

自然言語記述に基づいてコードを生成

コード補完

プログラマーのコード補完を支援

教育

数学問題解答

数学問題と証明を解答

license: apache-2.0 datasets:

TIGER-Lab/AceCode-87K
bespokelabs/Bespoke-Stratos-17k
cognitivecomputations/dolphin-r1
tuenguyen/dolphin_r1_reasoning
facebook/natural_reasoning
open-r1/OpenThoughts-114k-math
HuggingFaceTB/smoltalk language:
en base_model:
marin-community/marin-8b-base tags:
text-generation

Marin 8Bモデルカード

これはMarin 8B SFTモデルのモデルカードです。Marinプロジェクトはオープンソースの基盤モデルを開発するための共同プロジェクトです。

データセット

Marin 8B Baseで使用されたデータセット

Marin 8B Baseは以下の多様なデータセットでトレーニングされました：

Nemotron-CC
DCLM Baseline
Starcoder Data
Proofpile 2
FineMath 3+
Dolma、以下を含む：
- MegaWika
- peS2o
- （その他大部分）
Dolmino-Mix-1124、以下を含む：
- FLAN
- CodeSearchNet（OWMフィルター適用）
- GSM8K
- MetaMath
- MathCoder2 Synthetic

そして新しいデータセット：

（これらのデータセットは現在アップロード中です。最初の3つは元のライセンスに従い、4つ目（ウェブコンテンツの言い換えに基づく）はCC-BY-SA 4.0でライセンスされます。）

詳細なレポートはReadTheDocsサイトで利用可能です。

Marin 8B Instructで使用されたデータセット

Marin 8B Instructは現在SFTのみのモデルです。以下のデータセットでトレーニングされました：

TIGER-Lab/AceCode-89K
bespokelabs/Bespoke-Stratos-17k
cognitivecomputations/dolphin-r1（推論と非推論サブセットを含む）
tuenguyen/dolphin_r1_reasoning
facebook/natural_reasoning
open-r1/OpenThoughts-114k-math
HuggingFaceTB/smoltalk
allenai/tulu-3-sft-mixture
PrimeIntellect/verifiable-math-problems

将来的に改良版モデルをリリースする可能性が高いです。

チェックポイント

複数のトレーニングチェックポイントをリリースしています。その他のチェックポイントはリクエストに応じて提供可能です。

ベースモデルチェックポイント

メインページ：marin-community/marin-8b-base

（現在さらにチェックポイントをアップロード中です。）

名前	トレーニングトークン数	リンク
`deeper-starling`	13.7T	marin-community/marin-8b-base

現在mainはdeeper-starlingを指します。これは将来的に変更される可能性がありますが、モデルの互換性は維持します。特定のチェックポイントが必要な場合はrevision引数を使用してください。

Instructモデルチェックポイント

メインページ：marin-community/marin-8b-instruct

名前	トレーニングトークン数	リンク
`deeper-starling-05-15`	5.3B	marin-community/marin-8b-instruct

現在mainはdeeper-starling-05-15を指します。これは将来的に変更される可能性がありますが、モデルの互換性は維持します。特定のチェックポイントが必要な場合はrevision引数を使用してください。

インストール

Marin 8BはLlamaアーキテクチャを使用しているため、Hugging Face TransformersライブラリやLlamaアーキテクチャをサポートする他のライブラリでそのまま動作します。

トークナイザーはLlama 3トークナイザーのバリアントを使用しています：stanford-crfm/marin-tokenizer。同じ語彙を持ちますが、利便性のため基本トークナイザーにチャットテンプレートがバンドルされています。

推論

標準のHuggingFace TransformersライブラリでMarinを使用できます：

from transformers import AutoModelForCausalLM, AutoTokenizer
marin = AutoModelForCausalLM.from_pretrained("marin-community/marin-8b-base")
tokenizer = AutoTokenizer.from_pretrained("marin-community/marin-8b-base")
message = ["The Marin wind is"]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = marin.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])

特定のチェックポイントを読み込むには、revision引数を追加します：

marin = AutoModelForCausalLM.from_pretrained("marin-community/marin-8b-base", revision="deeper-starling")

モデル説明

開発者: Stanford CRFMのMarinチーム
モデルタイプ: Transformerスタイルの自己回帰型言語モデル
知識カットオフ: ~2024年7月
言語（NLP）: 英語
ライセンス: コードとモデルはApache 2.0でリリース
連絡先: dlwh at stanford.edu

モデルソース

プロジェクトページ: https://marin.community
リポジトリ:
- コアリポジトリ（データと実験管理）: https://github.com/marin-community/marin
- トレーニングコード: https://github.com/stanford-crfm/levanter
レトロスペクティブ: https://marin.readthedocs.io/en/latest/reports/marin-8b-retro.html
W&Bログ: Marin 8B

評価

ベースモデル結果

Llama 3.1 8Bやオープンソースの7-8BモデルOlmo 2 7B、MAP NEO 7Bと比較するため、標準的なベンチマークを実行しました。すべてのベンチマークでは、LM Eval Harnessを各タスクのデフォルト設定で使用しました（セットアップの違いにより報告結果と異なる場合があります）。

	平均	AGI Eval LSAT-AR	ARC Easy	ARC Challenge	BBH	BoolQ	CommonSense QA	COPA	GPQA	HellaSwag 0-shot	HellaSwag 10-shot	lambada_openai	MMLU 5-shot	MMLU 0-shot	MMLU Pro	OpenBookQA	PIQA	WinoGrande	WSC
Marin 8B Base (Starling)	68.3	20.9	86.5	63.1	50.6	85.9	79.1	92.0	30.3	82.3	83.6	74.7	67.6	65.9	36.5	44.2	84.4	74.5	82.1
Llama 3.1 Base	67.0	20.4	85.8	58.9	46.4	84.2	75.2	92.0	32.3	79.4	81.9	74.7	66.4	65.5	33.3	45.8	82.9	74.4	83.5
OLMo 2 Base	66.7	17.4	85.0	60.7	44.4	85.5	75.4	89.0	26.8	80.5	81.7	73.1	63.9	61.9	30.6	46.2	82.5	74.3	86.1
MAP NEO 7B	62.2	23.0	81.1	52.0	42.4	84.7	81.7	82.0	27.8	72.5	73.3	64.6	58.2	56.4	TODO	39.4	79.0	66.1	73.3

Marin 8B Baseはほとんどのタスクで良好な結果を示しています。

モデル詳細

事前トレーニングプロセスの詳細については技術的レトロスペクティブを参照してください。

アーキテクチャ詳細

アーキテクチャ: Llama 3 8B
隠れ層サイズ: 4096
フィードフォワードサイズ: 14336
レイヤー数: 32
アテンションヘッド数: 32
KVヘッド数: 8

トークナイザー詳細

Marin 8BはLlama 3トークナイザーのバリアントを使用：stanford-crfm/marin-tokenizer。同じ語彙を持ちますが、利便性のため基本トークナイザーにチャットテンプレートがバンドルされています。

トレーニングフェーズ

事前トレーニングフェーズ

Kestrel (DCLM WSD-Sフェーズ): WSD-Sを使用したDCLM+StarCoder+Proofpile2（0→2.7Tトークン）
Ocelot (DCLM WSDフェーズ): バッチサイズ増加、WSD使用（2.7T→3.78Tトークン）
Jellyfish (最初のクールダウン): 高品質データ（~Dolmino+Fine Math）（3.78T→4.78Tトークン）
Phoenix (再加熱): 急速な再加熱+Nemotron-CC（Starcoderを含む）（4.78T→11.1Tトークン）
Starling (2回目のクールダウン): 別のクールダウン。最初のクールダウンと同様のプロセスだが、いくつかの新しいデータセットを追加（11.1T→12.75Tトークン）
Deeper Starling: やや多くの事前トレーニング（12.75T→13.7Tトークン）

Kestrelを除くすべてのリリース済み事前トレーニングチェックポイントは、モデル重みの指数移動平均を使用しています。

SFTフェーズ

SFTは比較的単純で、5.3Bトークンのみの1フェーズでした。

バイアス、リスク、制限事項

安全性フィルタリングなしのベース言語モデルやファインチューニングモデルと同様に、このモデルはユーザーによって有害でセンシティブなコンテンツを生成するよう簡単に促される可能性があります。特にバイアスに関連するケースでは、意図せずそのようなコンテンツが生成されることもあるため、この技術を適用する際にはリスクを考慮することを推奨します。さらに、Marinや任意のLLMからの多くの記述はしばしば不正確であるため、応答は検証されるべきです。

Marin 8Bは安全性チューニングや評価を受けていません。このモデルを使用する際には十分に注意し、この技術を適用する際のリスクを考慮することを強く推奨します。特に、このモデルは完全自律的な使用を意図していません。