OLMo 2 1B指令版オープンソースモデル - 無料でデプロイしてさまざまなタスクの高度なパフォーマンスを実現

Olmo 2 0425 1B Instruct GGUF

unslothによって開発

OLMo 2 1B命令版はOLMo-2-0425-1B-RLVR1モデルのポストトレーニングバリアントで、教師ありファインチューニング、DPOトレーニング、RLVRトレーニングを経ており、様々なタスクで最先端の性能を実現することを目的としています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #命令ファインチューニング #数学的推論 #マルチタスク最適化

ダウンロード数 3,137

リリース時間 : 5/1/2025

モデル概要

英語テキスト生成タスクに主に使用されるオープン言語モデルで、多段階のトレーニングにより命令追従能力を最適化しています。

モデル特徴

多段階トレーニング最適化

教師ありファインチューニング、DPOトレーニング、RLVRトレーニングの3段階最適化により、命令追従能力を向上

オープンモデル

すべてのコード、チェックポイント、トレーニング詳細を公開し、言語モデルの科学研究を促進

中間チェックポイント利用可能

RLVRトレーニングプロセスの中間チェックポイントを提供し、RLファインチューニング研究を容易に

モデル能力

テキスト生成

数学問題解答

命令追従

対話インタラクション

使用事例

教育

数学問題解答

GSM8Kなどの数学問題を解答

GSM8Kで68.3点を達成

研究

RLファインチューニング研究

中間チェックポイントを利用した強化学習研究

🚀 OLMo 2 1B Instruct April 2025

OLMo 2 1B Instruct April 2025は、言語モデルの科学を可能にするために設計されたオープン言語モデルのシリーズであるOLMoの一つです。このモデルは、多様なタスクで最先端の性能を発揮するように訓練されています。

🚀 クイックスタート

OLMo 2 1B Instruct April 2025は、allenai/OLMo-2-0425-1B-RLVR1モデルをベースに、特定のデータセットで追加の訓練を行ったバリアントです。このモデルは、チャット以外の様々なタスクで高い性能を発揮するように設計されています。詳細については、OLMo 2論文またはT端lu 3論文を参照してください。

✨ 主な機能

多様なタスクでの高性能: T端lu 3は、チャット以外の様々なタスク、例えばMATH、GSM8K、IFEvalなどで最先端の性能を発揮するように設計されています。
オープンソース: すべてのコード、チェックポイント、ログ、および関連する訓練詳細を公開しています。

📦 インストール

OLMo 2 1Bは、transformers v4.48以上でサポートされています。以下のコマンドでインストールできます。

pip install transformers>=4.48

vLLMを使用する場合は、v0.7.4がリリースされるまで、メインブランチからインストールする必要があります。

💻 使用例

基本的な使用法

HuggingFaceでのモデルの読み込み

HuggingFaceを使用してモデルを読み込むには、以下のコードを使用します。

from transformers import AutoModelForCausalLM

olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")

チャットテンプレート

モデルのチャットテンプレートは、以下のようにフォーマットされています。

<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>

または、改行を展開した形式では、以下のようになります。

<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>

このテンプレートは、tokenizer.apply_chat_templateで使用できるように、トークナイザに埋め込まれています。

中間チェックポイント

RL微調整の研究を容易にするために、モデルのRLVR訓練中の中間チェックポイントを公開しています。モデルの重みは、訓練ステップ20ごとに保存され、HuggingFaceリポジトリのリビジョンでアクセスできます。例えば、以下のように読み込むことができます。

olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct", revision="step_200")

📚 ドキュメント

モデルの説明

属性	详情
モデルタイプ	公開されている、合成および人間によって作成されたデータセットの混合で訓練されたモデル
言語 (NLP)	主に英語
ライセンス	Apache 2.0
微調整元のモデル	allenai/OLMo-2-0425-1B-RLVR1

モデルのソース

プロジェクトページ: https://allenai.org/olmo
リポジトリ:
- コアリポジトリ (訓練、推論、微調整など): https://github.com/allenai/OLMo-core
- 評価コード: https://github.com/allenai/olmes
- さらなる微調整コード: https://github.com/allenai/open-instruct
論文: https://arxiv.org/abs/2501.00656
デモ: https://playground.allenai.org/

バイアス、リスク、および制限事項

OLMo-2モデルは、限られた安全訓練を受けていますが、ChatGPTのように応答のループ内フィルタリングを自動的に行って展開されていないため、問題のある出力を生成する可能性があります（特にそのように促された場合）。

性能

モデル	平均	AlpacaEval 2 LC	BBH	DROP	GSM8K	IFEval	MATH	MMLU	セキュリティ	PopQA	TruthQA
OLMo 1B 0724	24.4	2.4	29.9	27.9	10.8	25.3	2.2	36.6	52.0	12.1	44.3
SmolLM2 1.7B	34.2	5.8	39.8	30.9	45.3	51.6	20.3	34.3	52.4	16.4	45.3
Gemma 3 1B	38.3	20.4	39.4	25.1	35.0	60.6	40.3	38.9	70.2	9.6	43.8
Llama 3.1 1B	39.3	10.1	40.2	32.2	45.4	54.0	21.6	46.7	87.2	13.8	41.5
Qwen 2.5 1.5B	41.7	7.4	45.8	13.4	66.2	44.2	40.6	59.7	77.6	15.5	46.5
---
OLMo 2 1B SFT	36.9	2.4	32.8	33.8	52.1	50.5	13.2	36.4	93.2	12.7	42.1
OLMo 2 1B DPO	40.6	9.5	33.0	34.5	59.0	67.1	14.1	39.9	89.9	12.3	46.4
OLMo 2 1B	42.7	9.1	35.0	34.6	68.3	70.1	20.7	40.0	87.6	12.9	48.7

📄 ライセンス

OLMo 2は、Apache 2.0ライセンスの下で公開されています。このモデルは、研究および教育目的での使用を想定しています。詳細については、責任ある使用ガイドラインを参照してください。

引用

@article{olmo20242olmo2furious,
      title={2 OLMo 2 Furious}, 
      author={Team OLMo and Pete Walsh and Luca Soldaini and Dirk Groeneveld and Kyle Lo and Shane Arora and Akshita Bhagia and Yuling Gu and Shengyi Huang and Matt Jordan and Nathan Lambert and Dustin Schwenk and Oyvind Tafjord and Taira Anderson and David Atkinson and Faeze Brahman and Christopher Clark and Pradeep Dasigi and Nouha Dziri and Michal Guerquin and Hamish Ivison and Pang Wei Koh and Jiacheng Liu and Saumya Malik and William Merrill and Lester James V. Miranda and Jacob Morrison and Tyler Murray and Crystal Nam and Valentina Pyatkin and Aman Rangapur and Michael Schmitz and Sam Skjonsberg and David Wadden and Christopher Wilhelm and Michael Wilson and Luke Zettlemoyer and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi},
      year={2024},
      eprint={2501.00656},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.00656}, 
}