🚀 OLMo 2 1B SFT April 2025
OLMo 2 1B SFT April 2025は、言語モデルの科学を可能にするために設計されたオープン言語モデルの一連であるOLMoのバリアントです。このモデルは、特定のデータセットで教師付き微調整を行っており、様々なタスクでの高性能を実現します。
OLMo 2 1B SFT April 2025は、allenai/OLMo-2-0425-1Bモデルの事後学習バリアントです。このモデルは、T端lu 3データセットのOLMo固有のバリアントで教師付き微調整を行っています。
T端lu 3は、チャット以外の様々なタスク(MATH、GSM8K、IFEvalなど)で最先端のパフォーマンスを達成するように設計されています。
詳細については、OLMo 2論文またはT端lu 3論文をご覧ください!
OLMoは、言語モデルの科学を可能にするために設計されたOpen Language Modelsのシリーズです。
これらのモデルはDolmaデータセットで学習されています。私たちは、すべてのコード、チェックポイント、ログ、および関連する学習詳細を公開しています。
🚀 クイックスタート
このモデルを使用する前に、必要なライブラリをインストールする必要があります。以下の手順に従って、モデルを使用できるようにしましょう。
✨ 主な機能
- 様々なタスクでの高性能を実現
- 教師付き微調整による精度向上
- オープンソースでコードや学習詳細を公開
📦 インストール
OLMo 2 1Bは、transformers v4.48以上でサポートされています。以下のコマンドを実行して、必要なライブラリをインストールしましょう。
pip install transformers>=4.48
vLLMを使用する場合は、v0.7.4がリリースされるまで、メインブランチからインストールする必要があります。
💻 使用例
基本的な使用法
HuggingFaceを使用してモデルをロードするには、以下のコードを使用します。
from transformers import AutoModelForCausalLM
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-SFT")
高度な使用法
チャットテンプレートを使用する場合は、以下の形式に従います。
<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>
または、改行を展開した形式でも使用できます。
<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>
このテンプレートは、tokenizer.apply_chat_template
でも使用できます。
中間チェックポイントの使用
RL微調整の研究を容易にするために、モデルのRLVR学習中の中間チェックポイントを公開しています。
モデルの重みは、学習ステップ20ごとに保存されており、HuggingFaceリポジトリのリビジョンでアクセスできます。
例えば、以下のコードでロードできます。
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-SFT", revision="step_200")
📚 ドキュメント
モデルの説明
属性 |
详情 |
モデルタイプ |
公開されている、合成および人間が作成したデータセットの混合で学習されたモデル |
言語 |
主に英語 |
ライセンス |
Apache 2.0 |
微調整元のモデル |
allenai/OLMo-2-0425-1B |
モデルのソース
- プロジェクトページ: https://allenai.org/olmo
- リポジトリ:
- コアリポジトリ(学習、推論、微調整など): https://github.com/allenai/OLMo-core
- 評価コード: https://github.com/allenai/olmes
- さらなる微調整コード: https://github.com/allenai/open-instruct
- 論文: https://arxiv.org/abs/2501.00656
- デモ: https://playground.allenai.org/
パフォーマンス
モデル |
平均 |
AlpacaEval 2 LC |
BBH |
DROP |
GSM8K |
IFEval |
MATH |
MMLU |
セキュリティ |
PopQA |
TruthQA |
OLMo 1B 0724 |
24.4 |
2.4 |
29.9 |
27.9 |
10.8 |
25.3 |
2.2 |
36.6 |
52.0 |
12.1 |
44.3 |
SmolLM2 1.7B |
34.2 |
5.8 |
39.8 |
30.9 |
45.3 |
51.6 |
20.3 |
34.3 |
52.4 |
16.4 |
45.3 |
Gemma 3 1B |
38.3 |
20.4 |
39.4 |
25.1 |
35.0 |
60.6 |
40.3 |
38.9 |
70.2 |
9.6 |
43.8 |
Llama 3.1 1B |
39.3 |
10.1 |
40.2 |
32.2 |
45.4 |
54.0 |
21.6 |
46.7 |
87.2 |
13.8 |
41.5 |
Qwen 2.5 1.5B |
41.7 |
7.4 |
45.8 |
13.4 |
66.2 |
44.2 |
40.6 |
59.7 |
77.6 |
15.5 |
46.5 |
--- |
|
|
|
|
|
|
|
|
|
|
|
OLMo 2 1B SFT |
36.9 |
2.4 |
32.8 |
33.8 |
52.1 |
50.5 |
13.2 |
36.4 |
93.2 |
12.7 |
42.1 |
OLMo 2 1B DPO |
40.6 |
9.5 |
33.0 |
34.5 |
59.0 |
67.1 |
14.1 |
39.9 |
89.9 |
12.3 |
46.4 |
OLMo 2 1B |
42.7 |
9.1 |
35.0 |
34.6 |
68.3 |
70.1 |
20.7 |
40.0 |
87.6 |
12.9 |
48.7 |
バイアス、リスク、および制限
OLMo-2モデルは、限られたセキュリティ学習を行っていますが、ChatGPTのように応答のループ内フィルタリングを自動的に行っていないため、問題のある出力を生成する可能性があります(特にそのように促された場合)。
この例については、Falcon 180Bモデルカードを参照してください。
📄 ライセンス
OLMo 2は、Apache 2.0ライセンスの下で公開されています。このモデルは、研究および教育目的での使用を想定しています。詳細については、責任ある使用ガイドラインをご覧ください。
引用
@article{olmo20242olmo2furious,
title={2 OLMo 2 Furious},
author={Team OLMo and Pete Walsh and Luca Soldaini and Dirk Groeneveld and Kyle Lo and Shane Arora and Akshita Bhagia and Yuling Gu and Shengyi Huang and Matt Jordan and Nathan Lambert and Dustin Schwenk and Oyvind Tafjord and Taira Anderson and David Atkinson and Faeze Brahman and Christopher Clark and Pradeep Dasigi and Nouha Dziri and Michal Guerquin and Hamish Ivison and Pang Wei Koh and Jiacheng Liu and Saumya Malik and William Merrill and Lester James V. Miranda and Jacob Morrison and Tyler Murray and Crystal Nam and Valentina Pyatkin and Aman Rangapur and Michael Schmitz and Sam Skjonsberg and David Wadden and Christopher Wilhelm and Michael Wilson and Luke Zettlemoyer and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi},
year={2024},
eprint={2501.00656},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.00656},
}