🚀 OLMo 2 1B Instruct April 2025
OLMo 2 1B Instruct April 2025は、言語モデルの科学を可能にするために設計されたオープン言語モデルのシリーズであるOLMoの一つです。このモデルは、多様なタスクで最先端の性能を発揮するように訓練されています。
🚀 クイックスタート
OLMo 2 1B Instruct April 2025は、allenai/OLMo-2-0425-1B-RLVR1モデルをベースに、特定のデータセットで追加の訓練を行ったバリアントです。このモデルは、チャット以外の様々なタスクで高い性能を発揮するように設計されています。詳細については、OLMo 2論文またはT端lu 3論文を参照してください。
✨ 主な機能
- 多様なタスクでの高性能: T端lu 3は、チャット以外の様々なタスク、例えばMATH、GSM8K、IFEvalなどで最先端の性能を発揮するように設計されています。
- オープンソース: すべてのコード、チェックポイント、ログ、および関連する訓練詳細を公開しています。
📦 インストール
OLMo 2 1Bは、transformers v4.48以上でサポートされています。以下のコマンドでインストールできます。
pip install transformers>=4.48
vLLMを使用する場合は、v0.7.4がリリースされるまで、メインブランチからインストールする必要があります。
💻 使用例
基本的な使用法
HuggingFaceでのモデルの読み込み
HuggingFaceを使用してモデルを読み込むには、以下のコードを使用します。
from transformers import AutoModelForCausalLM
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")
チャットテンプレート
モデルのチャットテンプレートは、以下のようにフォーマットされています。
<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>
または、改行を展開した形式では、以下のようになります。
<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>
このテンプレートは、tokenizer.apply_chat_template
で使用できるように、トークナイザに埋め込まれています。
中間チェックポイント
RL微調整の研究を容易にするために、モデルのRLVR訓練中の中間チェックポイントを公開しています。モデルの重みは、訓練ステップ20ごとに保存され、HuggingFaceリポジトリのリビジョンでアクセスできます。例えば、以下のように読み込むことができます。
olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct", revision="step_200")
📚 ドキュメント
モデルの説明
属性 |
详情 |
モデルタイプ |
公開されている、合成および人間によって作成されたデータセットの混合で訓練されたモデル |
言語 (NLP) |
主に英語 |
ライセンス |
Apache 2.0 |
微調整元のモデル |
allenai/OLMo-2-0425-1B-RLVR1 |
モデルのソース
- プロジェクトページ: https://allenai.org/olmo
- リポジトリ:
- コアリポジトリ (訓練、推論、微調整など): https://github.com/allenai/OLMo-core
- 評価コード: https://github.com/allenai/olmes
- さらなる微調整コード: https://github.com/allenai/open-instruct
- 論文: https://arxiv.org/abs/2501.00656
- デモ: https://playground.allenai.org/
バイアス、リスク、および制限事項
OLMo-2モデルは、限られた安全訓練を受けていますが、ChatGPTのように応答のループ内フィルタリングを自動的に行って展開されていないため、問題のある出力を生成する可能性があります(特にそのように促された場合)。
性能
モデル |
平均 |
AlpacaEval 2 LC |
BBH |
DROP |
GSM8K |
IFEval |
MATH |
MMLU |
セキュリティ |
PopQA |
TruthQA |
OLMo 1B 0724 |
24.4 |
2.4 |
29.9 |
27.9 |
10.8 |
25.3 |
2.2 |
36.6 |
52.0 |
12.1 |
44.3 |
SmolLM2 1.7B |
34.2 |
5.8 |
39.8 |
30.9 |
45.3 |
51.6 |
20.3 |
34.3 |
52.4 |
16.4 |
45.3 |
Gemma 3 1B |
38.3 |
20.4 |
39.4 |
25.1 |
35.0 |
60.6 |
40.3 |
38.9 |
70.2 |
9.6 |
43.8 |
Llama 3.1 1B |
39.3 |
10.1 |
40.2 |
32.2 |
45.4 |
54.0 |
21.6 |
46.7 |
87.2 |
13.8 |
41.5 |
Qwen 2.5 1.5B |
41.7 |
7.4 |
45.8 |
13.4 |
66.2 |
44.2 |
40.6 |
59.7 |
77.6 |
15.5 |
46.5 |
--- |
|
|
|
|
|
|
|
|
|
|
|
OLMo 2 1B SFT |
36.9 |
2.4 |
32.8 |
33.8 |
52.1 |
50.5 |
13.2 |
36.4 |
93.2 |
12.7 |
42.1 |
OLMo 2 1B DPO |
40.6 |
9.5 |
33.0 |
34.5 |
59.0 |
67.1 |
14.1 |
39.9 |
89.9 |
12.3 |
46.4 |
OLMo 2 1B |
42.7 |
9.1 |
35.0 |
34.6 |
68.3 |
70.1 |
20.7 |
40.0 |
87.6 |
12.9 |
48.7 |
📄 ライセンス
OLMo 2は、Apache 2.0ライセンスの下で公開されています。このモデルは、研究および教育目的での使用を想定しています。詳細については、責任ある使用ガイドラインを参照してください。
引用
@article{olmo20242olmo2furious,
title={2 OLMo 2 Furious},
author={Team OLMo and Pete Walsh and Luca Soldaini and Dirk Groeneveld and Kyle Lo and Shane Arora and Akshita Bhagia and Yuling Gu and Shengyi Huang and Matt Jordan and Nathan Lambert and Dustin Schwenk and Oyvind Tafjord and Taira Anderson and David Atkinson and Faeze Brahman and Christopher Clark and Pradeep Dasigi and Nouha Dziri and Michal Guerquin and Hamish Ivison and Pang Wei Koh and Jiacheng Liu and Saumya Malik and William Merrill and Lester James V. Miranda and Jacob Morrison and Tyler Murray and Crystal Nam and Valentina Pyatkin and Aman Rangapur and Michael Schmitz and Sam Skjonsberg and David Wadden and Christopher Wilhelm and Michael Wilson and Luke Zettlemoyer and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi},
year={2024},
eprint={2501.00656},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.00656},
}