オープンソースのOLMo - 2 - 0425 - 1B - Instructモデル - 多様なタスクで高度な性能を実現し、無料で利用可能

ホーム

Olmo 2 0425 1B Instruct

allenaiによって開発

OLMo 2 1Bはallenai/OLMo-2-0425-1B-RLVR1モデルの後訓練バリアントで、教師あり微調整、DPOトレーニング、RLVRトレーニングを経ており、様々なタスクで最先端の性能を実現することを目的としています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #命令微調整 #数学的推論 #マルチタスク最適化

ダウンロード数 5,127

リリース時間 : 4/29/2025

モデル概要

OLMo 2 1Bはオープン言語モデルで、主にテキスト生成タスクに使用され、英語をサポートし、研究および教育用途に適しています。

モデル特徴

オープン言語モデル

OLMoシリーズのモデルは言語モデルの科学研究を推進することを目的としており、すべてのコード、チェックポイント、ログ、および関連するトレーニング詳細を公開しています。

マルチタスク性能

MATH、GSM8K、IFEvalなどの様々なタスクで優れたパフォーマンスを発揮します。

RLVRトレーニング

RLVRトレーニングを経ており、RL微調整研究を促進するための中間チェックポイントを提供しています。

モデル能力

テキスト生成

マルチタスク処理

命令追従

使用事例

教育

数学問題解答

GSM8KやMATHデータセットの問題など、数学の問題を解答します。

GSM8Kで68.3点、MATHで20.7点を達成。

研究

言語モデル研究

言語モデルの微調整や性能研究に使用されます。

🚀 OLMo 2 1B Instruct April 2025

OLMo 2 1B Instruct April 2025は、言語モデルの科学を可能にするために設計されたオープン言語モデルです。このモデルは、公開されているデータセット、合成データセット、および人間が作成したデータセットの混合データで訓練されています。また、T端lu 3データセットを用いた微調整や、RLVR-MATHデータセットを用いた学習が行われており、多様なタスクでの高性能を実現しています。

🚀 クイックスタート

OLMo 2 1B Instruct April 2025は、transformers v4.48以上でサポートされています。以下のコマンドでインストールできます。

pip install transformers>=4.48

✨ 主な機能

公開されているデータセット、合成データセット、および人間が作成したデータセットの混合データで訓練されたモデル。
T端lu 3データセットを用いた微調整や、RLVR-MATHデータセットを用いた学習が行われており、多様なタスクでの高性能を実現。
チャット以外のタスク、例えばMATH、GSM8K、IFEvalなどでも優れた性能を発揮。

📦 インストール

OLMo 2 1Bは、transformers v4.48以上でサポートされています。以下のコマンドでインストールできます。

pip install transformers>=4.48

💻 使用例

基本的な使用法

HuggingFaceを使用してモデルをロードするには、以下のコードを使用します。

from transformers import AutoModelForCausalLM

olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")

高度な使用法

中間チェックポイントを使用してモデルをロードするには、以下のコードを使用します。

olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct", revision="step_200")

📚 ドキュメント

モデルの説明

属性	详情
モデルタイプ	公開されているデータセット、合成データセット、および人間が作成したデータセットの混合データで訓練されたモデル。
言語	主に英語
ライセンス	Apache 2.0
微調整元のモデル	allenai/OLMo-2-0425-1B-RLVR1

モデルのソース

プロジェクトページ: https://allenai.org/olmo
リポジトリ:
- コアリポジトリ (訓練、推論、微調整など): https://github.com/allenai/OLMo-core
- 評価コード: https://github.com/allenai/olmes
- さらなる微調整コード: https://github.com/allenai/open-instruct
論文: https://arxiv.org/abs/2501.00656
デモ: https://playground.allenai.org/

チャットテンプレート

注意: これは、設定のわずかな変更により、以前のOLMo 2およびT端lu 3モデルとは異なります。残りの前にbosトークンはありません。他のモデルは、チャットテンプレートの先頭に<|endoftext|>があります。

モデルのチャットテンプレートは、以下のようにフォーマットされています。

<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>

バイアス、リスク、および制限

OLMo-2モデルは、安全面での訓練が限られており、ChatGPTのように応答のループ内フィルタリングが自動的に行われないため、問題のある出力を生成する可能性があります（特にそのように促された場合）。

性能

モデル	平均	AlpacaEval 2 LC	BBH	DROP	GSM8K	IFEval	MATH	MMLU	セキュリティ	PopQA	TruthQA
OLMo 1B 0724	24.4	2.4	29.9	27.9	10.8	25.3	2.2	36.6	52.0	12.1	44.3
SmolLM2 1.7B	34.2	5.8	39.8	30.9	45.3	51.6	20.3	34.3	52.4	16.4	45.3
Gemma 3 1B	38.3	20.4	39.4	25.1	35.0	60.6	40.3	38.9	70.2	9.6	43.8
Llama 3.1 1B	39.3	10.1	40.2	32.2	45.4	54.0	21.6	46.7	87.2	13.8	41.5
Qwen 2.5 1.5B	41.7	7.4	45.8	13.4	66.2	44.2	40.6	59.7	77.6	15.5	46.5
---
OLMo 2 1B SFT	36.9	2.4	32.8	33.8	52.1	50.5	13.2	36.4	93.2	12.7	42.1
OLMo 2 1B DPO	40.6	9.5	33.0	34.5	59.0	67.1	14.1	39.9	89.9	12.3	46.4
OLMo 2 1B	42.7	9.1	35.0	34.6	68.3	70.1	20.7	40.0	87.6	12.9	48.7

📄 ライセンス

OLMo 2は、Apache 2.0ライセンスの下で公開されています。このモデルは、研究および教育目的で使用することを意図しています。詳細については、責任ある使用ガイドラインを参照してください。

引用

@article{olmo20242olmo2furious,
      title={2 OLMo 2 Furious}, 
      author={Team OLMo and Pete Walsh and Luca Soldaini and Dirk Groeneveld and Kyle Lo and Shane Arora and Akshita Bhagia and Yuling Gu and Shengyi Huang and Matt Jordan and Nathan Lambert and Dustin Schwenk and Oyvind Tafjord and Taira Anderson and David Atkinson and Faeze Brahman and Christopher Clark and Pradeep Dasigi and Nouha Dziri and Michal Guerquin and Hamish Ivison and Pang Wei Koh and Jiacheng Liu and Saumya Malik and William Merrill and Lester James V. Miranda and Jacob Morrison and Tyler Murray and Crystal Nam and Valentina Pyatkin and Aman Rangapur and Michael Schmitz and Sam Skjonsberg and David Wadden and Christopher Wilhelm and Michael Wilson and Luke Zettlemoyer and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi},
      year={2024},
      eprint={2501.00656},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.00656}, 
}