O

Olmo 2 0425 1B Instruct GGUF

unslothによって開発
OLMo 2 1B命令版はOLMo-2-0425-1B-RLVR1モデルのポストトレーニングバリアントで、教師ありファインチューニング、DPOトレーニング、RLVRトレーニングを経ており、様々なタスクで最先端の性能を実現することを目的としています。
ダウンロード数 3,137
リリース時間 : 5/1/2025

モデル概要

英語テキスト生成タスクに主に使用されるオープン言語モデルで、多段階のトレーニングにより命令追従能力を最適化しています。

モデル特徴

多段階トレーニング最適化
教師ありファインチューニング、DPOトレーニング、RLVRトレーニングの3段階最適化により、命令追従能力を向上
オープンモデル
すべてのコード、チェックポイント、トレーニング詳細を公開し、言語モデルの科学研究を促進
中間チェックポイント利用可能
RLVRトレーニングプロセスの中間チェックポイントを提供し、RLファインチューニング研究を容易に

モデル能力

テキスト生成
数学問題解答
命令追従
対話インタラクション

使用事例

教育
数学問題解答
GSM8Kなどの数学問題を解答
GSM8Kで68.3点を達成
研究
RLファインチューニング研究
中間チェックポイントを利用した強化学習研究
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase