O

Olmo 2 0425 1B Instruct

由allenai開發
OLMo 2 1B是基於allenai/OLMo-2-0425-1B-RLVR1模型的後訓練變體,經過監督微調、DPO訓練和RLVR訓練,旨在實現多種任務的最先進性能。
下載量 5,127
發布時間 : 4/29/2025

模型概述

OLMo 2 1B是一個開放語言模型,主要用於文本生成任務,支持英語,適用於研究和教育用途。

模型特點

開放語言模型
OLMo系列模型旨在推動語言模型科學研究,公開了所有代碼、檢查點、日誌及相關訓練細節。
多任務性能
在MATH、GSM8K和IFEval等多種任務上表現優異。
RLVR訓練
經過RLVR訓練,提供了中間檢查點以促進RL微調研究。

模型能力

文本生成
多任務處理
指令跟隨

使用案例

教育
數學問題解答
解答數學問題,如GSM8K和MATH數據集中的題目。
在GSM8K上達到68.3分,MATH上達到20.7分。
研究
語言模型研究
用於語言模型的微調和性能研究。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase