O

Olmo 2 0425 1B Instruct GGUF

由unsloth開發
OLMo 2 1B指令版是基於OLMo-2-0425-1B-RLVR1模型的後訓練變體,經過監督微調、DPO訓練和RLVR訓練,旨在實現多種任務的最先進性能。
下載量 3,137
發布時間 : 5/1/2025

模型概述

一個開放語言模型,主要用於英語文本生成任務,經過多階段訓練優化指令跟隨能力。

模型特點

多階段訓練優化
經過監督微調、DPO訓練和RLVR訓練三階段優化,提升指令跟隨能力
開放模型
公開所有代碼、檢查點和訓練細節,促進語言模型科學研究
中間檢查點可用
提供RLVR訓練過程中的中間檢查點,便於RL微調研究

模型能力

文本生成
數學問題解答
指令跟隨
對話交互

使用案例

教育
數學問題解答
解答GSM8K等數學問題
在GSM8K上達到68.3分
研究
RL微調研究
利用中間檢查點進行強化學習研究
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase