O

Olmo 2 0425 1B Instruct GGUF

由 unsloth 开发
OLMo 2 1B指令版是基于OLMo-2-0425-1B-RLVR1模型的后训练变体,经过监督微调、DPO训练和RLVR训练,旨在实现多种任务的最先进性能。
下载量 3,137
发布时间 : 5/1/2025

模型简介

一个开放语言模型,主要用于英语文本生成任务,经过多阶段训练优化指令跟随能力。

模型特点

多阶段训练优化
经过监督微调、DPO训练和RLVR训练三阶段优化,提升指令跟随能力
开放模型
公开所有代码、检查点和训练细节,促进语言模型科学研究
中间检查点可用
提供RLVR训练过程中的中间检查点,便于RL微调研究

模型能力

文本生成
数学问题解答
指令跟随
对话交互

使用案例

教育
数学问题解答
解答GSM8K等数学问题
在GSM8K上达到68.3分
研究
RL微调研究
利用中间检查点进行强化学习研究
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase