O

Openr1 Distill 7B

open-r1によって開発
OpenR1-Distill-7BはQwen2.5-Math-7BをMixture-of-Thoughtsデータセットでファインチューニングしたバージョンで、言語モデルに段階的な推論を教えることを目的としています。
ダウンロード数 134
リリース時間 : 5/22/2025

モデル概要

このモデルはDeepSeek-R1-Distill-Qwen-7Bの推論能力を再現しつつ、完全なオープン性と再現性を保ち、推論時の計算と検証可能な報酬の強化学習(RLVR)の研究に適しています。

モデル特徴

段階的推論能力
Mixture-of-Thoughtsデータセットによる訓練で、モデルは複雑な段階的推論が可能です。
オープンな再現性
完全にオープンなデータセットと訓練方法により、結果の再現性が保証されます。
長文脈サポート
RoPE基本周波数を300kに拡張し、32k文脈の訓練をサポートします。

モデル能力

数学的問題解答
プログラミングタスク解決
科学的問題推論
多段階推論生成
長文理解

使用事例

教育
数学的問題解答
学生が複雑な数学的問題を理解し解決するのを支援します。
MATH-500ベンチマークで89.0%の精度を達成。
研究
推論時計算研究
推論時の計算と検証可能な報酬の強化学習(RLVR)研究に使用されます。
プログラミング
コード生成と理解
開発者が複雑なコードを生成・理解するのを支援します。
LiveCodeBench v5で39.4%の精度を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase