OctoThinker-3B-Hybrid-Zeroオープンソース言語モデル - Llama-3に基づく強化学習の効率的な応用

ホーム

Octothinker 3B Hybrid Zero

OctoThinkerによって開発

OctoThinker - 3B - Hybrid - ZeroはLlama - 3ファミリーに基づいて構築された強化学習ベースの言語モデルで、R1 - Zeroスタイルの強化学習技術を用いて訓練されています。

大規模言語モデル

Safetensors

英語#強化学習最適化 #ゼロ監督微調整 #数学的推論強化

ダウンロード数 210

リリース時間 : 4/23/2025

モデル概要

このモデルはOctoThinker - 3B - Hybrid - Baseから直接始まり、強化学習技術を用いて訓練され、テキスト生成タスクに適しています。

モデル特徴

強化学習訓練

R1 - Zeroスタイルの強化学習技術を用いて訓練され、いかなる監督微調整（SFT）も行われません。

Llama - 3ファミリーに基づく

Llama - 3ファミリーを基礎として構築され、その優れた言語モデル特性を引き継いでいます。

強化学習に適している

強化学習用に特別に設計されたベース言語モデルで、さらなるタスク最適化に適しています。

モデル能力

テキスト生成

強化学習ベースモデル

使用事例

学術研究

強化学習研究

強化学習アルゴリズムの研究と開発のためのベースモデルとして使用されます。

テキスト生成

汎用テキスト生成

様々なタイプのテキストコンテンツを生成するために使用されます。

🚀 OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

OctoThinkerは、学習途中の洞察を基にした強化学習に適したベース言語モデルを提供します。このプロジェクトは、強化学習の拡張性を高めるための新しいアプローチを提案しています。

🚀 クイックスタート

OctoThinkerファミリーは、Llama - 3ファミリーをベースに、学習途中の詳細な洞察を元に構築された、強化学習に適したベース言語モデルです。OctoThinker - 3B - Hybrid - Zeroは、OctoThinker - 3B - Hybrid - Baseから始まり、教師あり微調整（SFT）を一切行わずに、R1 - Zeroスタイルの強化学習技術を用いて訓練されています。

✨ 主な機能

OctoThinkerファミリーは、学習途中の洞察を基にした強化学習に適したベース言語モデルを提供します。
OctoThinker - 3B - Hybrid - Zeroは、教師あり微調整を行わずに強化学習技術を用いて訓練されています。

📚 ドキュメント

OctoThinker - 3B - Hybrid - Baseの訓練レシピ

OctoThinker - 3B - Baseシリーズの評価結果

これらのベース言語モデルに対して、few - shotプロンプト評価を採用しています。

OctoThinker - 3B - Zeroシリーズの強化学習訓練ダイナミクス

OctoThinkerに関する詳細

📄 ライセンス

ライセンス: llama3.2

Property	Details
データセット	OctoThinker/MegaMath - Web - Pro - Max, LLM360/MegaMath
ベースモデル	meta - llama/Llama - 3.2 - 3B
パイプラインタグ	text - generation

📄 引用

詳細については、論文をご覧ください。もし当社のモデルやデータセットを使用したり、当社の研究が有用だと感じた場合は、以下のように引用してください。

@article{wang2025octothinker,
  title={OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling},
  author={Wang, Zengzhi and Zhou, Fan and Li, Xuefeng and Liu, Pengfei},
  year={2025},
  journal={arXiv preprint arXiv:2506.20512},
  note={Preprint}
}