Octothinker 3B Hybrid Zero
O

Octothinker 3B Hybrid Zero

OctoThinkerによって開発
OctoThinker - 3B - Hybrid - ZeroはLlama - 3ファミリーに基づいて構築された強化学習ベースの言語モデルで、R1 - Zeroスタイルの強化学習技術を用いて訓練されています。
ダウンロード数 210
リリース時間 : 4/23/2025

モデル概要

このモデルはOctoThinker - 3B - Hybrid - Baseから直接始まり、強化学習技術を用いて訓練され、テキスト生成タスクに適しています。

モデル特徴

強化学習訓練
R1 - Zeroスタイルの強化学習技術を用いて訓練され、いかなる監督微調整(SFT)も行われません。
Llama - 3ファミリーに基づく
Llama - 3ファミリーを基礎として構築され、その優れた言語モデル特性を引き継いでいます。
強化学習に適している
強化学習用に特別に設計されたベース言語モデルで、さらなるタスク最適化に適しています。

モデル能力

テキスト生成
強化学習ベースモデル

使用事例

学術研究
強化学習研究
強化学習アルゴリズムの研究と開発のためのベースモデルとして使用されます。
テキスト生成
汎用テキスト生成
様々なタイプのテキストコンテンツを生成するために使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase