Octothinker 3B Hybrid Zero
O

Octothinker 3B Hybrid Zero

由OctoThinker開發
OctoThinker-3B-Hybrid-Zero是基於Llama-3家族構建的強化學習基礎語言模型,採用R1-Zero風格的強化學習技術進行訓練。
下載量 210
發布時間 : 4/23/2025

模型概述

該模型直接從OctoThinker-3B-Hybrid-Base開始,使用強化學習技術進行訓練,適合文本生成任務。

模型特點

強化學習訓練
採用R1-Zero風格的強化學習技術進行訓練,不經過任何監督微調(SFT)。
基於Llama-3家族
以Llama-3家族為基礎構建,繼承了其優秀的語言模型特性。
適合強化學習
專門設計用於強化學習的基礎語言模型,適合進一步的任務優化。

模型能力

文本生成
強化學習基礎模型

使用案例

學術研究
強化學習研究
作為基礎模型用於強化學習算法的研究和開發。
文本生成
通用文本生成
用於生成各種類型的文本內容。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase