Octothinker 3B Hybrid Zero

O

Octothinker 3B Hybrid Zero

由 OctoThinker 开发

OctoThinker-3B-Hybrid-Zero是基于Llama-3家族构建的强化学习基础语言模型，采用R1-Zero风格的强化学习技术进行训练。

大型语言模型

英语#强化学习优化 #零监督微调 #数学推理增强

下载量 210

发布时间 : 4/23/2025

模型简介

该模型直接从OctoThinker-3B-Hybrid-Base开始，使用强化学习技术进行训练，适合文本生成任务。

模型特点

强化学习训练

采用R1-Zero风格的强化学习技术进行训练，不经过任何监督微调（SFT）。

基于Llama-3家族

以Llama-3家族为基础构建，继承了其优秀的语言模型特性。

适合强化学习

专门设计用于强化学习的基础语言模型，适合进一步的任务优化。

模型能力

文本生成

强化学习基础模型

使用案例

学术研究

强化学习研究

作为基础模型用于强化学习算法的研究和开发。

文本生成

通用文本生成

用于生成各种类型的文本内容。

精选推荐AI模型

Qwen2.5 VL 7B Abliterated Caption It I1 GGUF

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

图像生成文本

Transformers 支持多种语言

Nunchaku Flux.1 Dev Colossus

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

Qwen2.5 VL 7B Abliterated Caption It GGUF

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

图像生成文本

Transformers 支持多种语言

Olmocr 7B 0725 FP8

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

图像生成文本

Transformers 英语

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

大型语言模型

Transformers 英语

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase