T

Tinyv 1.5B

由 zhangchenxu 开发
基于Qwen/Qwen2.5-1.5B-Instruct模型进行微调,使用了TinyV奖励系统,能在高效强化学习(RL)后训练中提供更准确的奖励信号,显著提升RL效率和最终模型性能。
下载量 1,124
发布时间 : 4/13/2025

模型简介

该模型是一个经过微调的大语言模型,专注于通过TinyV奖励系统提升强化学习训练效率和模型性能。

模型特点

TinyV奖励系统
通过小型大语言模型提供更准确的奖励信号,显著提高强化学习效率和模型性能。
高效强化学习
仅产生6%的额外计算成本,同时显著提升训练效率和最终模型性能。
假阴性检测
能够检测当前基于规则的验证器中的假阴性情况,提供更准确的训练反馈。

模型能力

文本生成
强化学习优化
奖励信号提供

使用案例

强化学习训练
高效RL训练
使用TinyV奖励系统进行强化学习训练,提升训练效率和模型性能。
显著提高RL效率和最终模型性能
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase