T

Tinyv 1.5B

由zhangchenxu開發
基於Qwen/Qwen2.5-1.5B-Instruct模型進行微調,使用了TinyV獎勵系統,能在高效強化學習(RL)後訓練中提供更準確的獎勵信號,顯著提升RL效率和最終模型性能。
下載量 1,124
發布時間 : 4/13/2025

模型概述

該模型是一個經過微調的大語言模型,專注於通過TinyV獎勵系統提升強化學習訓練效率和模型性能。

模型特點

TinyV獎勵系統
通過小型大語言模型提供更準確的獎勵信號,顯著提高強化學習效率和模型性能。
高效強化學習
僅產生6%的額外計算成本,同時顯著提升訓練效率和最終模型性能。
假陰性檢測
能夠檢測當前基於規則的驗證器中的假陰性情況,提供更準確的訓練反饋。

模型能力

文本生成
強化學習優化
獎勵信號提供

使用案例

強化學習訓練
高效RL訓練
使用TinyV獎勵系統進行強化學習訓練,提升訓練效率和模型性能。
顯著提高RL效率和最終模型性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase