Q

Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale

由gangchen開發
基於Gensyn/Qwen2.5-0.5B-Instruct微調的版本,採用TRL框架和GRPO算法訓練
下載量 3,053
發布時間 : 4/2/2025

模型概述

一個經過強化學習群體訓練的指令微調語言模型,專注於文本生成任務

模型特點

GRPO算法訓練
採用源自DeepSeekMath論文的GRPO方法進行訓練
TRL框架
使用Hugging Face的Transformer強化學習框架進行訓練
強化學習群體
通過群體訓練方式優化模型性能

模型能力

文本生成
指令理解
對話生成

使用案例

創意寫作
時光機選擇場景
生成關於時間旅行選擇的創意回答
可產生富有想象力的文本輸出
對話系統
開放域對話
用於構建開放域對話系統
能夠理解指令並生成連貫回覆
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase