Q

Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale

Developed by gangchen
基於Gensyn/Qwen2.5-0.5B-Instruct微調的版本,採用TRL框架和GRPO算法訓練
Downloads 3,053
Release Time : 4/2/2025

Model Overview

一個經過強化學習群體訓練的指令微調語言模型,專注於文本生成任務

Model Features

GRPO算法訓練
採用源自DeepSeekMath論文的GRPO方法進行訓練
TRL框架
使用Hugging Face的Transformer強化學習框架進行訓練
強化學習群體
通過群體訓練方式優化模型性能

Model Capabilities

文本生成
指令理解
對話生成

Use Cases

創意寫作
時光機選擇場景
生成關於時間旅行選擇的創意回答
可產生富有想象力的文本輸出
對話系統
開放域對話
用於構建開放域對話系統
能夠理解指令並生成連貫回覆
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase