Qwen2.5-0.5B-Instruct-Gensyn-Swarm無料オープンソースモデル - 簡単に命令追従タスクを完了できる

Home

Qwen2.5 0.5B Instruct Gensyn Swarm Peaceful Exotic Butterfly

Developed by juliannode

Gensyn/Qwen2.5-0.5B-Instructをベースにしたファインチューニング版で、TRLフレームワークとGRPOアルゴリズムでトレーニングされ、指示追従タスクに適しています。

大規模言語モデル

Transformers

#GRPO強化学習 #マルチターン指示ファインチューニング #小パラメータ効率的推論

Downloads 16

Release Time : 4/2/2025

Model Overview

これは指示理解と生成タスクに特化したファインチューニングされた言語モデルで、強化学習を用いた集団トレーニング手法を採用しています。

Model Features

GRPOアルゴリズムトレーニング

DeepSeekMath論文で提案されたGRPOメソッドを使用してモデル性能を最適化

TRLフレームワーク

Transformerベースの強化学習フレームワークを使用してトレーニング

指示ファインチューニング

指示理解と生成タスク向けに特別に最適化

Model Capabilities

テキスト生成

指示理解

対話生成

Use Cases

対話システム

仮定質問回答

タイムマシン選択問題などのユーザーの仮定質問に回答

論理的で合理的な回答を生成可能

教育応用

思考啓発

学生の思考を広げ、オープンエンドな質問に回答

多様な視点と思考角度を提供

🚀 Qwen2.5-0.5B-Instruct-Gensyn-Swarm-peaceful_exotic_butterfly

このモデルは、自然言語処理の分野において、特定のタスクに対して微調整されたバージョンのモデルです。元のモデルを基に、TRLを用いて訓練され、特定の性能向上が図られています。

🚀 クイックスタート

from transformers import pipeline

question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
generator = pipeline("text-generation", model="juliannode/Qwen2.5-0.5B-Instruct-Gensyn-Swarm-peaceful_exotic_butterfly", device="cuda")
output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
print(output["generated_text"])

📚 ドキュメント

モデル情報

属性	详情
ベースモデル	Gensyn/Qwen2.5-0.5B-Instruct
ライブラリ名	transformers
モデル名	Qwen2.5-0.5B-Instruct-Gensyn-Swarm-peaceful_exotic_butterfly
タグ	generated_from_trainer, rl-swarm, grpo, gensyn, I am peaceful exotic butterfly, trl
ライセンス	license

訓練手順

このモデルは、DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Modelsで紹介されたGRPOという手法を用いて訓練されています。

フレームワークバージョン

TRL: 0.15.2
Transformers: 4.51.3
Pytorch: 2.5.1
Datasets: 3.5.0
Tokenizers: 0.21.1

📄 ライセンス

このモデルは、指定されたライセンスの下で提供されています。詳細はlicenseを参照してください。

📚 引用

GRPOを引用する場合は、以下のようにしてください。

@article{zhihong2024deepseekmath,
    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
    year         = 2024,
    eprint       = {arXiv:2402.03300},
}

TRLを引用する場合は、以下のようにしてください。

@misc{vonwerra2022trl,
	title        = {{TRL: Transformer Reinforcement Learning}},
	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
	year         = 2020,
	journal      = {GitHub repository},
	publisher    = {GitHub},
	howpublished = {\url{https://github.com/huggingface/trl}}
}