# 強化学習の微調整

Unireason Qwen3 14B RL GGUF
Apache-2.0
UniReason-Qwen3-14B-RLの静的量子化バージョンで、テキスト生成と数学推理の研究シーンに適しています。
大規模言語モデル Transformers 英語
U
mradermacher
272
1
Deephermes ToolCalling Specialist Atropos
Nous ResearchがAtropos強化学習フレームワークで微調整した実験的モデルで、Llama-3.1 8Bモデルの推論モードにおけるツール呼び出し性能の向上に焦点を当てています
大規模言語モデル Transformers 英語
D
NousResearch
64
4
Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale
Gensyn/Qwen2.5-0.5B-Instructを微調整したバージョンで、TRLフレームワークとGRPOアルゴリズムを使用してトレーニング
大規模言語モデル Transformers
Q
gangchen
3,053
2
EXAONE 3.5 2.4B Fine Tuning
Hugging Faceが提供するTransformerモデルライブラリ、多様な自然言語処理タスクをサポート
大規模言語モデル Transformers
E
good593
65
2
Qwen2.5 0.5B Instruct
Apache-2.0
Gensyn強化学習群専用に設計された0.5Bパラメータの命令微調整モデルで、ローカルでの微調整トレーニングをサポート
大規模言語モデル Transformers 英語
Q
Gensyn
2.4M
5
Tifa DeepsexV2 7b MGRPO Safetensors GGUF
Apache-2.0
Tifa-DeepsexV2-7b-MGRPO-safetensors は、transformersライブラリを基にした多言語(中国語と英語)対応の大規模言語モデルで、増分事前学習、教師あり微調整、強化学習最適化を経ており、ロールプレイングや思考連鎖タスクに適しています。
大規模言語モデル 複数言語対応
T
mradermacher
283
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase