# 強化学習微調整

Vigorl 7b Spatial
ViGoRLは、強化学習によって微調整された視覚言語モデルで、テキストの推論ステップを視覚座標と明確に関連付け、正確な視覚推論と定位を実現します。
テキスト生成画像 Transformers
V
gsarch
319
1
Deepseek R1 Distill Qwen 14B GRPO Taiwan Spirit
これはQwen-14Bモデルをベースに微調整されたバージョンで、GRPO方法を用いて訓練され、テキスト生成タスクに適しています。
大規模言語モデル Transformers
D
kartd
111
1
Codev R1 Qwen 7B
CodeV - R1 - Qwen - 7BはCodeV - R1フレームワークに基づき、Qwen/Qwen2.5 - Coder - 7B - Instructを基に強化学習微調整を行って得られたモデルで、Verilog関連のタスクに特化しており、電子設計自動化におけるハードウェア記述言語の自動生成の難題を効果的に解決できます。
大規模言語モデル Transformers
C
zhuyaoyu
138
1
Deductive Reasoning Qwen 32B
MIT
Qwen 2.5 32B Instructを基に強化学習微調整で訓練されたモデルで、Temporal Clueデータセットの挑戦的な演繹推論問題を解決するために特別に設計されています。
大規模言語モデル Transformers 英語
D
OpenPipe
1,669
39
Codellama 7b Hf ReFT GSM8k
強化学習による微調整で大規模言語モデルの推論汎化能力を強化、Codellamaをベースに微調整され、コード生成と理解タスクに適しています。
大規模言語モデル Transformers
C
lqtrung1998
38
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase