# GRPO強化學習

Reasongen R1 SFT
Apache-2.0
ReasonGen-R1是一個通過監督微調(SFT)在圖像提示和推理依據數據集上訓練的文本到圖像模型,具備基於文本的顯式'思考'能力。
文本生成圖像 Transformers
R
Franklin0
312
1
Gazal R1 32B GRPO Preview
Apache-2.0
Gazal-R1-32B 是一款專為醫學推理和臨床決策打造的語言模型,基於 Qwen 3 32B 構建,在專業醫學領域展現出卓越性能。
大型語言模型 Transformers
G
TachyHealth
116
1
DNA R1
DNA-R1是基於微軟Phi-4優化的韓語專用推理模型,通過強化學習顯著提升了韓語推理能力,在數學、編程和通用推理任務中表現出色。
大型語言模型 Transformers 支持多種語言
D
dnotitia
1,943
35
Seg Zero 7B Best On ReasonSegTest
其他
Seg-Zero-7B是一個基於推理鏈引導的圖像分割模型,採用解耦架構,包含推理模型和分割模型,通過GRPO強化學習訓練實現零樣本泛化能力。
圖像分割 Transformers 英語
S
Ricky06662
724
0
Qwen2.5 0.5B Instruct Gensyn Swarm Peaceful Exotic Butterfly
基於Gensyn/Qwen2.5-0.5B-Instruct的微調版本,採用TRL框架和GRPO算法訓練,適用於指令跟隨任務。
大型語言模型 Transformers
Q
juliannode
16
2
MMR1 Math V0 7B
Apache-2.0
專注於數學任務的大型多模態模型,在開源7B多模態模型中實現最先進的性能
文本生成圖像 Transformers 英語
M
MMR1
75
5
Seg Zero 7B
其他
Seg-Zero-7B是一種基於認知強化的零樣本圖像分割模型,採用解耦架構實現推理鏈引導的分割。
圖像分割 Transformers 英語
S
Ricky06662
3,112
0
Captain Eris Violet GRPO V0.420
其他
Captain-Eris_Violet是一個通過多階段監督微調、QLoRA適配器和GRPO優化的RLHF開發的先進語言模型,適用於角色扮演和對話生成。
大型語言模型 Transformers 英語
C
Nitral-AI
1,355
21
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase