GRPO強化學習

# GRPO強化學習

Reasongen R1 SFT

ReasonGen-R1是一個通過監督微調（SFT）在圖像提示和推理依據數據集上訓練的文本到圖像模型，具備基於文本的顯式'思考'能力。

文本生成圖像

Gazal R1 32B GRPO Preview

Gazal-R1-32B 是一款專為醫學推理和臨床決策打造的語言模型，基於 Qwen 3 32B 構建，在專業醫學領域展現出卓越性能。

大型語言模型

DNA-R1是基於微軟Phi-4優化的韓語專用推理模型，通過強化學習顯著提升了韓語推理能力，在數學、編程和通用推理任務中表現出色。

大型語言模型

Transformers 支持多種語言

Seg Zero 7B Best On ReasonSegTest

Seg-Zero-7B是一個基於推理鏈引導的圖像分割模型，採用解耦架構，包含推理模型和分割模型，通過GRPO強化學習訓練實現零樣本泛化能力。

Transformers 英語

Qwen2.5 0.5B Instruct Gensyn Swarm Peaceful Exotic Butterfly

基於Gensyn/Qwen2.5-0.5B-Instruct的微調版本，採用TRL框架和GRPO算法訓練，適用於指令跟隨任務。

大型語言模型

MMR1 Math V0 7B

專注於數學任務的大型多模態模型，在開源7B多模態模型中實現最先進的性能

文本生成圖像

Transformers 英語

Seg-Zero-7B是一種基於認知強化的零樣本圖像分割模型，採用解耦架構實現推理鏈引導的分割。

Transformers 英語

Captain Eris Violet GRPO V0.420

Captain-Eris_Violet是一個通過多階段監督微調、QLoRA適配器和GRPO優化的RLHF開發的先進語言模型，適用於角色扮演和對話生成。

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase