# 強化學習微調

Unireason Qwen3 14B RL GGUF
Apache-2.0
UniReason-Qwen3-14B-RL的靜態量化版本,適用於文本生成和數學推理研究場景。
大型語言模型 Transformers 英語
U
mradermacher
272
1
Vigorl 7b Spatial
ViGoRL 是一個通過強化學習微調的視覺語言模型,用於將文本推理步驟與視覺座標明確關聯,實現精確的視覺推理和定位。
文本生成圖像 Transformers
V
gsarch
319
1
Deepseek R1 Distill Qwen 14B GRPO Taiwan Spirit
這是一個基於Qwen-14B模型微調的版本,使用GRPO方法進行訓練,適用於文本生成任務。
大型語言模型 Transformers
D
kartd
111
1
Codev R1 Qwen 7B
CodeV-R1-Qwen-7B是基於CodeV-R1框架,在Qwen/Qwen2.5-Coder-7B-Instruct基礎上通過強化學習微調得到的模型,專注於Verilog相關任務,能有效解決電子設計自動化中自動生成硬件描述語言的難題。
大型語言模型 Transformers
C
zhuyaoyu
138
1
Finetuned Tamil Llama 7B Finetuned
基於Transformers庫的監督微調(SFT)模型,用於優化語言模型的性能
大型語言模型 Transformers
F
Jaggu05
73
1
Xgen Small 9B Instruct R
xGen-small是一款企業級緊湊型語言模型,通過領域聚焦的數據整理、可擴展的預訓練、長度擴展和強化學習微調,以可預測的低成本實現長上下文性能表現。
大型語言模型 Transformers 英語
X
Salesforce
97
4
Qwen3 0.6B TLDR Lora
Apache-2.0
Qwen3-0.6B 是一個基於 Transformer 架構的開源語言模型,參數規模為 6 億,適用於文本摘要等自然語言處理任務。
文本生成
Q
phh
56
0
Phi 4 Reasoning Plus GGUF
MIT
Phi-4-reasoning-plus 是微軟開發的增強推理能力的大語言模型,專為複雜數學問題和多步驟推理任務優化。
大型語言模型 支持多種語言
P
lmstudio-community
5,205
4
Openhands Lm 7b V0.1 GGUF
MIT
OpenHands LM是一款基於Qwen Coder 2.5 Instruct 32B構建的開源編碼模型,通過特殊微調在軟件工程任務中表現出色。
大型語言模型 英語
O
Mungert
1,131
2
Qwen 2.5 7B Base RAG RL
Qwen-2.5-7B-base-RAG-RL 是一個基於未知數據集從頭開始訓練的7B參數規模的大語言模型,結合了檢索增強生成(RAG)和強化學習(RL)技術。
大型語言模型 Transformers
Q
XXsongLALA
859
7
Phi 4 Reasoning Plus
MIT
Phi-4-reasoning-plus 是微軟研究院開發的先進開放權重推理模型,基於 Phi-4 通過監督微調和強化學習優化,專注於數學、科學和編碼領域的高級推理能力。
大型語言模型 Transformers 支持多種語言
P
microsoft
19.83k
261
Deepcoder 1.5B Preview AWQ
MIT
DeepCoder-1.5B-Preview是一款基於代碼推理的大型語言模型,通過分佈式強化學習從DeepSeek-R1-Distilled-Qwen-1.5B微調而來,能夠處理更長的上下文長度。
大型語言模型 Transformers 英語
D
adriabama06
72
2
Deephermes ToolCalling Specialist Atropos
由Nous Research使用Atropos強化學習框架微調的實驗性模型,專注於提升Llama-3.1 8B模型在推理模式下的工具調用性能
大型語言模型 Transformers 英語
D
NousResearch
64
4
Ablation 141 A128.dpo.armorm.rp Shisa V2 Llama 3.1 8b
基於DPO方法微調的語言模型,適用於文本生成任務
大型語言模型 Transformers
A
shisa-ai
38
2
Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale
基於Gensyn/Qwen2.5-0.5B-Instruct微調的版本,採用TRL框架和GRPO算法訓練
大型語言模型 Transformers
Q
gangchen
3,053
2
Notbad V1 0 Mistral 24b
Apache-2.0
Notbad v1.0 Mistral 24B 是一款專注於數學和Python編程推理的模型,基於Mistral-Small-24B-Instruct-2501並通過強化學習進一步訓練。
大型語言模型 Transformers
N
notbadai
29
5
EXAONE 3.5 2.4B Fine Tuning
Hugging Face提供的Transformer模型庫,支持多種自然語言處理任務
大型語言模型 Transformers
E
good593
65
2
Qwen2.5 0.5B Instruct
Apache-2.0
專為Gensyn強化學習群設計的0.5B參數指令微調模型,支持本地微調訓練
大型語言模型 Transformers 英語
Q
Gensyn
2.4M
5
Ice0.101 20.03 RP GRPO 1
Apache-2.0
基於Unsloth無惰性優化框架和Huggingface TRL訓練庫優化的薄霧模型,實現2倍速訓練效率
大型語言模型 Transformers 英語
I
icefog72
55
2
Deductive Reasoning Qwen 32B
MIT
基於Qwen 2.5 32B Instruct通過強化微調訓練的模型,專門用於解決Temporal Clue數據集中具有挑戰性的演繹推理問題。
大型語言模型 Transformers 英語
D
OpenPipe
1,669
39
Tifa DeepsexV2 7b MGRPO Safetensors GGUF
Apache-2.0
Tifa-DeepsexV2-7b-MGRPO-safetensors 是一個基於 transformers 庫的多語言(中文和英語)大語言模型,經過增量預訓練、監督微調和強化學習優化,適用於角色扮演和思維鏈任務。
大型語言模型 支持多種語言
T
mradermacher
283
1
Llama 3.1 Tulu 3.1 8B
Tülu 3 是領先的指令跟隨模型家族,提供完全開源的數據、代碼和訓練方案作為現代技術的綜合指南。3.1版本在強化學習階段進行了改進,性能全面提升。
大型語言模型 Transformers 英語
L
allenai
3,643
33
Alignprop Trl Aesthetics
Apache-2.0
基於Stable Diffusion v1.5微調的文本生成圖像模型,採用動物數據集上的美學獎勵函數,通過獎勵反向傳播方法進行訓練。
圖像生成
A
mihirpd
15
1
Ppo Tldr
基於EleutherAI_pythia-1b-deduped模型微調的版本,用於生成簡潔摘要
大型語言模型 Transformers
P
vwxyzjn
15
1
Llama 3 NeuralPaca 8b
基於Meta LLAMA-3-8B構建的優化模型,採用無惰優化技術和Huggingface TRL庫訓練,速度提升2倍
大型語言模型 Transformers 英語
L
NeuralNovel
21
7
Vlrm Blip2 Opt 2.7b
MIT
通過強化學習方法微調的BLIP-2 OPT-2.7B模型,能夠生成長且全面的圖像描述
圖像生成文本 Transformers 英語
V
sashakunitsyn
398
17
Codellama 7b Hf ReFT GSM8k
通過強化微調增強大語言模型的推理泛化能力,基於Codellama微調,適用於代碼生成與理解任務。
大型語言模型 Transformers
C
lqtrung1998
38
1
Blip Image Captioning Base Mocha
MIT
BLIP基礎模型的官方檢查點,採用MOCHA強化學習框架在MS-COCO數據集上微調,用於緩解開放詞彙描述幻覺問題
圖像生成文本 Transformers
B
moranyanuka
88
1
Blip Image Captioning Large Mocha
MIT
這是BLIP-Large模型的官方微調版本,採用MOCHa強化學習框架在MS-COCO數據集上進行微調,旨在緩解開放詞彙描述幻覺問題
圖像生成文本 Transformers
B
moranyanuka
188
10
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase