# 强化学习优化

Polaris 4B Preview F32 GGUF
Apache-2.0
Polaris是一种开源的后训练方法,利用强化学习优化和增强模型,提升推理能力。
大型语言模型 Transformers 英语
P
prithivMLmods
765
1
Longwriter Zero 32B I1 GGUF
Apache-2.0
LongWriter-Zero-32B 量化模型基于 THU-KEG/LongWriter-Zero-32B 基础模型,支持中英双语,适用于强化学习、写作等长上下文场景。
大型语言模型 Transformers 支持多种语言
L
mradermacher
135
1
Longwriter Zero 32B GGUF
Apache-2.0
LongWriter-Zero-32B量化模型是基于原始模型进行静态量化处理的多语言模型,适用于强化学习、写作等长上下文场景。
大型语言模型 Transformers 支持多种语言
L
mradermacher
204
1
Acereason Nemotron 1.1 7B GGUF
其他
英伟达推出的高性能7B参数语言模型,专注于数学和代码推理任务,支持128k上下文长度。
大型语言模型 支持多种语言
A
lmstudio-community
278
1
Kimi Dev 72B
MIT
Kimi-Dev-72B 是一款用于软件工程任务的开源编码大语言模型,在 SWE-bench Verified 上取得了开源模型中的最优成绩。
大型语言模型 Transformers 其他
K
moonshotai
324
162
Contentv 8B
Apache-2.0
ContentV是一个高效的视频生成模型框架,通过极简架构、多阶段训练策略和经济高效的强化学习框架,在有限计算资源下实现高质量视频生成。
视频处理
C
ByteDance
417
25
Mmada 8B MixCoT
MIT
MMaDA是一类新型的多模态扩散基础模型,在文本推理、多模态理解和文本到图像生成等多个领域表现卓越。
文本生成图像 Transformers
M
Gen-Verse
601
3
Reasongen R1
Apache-2.0
ReasonGen-R1是一个融合思维链推理的自回归图像生成模型,通过SFT和RL提升图像生成的逻辑性和质量。
文本生成图像 Transformers
R
Franklin0
142
1
Qwenlong L1 32B
Apache-2.0
QwenLong-L1是基于强化学习训练的长上下文大推理模型,在七个长上下文文档问答基准测试中表现优异。
大型语言模型 Transformers
Q
Tongyi-Zhiwen
683
106
Thinkless 1.5B Warmup
Apache-2.0
无思框架(Thinkless)是一种可学习框架,使大模型能根据任务复杂度和自身能力,自适应选择简短推理或长链推理。
大型语言模型 Transformers
T
Vinnnf
966
1
Qwen2.5 VL 3B UI R1 E
MIT
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
图像生成文本 英语
Q
LZXzju
75
3
Verireason Codellama 7b RTLCoder Verilog GRPO Reasoning Tb
VeriReason是一种结合强化学习与测试平台反馈的Verilog RTL代码生成方法,显著提升了预训练模型在硬件设计领域的性能。
大型语言模型 Transformers
V
Nellyw888
1,483
1
INTELLECT 2 GGUF
Apache-2.0
INTELLECT 2是由PrimeIntellect推出的大语言模型,支持40960 tokens的上下文长度,采用QwQ架构和GRPO强化学习框架训练。
大型语言模型
I
lmstudio-community
467
5
Llama 3.1 Nemotron Nano 8B V1 GGUF
其他
Llama-3.1-Nemotron-Nano-8B-v1是基于Meta Llama-3.1-8B-Instruct的推理模型,经过后训练增强推理能力、人类聊天偏好及任务执行能力。
大型语言模型 Transformers 英语
L
unsloth
22.18k
3
INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf
Apache-2.0
基于Qwen2.5-VL-72B-Instruct改进的多模态视觉语言模型,在多个视觉推理基准测试中表现优异
文本生成图像 英语
I
GeorgyGUF
64
0
INFRL Qwen2.5 VL 72B Preview Bf16.gguf
Apache-2.0
基于Qwen2.5-VL-72B-Instruct优化的视觉语言模型,在多个视觉推理基准测试中表现优异
文本生成图像 英语
I
GeorgyGUF
40
0
Llama 3.1 8B Instruct
Meta Llama 3.1系列多语言大型语言模型,包含8B参数规模,针对多语言对话用例优化,支持8种语言。
大型语言模型 Safetensors 支持多种语言
L
RedHatAI
292
1
Kevin 32B GGUF
Kevin 32B是由Cognition AI开发的大语言模型,支持超长上下文(40960 tokens),专注于CUDA内核生成和强化学习任务。
大型语言模型
K
lmstudio-community
297
4
RM R1 DeepSeek Distilled Qwen 14B
MIT
RM-R1是一个用于推理奖励模型(ReasRM)的训练框架,通过生成评分标准或推理轨迹来评判候选答案,提供可解释的评判。
大型语言模型 Transformers 英语
R
gaotang
95
1
II Medical 7B Preview
基于Qwen/Qwen2.5-7B-Instruct微调的医疗推理模型,在多个医疗QA基准测试上表现优异
大型语言模型 Transformers
I
Intelligent-Internet
112
9
Deephermes Financial Fundamentals Prediction Specialist Atropos
这是一个实验性金融分析模型,通过Atropos强化学习框架优化金融基本面预测能力
大型语言模型 Transformers 英语
D
NousResearch
52
5
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型,基于Qwen2.5-VL-7B-Instruct架构,增加了用于训练奖励模型的价值头结构。
多模态融合 Transformers
S
Skywork
30
8
Deepcoder 1.5B Preview GGUF
MIT
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习技术扩展长上下文处理能力
大型语言模型 英语
D
Mungert
888
2
Tinyv 1.5B
Apache-2.0
基于Qwen/Qwen2.5-1.5B-Instruct模型进行微调,使用了TinyV奖励系统,能在高效强化学习(RL)后训练中提供更准确的奖励信号,显著提升RL效率和最终模型性能。
大型语言模型 Transformers
T
zhangchenxu
1,124
1
Tinyllava Video R1
Apache-2.0
TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型,通过强化学习显著提升了推理与思维能力,并展现出'顿悟时刻'的涌现特性。
视频生成文本 Transformers
T
Zhang199
123
2
Deepcoder 14B Preview Exl2
DeepCoder-14B-Preview是基于DeepSeek-R1-Distill-Qwen-14B开发的代码生成模型,专注于可验证编程问题的解决。
大型语言模型 英语
D
cgus
46
2
Deepcoder 1.5B Preview Exl2 4.65bpw
MIT
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型,采用分布式强化学习技术扩展长上下文处理能力
大型语言模型 Transformers 英语
D
async0x42
14
3
Unt 8b
Apache-2.0
骆驼模型是一个基于变换器架构的文本生成模型,支持阿塞拜疆语,采用强化学习进行训练。
大型语言模型 Transformers 其他
U
omar07ibrahim
33
2
Quasar 3.0 Final
Quasar-3.0-Max是SILX INC提供的7B参数蒸馏模型,展示了Quasar架构的早期潜力,采用创新的TTM训练流程和强化学习技术。
大型语言模型 Transformers
Q
silx-ai
118
4
Quasar 3.0 Instract V2
Quasar-3.0-7B是即将发布的400B Quasar 3.0模型的蒸馏版本,展示了Quasar架构的早期实力和潜力。
大型语言模型 Transformers
Q
silx-ai
314
8
VARGPT V1.1
Apache-2.0
VARGPT-v1.1是一个视觉自回归统一大模型,通过迭代指令调优与强化学习提升,能够同时实现视觉理解和生成任务。
文本生成图像 Transformers 英语
V
VARGPT-family
954
6
VARGPT V1.1 Edit
Apache-2.0
VARGPT-v1.1是一个通过迭代指令调优与强化学习提升的视觉自回归统一大模型,支持视觉理解和生成任务。
文本生成图像 Transformers 英语
V
VARGPT-family
169
1
Community Request 01 12B
基于多个Captain-Eris系列模型通过mergekit工具合并的预训练语言模型
大型语言模型 Transformers
C
Nitral-AI
19
3
Qwen2.5 VL 3B UI R1
MIT
UI-R1是通过强化学习增强GUI代理动作预测的视觉语言模型,基于Qwen2.5-VL-3B-Instruct构建。
文本生成图像 英语
Q
LZXzju
96
6
R1 Aqa
Apache-2.0
R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型,通过群体相对策略优化(GRPO)算法进行强化学习优化,在MMAU基准测试中取得最先进性能。
音频生成文本 Transformers
R
mispeech
791
14
Light R1 14B DS
Apache-2.0
Light-R1-14B-DS是一个14B参数的数学SOTA模型,采用强化学习训练,在AIME24/25和GPQA基准测试中表现优异。
大型语言模型 Transformers
L
qihoo360
2,890
33
Visualthinker R1 Zero
MIT
首个在仅一个非监督微调的2B模型上复现'顿悟时刻'和响应长度增加的多模态推理模型
图像生成文本 英语
V
turningpoint-ai
578
6
DPO A5 Nlp
TRL 是一个基于 Transformer 架构的强化学习库,用于训练和微调语言模型。
大型语言模型 Transformers
D
EraCoding
26
1
Qwen2.5vl 3B VLM R1 REC 500steps
基于Qwen2.5-VL-3B-Instruct的视觉语言模型,通过VLM-R1强化学习增强,专注于指代表达式理解任务。
文本生成图像 Safetensors 英语
Q
omlab
976
22
Text2graph R1 Qwen2.5 0.5b
Apache-2.0
基于Qwen-2.5-0.5B模型,通过强化学习(GRPO)和监督学习联合训练而成的文本转图谱信息抽取模型。
知识图谱 Safetensors 英语
T
Ihor
199
20
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase