强化学习优化

# 强化学习优化

Polaris 4B Preview F32 GGUF

Polaris是一种开源的后训练方法，利用强化学习优化和增强模型，提升推理能力。

大型语言模型

Transformers 英语

Longwriter Zero 32B I1 GGUF

LongWriter-Zero-32B 量化模型基于 THU-KEG/LongWriter-Zero-32B 基础模型，支持中英双语，适用于强化学习、写作等长上下文场景。

大型语言模型

Transformers 支持多种语言

Longwriter Zero 32B GGUF

LongWriter-Zero-32B量化模型是基于原始模型进行静态量化处理的多语言模型，适用于强化学习、写作等长上下文场景。

大型语言模型

Transformers 支持多种语言

Acereason Nemotron 1.1 7B GGUF

英伟达推出的高性能7B参数语言模型，专注于数学和代码推理任务，支持128k上下文长度。

大型语言模型支持多种语言

lmstudio-community

Kimi-Dev-72B 是一款用于软件工程任务的开源编码大语言模型，在 SWE-bench Verified 上取得了开源模型中的最优成绩。

大型语言模型

Transformers 其他

ContentV是一个高效的视频生成模型框架，通过极简架构、多阶段训练策略和经济高效的强化学习框架，在有限计算资源下实现高质量视频生成。

Mmada 8B MixCoT

MMaDA是一类新型的多模态扩散基础模型，在文本推理、多模态理解和文本到图像生成等多个领域表现卓越。

文本生成图像

ReasonGen-R1是一个融合思维链推理的自回归图像生成模型，通过SFT和RL提升图像生成的逻辑性和质量。

文本生成图像

Qwenlong L1 32B

QwenLong-L1是基于强化学习训练的长上下文大推理模型，在七个长上下文文档问答基准测试中表现优异。

大型语言模型

Thinkless 1.5B Warmup

无思框架（Thinkless）是一种可学习框架，使大模型能根据任务复杂度和自身能力，自适应选择简短推理或长链推理。

大型语言模型

Qwen2.5 VL 3B UI R1 E

UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型，专注于视觉问答任务，特别擅长在用户界面截图中定位和识别操作元素。

图像生成文本英语

Verireason Codellama 7b RTLCoder Verilog GRPO Reasoning Tb

VeriReason是一种结合强化学习与测试平台反馈的Verilog RTL代码生成方法，显著提升了预训练模型在硬件设计领域的性能。

大型语言模型

INTELLECT 2 GGUF

INTELLECT 2是由PrimeIntellect推出的大语言模型，支持40960 tokens的上下文长度，采用QwQ架构和GRPO强化学习框架训练。

大型语言模型

lmstudio-community

Llama 3.1 Nemotron Nano 8B V1 GGUF

Llama-3.1-Nemotron-Nano-8B-v1是基于Meta Llama-3.1-8B-Instruct的推理模型，经过后训练增强推理能力、人类聊天偏好及任务执行能力。

大型语言模型

Transformers 英语

INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf

基于Qwen2.5-VL-72B-Instruct改进的多模态视觉语言模型，在多个视觉推理基准测试中表现优异

文本生成图像英语

INFRL Qwen2.5 VL 72B Preview Bf16.gguf

基于Qwen2.5-VL-72B-Instruct优化的视觉语言模型，在多个视觉推理基准测试中表现优异

文本生成图像英语

Llama 3.1 8B Instruct

Meta Llama 3.1系列多语言大型语言模型，包含8B参数规模，针对多语言对话用例优化，支持8种语言。

大型语言模型

Safetensors 支持多种语言

Kevin 32B是由Cognition AI开发的大语言模型，支持超长上下文（40960 tokens），专注于CUDA内核生成和强化学习任务。

大型语言模型

lmstudio-community

RM R1 DeepSeek Distilled Qwen 14B

RM-R1是一个用于推理奖励模型(ReasRM)的训练框架，通过生成评分标准或推理轨迹来评判候选答案，提供可解释的评判。

大型语言模型

Transformers 英语

II Medical 7B Preview

基于Qwen/Qwen2.5-7B-Instruct微调的医疗推理模型，在多个医疗QA基准测试上表现优异

大型语言模型

Intelligent-Internet

Deephermes Financial Fundamentals Prediction Specialist Atropos

这是一个实验性金融分析模型，通过Atropos强化学习框架优化金融基本面预测能力

大型语言模型

Transformers 英语

Skywork VL Reward 7B

Skywork-VL-Reward-7B是一个7B参数的多模态奖励模型，基于Qwen2.5-VL-7B-Instruct架构，增加了用于训练奖励模型的价值头结构。

多模态融合

Deepcoder 1.5B Preview GGUF

基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型，采用分布式强化学习技术扩展长上下文处理能力

大型语言模型英语

基于Qwen/Qwen2.5-1.5B-Instruct模型进行微调，使用了TinyV奖励系统，能在高效强化学习（RL）后训练中提供更准确的奖励信号，显著提升RL效率和最终模型性能。

大型语言模型

Tinyllava Video R1

TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型，通过强化学习显著提升了推理与思维能力，并展现出'顿悟时刻'的涌现特性。

视频生成文本

Deepcoder 14B Preview Exl2

DeepCoder-14B-Preview是基于DeepSeek-R1-Distill-Qwen-14B开发的代码生成模型，专注于可验证编程问题的解决。

大型语言模型英语

Deepcoder 1.5B Preview Exl2 4.65bpw

基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型，采用分布式强化学习技术扩展长上下文处理能力

大型语言模型

Transformers 英语

骆驼模型是一个基于变换器架构的文本生成模型，支持阿塞拜疆语，采用强化学习进行训练。

大型语言模型

Transformers 其他

Quasar 3.0 Final

Quasar-3.0-Max是SILX INC提供的7B参数蒸馏模型，展示了Quasar架构的早期潜力，采用创新的TTM训练流程和强化学习技术。

大型语言模型

Quasar 3.0 Instract V2

Quasar-3.0-7B是即将发布的400B Quasar 3.0模型的蒸馏版本，展示了Quasar架构的早期实力和潜力。

大型语言模型

VARGPT-v1.1是一个视觉自回归统一大模型，通过迭代指令调优与强化学习提升，能够同时实现视觉理解和生成任务。

文本生成图像

Transformers 英语

VARGPT V1.1 Edit

VARGPT-v1.1是一个通过迭代指令调优与强化学习提升的视觉自回归统一大模型，支持视觉理解和生成任务。

文本生成图像

Transformers 英语

Community Request 01 12B

基于多个Captain-Eris系列模型通过mergekit工具合并的预训练语言模型

大型语言模型

Qwen2.5 VL 3B UI R1

UI-R1是通过强化学习增强GUI代理动作预测的视觉语言模型，基于Qwen2.5-VL-3B-Instruct构建。

文本生成图像英语

R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型，通过群体相对策略优化（GRPO）算法进行强化学习优化，在MMAU基准测试中取得最先进性能。

音频生成文本

Light R1 14B DS

Light-R1-14B-DS是一个14B参数的数学SOTA模型，采用强化学习训练，在AIME24/25和GPQA基准测试中表现优异。

大型语言模型

Visualthinker R1 Zero

首个在仅一个非监督微调的2B模型上复现'顿悟时刻'和响应长度增加的多模态推理模型

图像生成文本英语

turningpoint-ai

TRL 是一个基于 Transformer 架构的强化学习库，用于训练和微调语言模型。

大型语言模型

Qwen2.5vl 3B VLM R1 REC 500steps

基于Qwen2.5-VL-3B-Instruct的视觉语言模型，通过VLM-R1强化学习增强，专注于指代表达式理解任务。

文本生成图像

Safetensors 英语

Text2graph R1 Qwen2.5 0.5b

基于Qwen-2.5-0.5B模型，通过强化学习（GRPO）和监督学习联合训练而成的文本转图谱信息抽取模型。

Safetensors 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase