强化学习微调

# 强化学习微调

Unireason Qwen3 14B RL GGUF

UniReason-Qwen3-14B-RL的静态量化版本，适用于文本生成和数学推理研究场景。

大型语言模型

Transformers 英语

Vigorl 7b Spatial

ViGoRL 是一个通过强化学习微调的视觉语言模型，用于将文本推理步骤与视觉坐标明确关联，实现精确的视觉推理和定位。

文本生成图像

Deepseek R1 Distill Qwen 14B GRPO Taiwan Spirit

这是一个基于Qwen-14B模型微调的版本，使用GRPO方法进行训练，适用于文本生成任务。

大型语言模型

Codev R1 Qwen 7B

CodeV-R1-Qwen-7B是基于CodeV-R1框架，在Qwen/Qwen2.5-Coder-7B-Instruct基础上通过强化学习微调得到的模型，专注于Verilog相关任务，能有效解决电子设计自动化中自动生成硬件描述语言的难题。

大型语言模型

Finetuned Tamil Llama 7B Finetuned

基于Transformers库的监督微调(SFT)模型，用于优化语言模型的性能

大型语言模型

Xgen Small 9B Instruct R

xGen-small是一款企业级紧凑型语言模型，通过领域聚焦的数据整理、可扩展的预训练、长度扩展和强化学习微调，以可预测的低成本实现长上下文性能表现。

大型语言模型

Transformers 英语

Qwen3 0.6B TLDR Lora

Qwen3-0.6B 是一个基于 Transformer 架构的开源语言模型，参数规模为 6 亿，适用于文本摘要等自然语言处理任务。

Phi 4 Reasoning Plus GGUF

Phi-4-reasoning-plus 是微软开发的增强推理能力的大语言模型，专为复杂数学问题和多步骤推理任务优化。

大型语言模型支持多种语言

lmstudio-community

Openhands Lm 7b V0.1 GGUF

OpenHands LM是一款基于Qwen Coder 2.5 Instruct 32B构建的开源编码模型，通过特殊微调在软件工程任务中表现出色。

大型语言模型英语

Qwen 2.5 7B Base RAG RL

Qwen-2.5-7B-base-RAG-RL 是一个基于未知数据集从头开始训练的7B参数规模的大语言模型，结合了检索增强生成(RAG)和强化学习(RL)技术。

大型语言模型

Phi 4 Reasoning Plus

Phi-4-reasoning-plus 是微软研究院开发的先进开放权重推理模型，基于 Phi-4 通过监督微调和强化学习优化，专注于数学、科学和编码领域的高级推理能力。

大型语言模型

Transformers 支持多种语言

Deepcoder 1.5B Preview AWQ

DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型，通过分布式强化学习从DeepSeek-R1-Distilled-Qwen-1.5B微调而来，能够处理更长的上下文长度。

大型语言模型

Transformers 英语

Deephermes ToolCalling Specialist Atropos

由Nous Research使用Atropos强化学习框架微调的实验性模型，专注于提升Llama-3.1 8B模型在推理模式下的工具调用性能

大型语言模型

Transformers 英语

Ablation 141 A128.dpo.armorm.rp Shisa V2 Llama 3.1 8b

基于DPO方法微调的语言模型，适用于文本生成任务

大型语言模型

Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale

基于Gensyn/Qwen2.5-0.5B-Instruct微调的版本，采用TRL框架和GRPO算法训练

大型语言模型

Notbad V1 0 Mistral 24b

Notbad v1.0 Mistral 24B 是一款专注于数学和Python编程推理的模型，基于Mistral-Small-24B-Instruct-2501并通过强化学习进一步训练。

大型语言模型

EXAONE 3.5 2.4B Fine Tuning

Hugging Face提供的Transformer模型库，支持多种自然语言处理任务

大型语言模型

Qwen2.5 0.5B Instruct

专为Gensyn强化学习群设计的0.5B参数指令微调模型，支持本地微调训练

大型语言模型

Transformers 英语

Ice0.101 20.03 RP GRPO 1

基于Unsloth无惰性优化框架和Huggingface TRL训练库优化的薄雾模型，实现2倍速训练效率

大型语言模型

Transformers 英语

Deductive Reasoning Qwen 32B

基于Qwen 2.5 32B Instruct通过强化微调训练的模型，专门用于解决Temporal Clue数据集中具有挑战性的演绎推理问题。

大型语言模型

Transformers 英语

Tifa DeepsexV2 7b MGRPO Safetensors GGUF

Tifa-DeepsexV2-7b-MGRPO-safetensors 是一个基于 transformers 库的多语言（中文和英语）大语言模型，经过增量预训练、监督微调和强化学习优化，适用于角色扮演和思维链任务。

大型语言模型支持多种语言

Llama 3.1 Tulu 3.1 8B

Tülu 3 是领先的指令跟随模型家族，提供完全开源的数据、代码和训练方案作为现代技术的综合指南。3.1版本在强化学习阶段进行了改进，性能全面提升。

大型语言模型

Transformers 英语

Alignprop Trl Aesthetics

基于Stable Diffusion v1.5微调的文本生成图像模型，采用动物数据集上的美学奖励函数，通过奖励反向传播方法进行训练。

基于EleutherAI_pythia-1b-deduped模型微调的版本，用于生成简洁摘要

大型语言模型

Llama 3 NeuralPaca 8b

基于Meta LLAMA-3-8B构建的优化模型，采用无惰优化技术和Huggingface TRL库训练，速度提升2倍

大型语言模型

Transformers 英语

Vlrm Blip2 Opt 2.7b

通过强化学习方法微调的BLIP-2 OPT-2.7B模型，能够生成长且全面的图像描述

图像生成文本

Transformers 英语

Codellama 7b Hf ReFT GSM8k

通过强化微调增强大语言模型的推理泛化能力，基于Codellama微调，适用于代码生成与理解任务。

大型语言模型

Blip Image Captioning Base Mocha

BLIP基础模型的官方检查点，采用MOCHA强化学习框架在MS-COCO数据集上微调，用于缓解开放词汇描述幻觉问题

图像生成文本

Blip Image Captioning Large Mocha

这是BLIP-Large模型的官方微调版本，采用MOCHa强化学习框架在MS-COCO数据集上进行微调，旨在缓解开放词汇描述幻觉问题

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase