Unireason Qwen3 14B RL GGUF
Apache-2.0
UniReason-Qwen3-14B-RL的静态量化版本,适用于文本生成和数学推理研究场景。
大型语言模型
Transformers 英语

U
mradermacher
272
1
Vigorl 7b Spatial
ViGoRL 是一个通过强化学习微调的视觉语言模型,用于将文本推理步骤与视觉坐标明确关联,实现精确的视觉推理和定位。
文本生成图像
Transformers

V
gsarch
319
1
Deepseek R1 Distill Qwen 14B GRPO Taiwan Spirit
这是一个基于Qwen-14B模型微调的版本,使用GRPO方法进行训练,适用于文本生成任务。
大型语言模型
Transformers

D
kartd
111
1
Codev R1 Qwen 7B
CodeV-R1-Qwen-7B是基于CodeV-R1框架,在Qwen/Qwen2.5-Coder-7B-Instruct基础上通过强化学习微调得到的模型,专注于Verilog相关任务,能有效解决电子设计自动化中自动生成硬件描述语言的难题。
大型语言模型
Transformers

C
zhuyaoyu
138
1
Finetuned Tamil Llama 7B Finetuned
基于Transformers库的监督微调(SFT)模型,用于优化语言模型的性能
大型语言模型
Transformers

F
Jaggu05
73
1
Xgen Small 9B Instruct R
xGen-small是一款企业级紧凑型语言模型,通过领域聚焦的数据整理、可扩展的预训练、长度扩展和强化学习微调,以可预测的低成本实现长上下文性能表现。
大型语言模型
Transformers 英语

X
Salesforce
97
4
Qwen3 0.6B TLDR Lora
Apache-2.0
Qwen3-0.6B 是一个基于 Transformer 架构的开源语言模型,参数规模为 6 亿,适用于文本摘要等自然语言处理任务。
文本生成
Q
phh
56
0
Phi 4 Reasoning Plus GGUF
MIT
Phi-4-reasoning-plus 是微软开发的增强推理能力的大语言模型,专为复杂数学问题和多步骤推理任务优化。
大型语言模型 支持多种语言
P
lmstudio-community
5,205
4
Openhands Lm 7b V0.1 GGUF
MIT
OpenHands LM是一款基于Qwen Coder 2.5 Instruct 32B构建的开源编码模型,通过特殊微调在软件工程任务中表现出色。
大型语言模型 英语
O
Mungert
1,131
2
Qwen 2.5 7B Base RAG RL
Qwen-2.5-7B-base-RAG-RL 是一个基于未知数据集从头开始训练的7B参数规模的大语言模型,结合了检索增强生成(RAG)和强化学习(RL)技术。
大型语言模型
Transformers

Q
XXsongLALA
859
7
Phi 4 Reasoning Plus
MIT
Phi-4-reasoning-plus 是微软研究院开发的先进开放权重推理模型,基于 Phi-4 通过监督微调和强化学习优化,专注于数学、科学和编码领域的高级推理能力。
大型语言模型
Transformers 支持多种语言

P
microsoft
19.83k
261
Deepcoder 1.5B Preview AWQ
MIT
DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型,通过分布式强化学习从DeepSeek-R1-Distilled-Qwen-1.5B微调而来,能够处理更长的上下文长度。
大型语言模型
Transformers 英语

D
adriabama06
72
2
Deephermes ToolCalling Specialist Atropos
由Nous Research使用Atropos强化学习框架微调的实验性模型,专注于提升Llama-3.1 8B模型在推理模式下的工具调用性能
大型语言模型
Transformers 英语

D
NousResearch
64
4
Ablation 141 A128.dpo.armorm.rp Shisa V2 Llama 3.1 8b
基于DPO方法微调的语言模型,适用于文本生成任务
大型语言模型
Transformers

A
shisa-ai
38
2
Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale
基于Gensyn/Qwen2.5-0.5B-Instruct微调的版本,采用TRL框架和GRPO算法训练
大型语言模型
Transformers

Q
gangchen
3,053
2
Notbad V1 0 Mistral 24b
Apache-2.0
Notbad v1.0 Mistral 24B 是一款专注于数学和Python编程推理的模型,基于Mistral-Small-24B-Instruct-2501并通过强化学习进一步训练。
大型语言模型
Transformers

N
notbadai
29
5
EXAONE 3.5 2.4B Fine Tuning
Hugging Face提供的Transformer模型库,支持多种自然语言处理任务
大型语言模型
Transformers

E
good593
65
2
Qwen2.5 0.5B Instruct
Apache-2.0
专为Gensyn强化学习群设计的0.5B参数指令微调模型,支持本地微调训练
大型语言模型
Transformers 英语

Q
Gensyn
2.4M
5
Ice0.101 20.03 RP GRPO 1
Apache-2.0
基于Unsloth无惰性优化框架和Huggingface TRL训练库优化的薄雾模型,实现2倍速训练效率
大型语言模型
Transformers 英语

I
icefog72
55
2
Deductive Reasoning Qwen 32B
MIT
基于Qwen 2.5 32B Instruct通过强化微调训练的模型,专门用于解决Temporal Clue数据集中具有挑战性的演绎推理问题。
大型语言模型
Transformers 英语

D
OpenPipe
1,669
39
Tifa DeepsexV2 7b MGRPO Safetensors GGUF
Apache-2.0
Tifa-DeepsexV2-7b-MGRPO-safetensors 是一个基于 transformers 库的多语言(中文和英语)大语言模型,经过增量预训练、监督微调和强化学习优化,适用于角色扮演和思维链任务。
大型语言模型 支持多种语言
T
mradermacher
283
1
Llama 3.1 Tulu 3.1 8B
Tülu 3 是领先的指令跟随模型家族,提供完全开源的数据、代码和训练方案作为现代技术的综合指南。3.1版本在强化学习阶段进行了改进,性能全面提升。
大型语言模型
Transformers 英语

L
allenai
3,643
33
Alignprop Trl Aesthetics
Apache-2.0
基于Stable Diffusion v1.5微调的文本生成图像模型,采用动物数据集上的美学奖励函数,通过奖励反向传播方法进行训练。
图像生成
A
mihirpd
15
1
Ppo Tldr
基于EleutherAI_pythia-1b-deduped模型微调的版本,用于生成简洁摘要
大型语言模型
Transformers

P
vwxyzjn
15
1
Llama 3 NeuralPaca 8b
基于Meta LLAMA-3-8B构建的优化模型,采用无惰优化技术和Huggingface TRL库训练,速度提升2倍
大型语言模型
Transformers 英语

L
NeuralNovel
21
7
Vlrm Blip2 Opt 2.7b
MIT
通过强化学习方法微调的BLIP-2 OPT-2.7B模型,能够生成长且全面的图像描述
图像生成文本
Transformers 英语

V
sashakunitsyn
398
17
Codellama 7b Hf ReFT GSM8k
通过强化微调增强大语言模型的推理泛化能力,基于Codellama微调,适用于代码生成与理解任务。
大型语言模型
Transformers

C
lqtrung1998
38
1
Blip Image Captioning Base Mocha
MIT
BLIP基础模型的官方检查点,采用MOCHA强化学习框架在MS-COCO数据集上微调,用于缓解开放词汇描述幻觉问题
图像生成文本
Transformers

B
moranyanuka
88
1
Blip Image Captioning Large Mocha
MIT
这是BLIP-Large模型的官方微调版本,采用MOCHa强化学习框架在MS-COCO数据集上进行微调,旨在缓解开放词汇描述幻觉问题
图像生成文本
Transformers

B
moranyanuka
188
10
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98