強化學習微調

# 強化學習微調

Unireason Qwen3 14B RL GGUF

UniReason-Qwen3-14B-RL的靜態量化版本，適用於文本生成和數學推理研究場景。

大型語言模型

Transformers 英語

Vigorl 7b Spatial

ViGoRL 是一個通過強化學習微調的視覺語言模型，用於將文本推理步驟與視覺座標明確關聯，實現精確的視覺推理和定位。

文本生成圖像

Deepseek R1 Distill Qwen 14B GRPO Taiwan Spirit

這是一個基於Qwen-14B模型微調的版本，使用GRPO方法進行訓練，適用於文本生成任務。

大型語言模型

Codev R1 Qwen 7B

CodeV-R1-Qwen-7B是基於CodeV-R1框架，在Qwen/Qwen2.5-Coder-7B-Instruct基礎上通過強化學習微調得到的模型，專注於Verilog相關任務，能有效解決電子設計自動化中自動生成硬件描述語言的難題。

大型語言模型

Finetuned Tamil Llama 7B Finetuned

基於Transformers庫的監督微調(SFT)模型，用於優化語言模型的性能

大型語言模型

Xgen Small 9B Instruct R

xGen-small是一款企業級緊湊型語言模型，通過領域聚焦的數據整理、可擴展的預訓練、長度擴展和強化學習微調，以可預測的低成本實現長上下文性能表現。

大型語言模型

Transformers 英語

Qwen3 0.6B TLDR Lora

Qwen3-0.6B 是一個基於 Transformer 架構的開源語言模型，參數規模為 6 億，適用於文本摘要等自然語言處理任務。

Phi 4 Reasoning Plus GGUF

Phi-4-reasoning-plus 是微軟開發的增強推理能力的大語言模型，專為複雜數學問題和多步驟推理任務優化。

大型語言模型支持多種語言

lmstudio-community

Openhands Lm 7b V0.1 GGUF

OpenHands LM是一款基於Qwen Coder 2.5 Instruct 32B構建的開源編碼模型，通過特殊微調在軟件工程任務中表現出色。

大型語言模型英語

Qwen 2.5 7B Base RAG RL

Qwen-2.5-7B-base-RAG-RL 是一個基於未知數據集從頭開始訓練的7B參數規模的大語言模型，結合了檢索增強生成(RAG)和強化學習(RL)技術。

大型語言模型

Phi 4 Reasoning Plus

Phi-4-reasoning-plus 是微軟研究院開發的先進開放權重推理模型，基於 Phi-4 通過監督微調和強化學習優化，專注於數學、科學和編碼領域的高級推理能力。

大型語言模型

Transformers 支持多種語言

Deepcoder 1.5B Preview AWQ

DeepCoder-1.5B-Preview是一款基於代碼推理的大型語言模型，通過分佈式強化學習從DeepSeek-R1-Distilled-Qwen-1.5B微調而來，能夠處理更長的上下文長度。

大型語言模型

Transformers 英語

Deephermes ToolCalling Specialist Atropos

由Nous Research使用Atropos強化學習框架微調的實驗性模型，專注於提升Llama-3.1 8B模型在推理模式下的工具調用性能

大型語言模型

Transformers 英語

Ablation 141 A128.dpo.armorm.rp Shisa V2 Llama 3.1 8b

基於DPO方法微調的語言模型，適用於文本生成任務

大型語言模型

Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale

基於Gensyn/Qwen2.5-0.5B-Instruct微調的版本，採用TRL框架和GRPO算法訓練

大型語言模型

Notbad V1 0 Mistral 24b

Notbad v1.0 Mistral 24B 是一款專注於數學和Python編程推理的模型，基於Mistral-Small-24B-Instruct-2501並通過強化學習進一步訓練。

大型語言模型

EXAONE 3.5 2.4B Fine Tuning

Hugging Face提供的Transformer模型庫，支持多種自然語言處理任務

大型語言模型

Qwen2.5 0.5B Instruct

專為Gensyn強化學習群設計的0.5B參數指令微調模型，支持本地微調訓練

大型語言模型

Transformers 英語

Ice0.101 20.03 RP GRPO 1

基於Unsloth無惰性優化框架和Huggingface TRL訓練庫優化的薄霧模型，實現2倍速訓練效率

大型語言模型

Transformers 英語

Deductive Reasoning Qwen 32B

基於Qwen 2.5 32B Instruct通過強化微調訓練的模型，專門用於解決Temporal Clue數據集中具有挑戰性的演繹推理問題。

大型語言模型

Transformers 英語

Tifa DeepsexV2 7b MGRPO Safetensors GGUF

Tifa-DeepsexV2-7b-MGRPO-safetensors 是一個基於 transformers 庫的多語言（中文和英語）大語言模型，經過增量預訓練、監督微調和強化學習優化，適用於角色扮演和思維鏈任務。

大型語言模型支持多種語言

Llama 3.1 Tulu 3.1 8B

Tülu 3 是領先的指令跟隨模型家族，提供完全開源的數據、代碼和訓練方案作為現代技術的綜合指南。3.1版本在強化學習階段進行了改進，性能全面提升。

大型語言模型

Transformers 英語

Alignprop Trl Aesthetics

基於Stable Diffusion v1.5微調的文本生成圖像模型，採用動物數據集上的美學獎勵函數，通過獎勵反向傳播方法進行訓練。

基於EleutherAI_pythia-1b-deduped模型微調的版本，用於生成簡潔摘要

大型語言模型

Llama 3 NeuralPaca 8b

基於Meta LLAMA-3-8B構建的優化模型，採用無惰優化技術和Huggingface TRL庫訓練，速度提升2倍

大型語言模型

Transformers 英語

Vlrm Blip2 Opt 2.7b

通過強化學習方法微調的BLIP-2 OPT-2.7B模型，能夠生成長且全面的圖像描述

圖像生成文本

Transformers 英語

Codellama 7b Hf ReFT GSM8k

通過強化微調增強大語言模型的推理泛化能力，基於Codellama微調，適用於代碼生成與理解任務。

大型語言模型

Blip Image Captioning Base Mocha

BLIP基礎模型的官方檢查點，採用MOCHA強化學習框架在MS-COCO數據集上微調，用於緩解開放詞彙描述幻覺問題

圖像生成文本

Blip Image Captioning Large Mocha

這是BLIP-Large模型的官方微調版本，採用MOCHa強化學習框架在MS-COCO數據集上進行微調，旨在緩解開放詞彙描述幻覺問題

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase