強化學習優化

# 強化學習優化

Polaris 4B Preview F32 GGUF

Polaris是一種開源的後訓練方法，利用強化學習優化和增強模型，提升推理能力。

大型語言模型

Transformers 英語

Longwriter Zero 32B I1 GGUF

LongWriter-Zero-32B 量化模型基於 THU-KEG/LongWriter-Zero-32B 基礎模型，支持中英雙語，適用於強化學習、寫作等長上下文場景。

大型語言模型

Transformers 支持多種語言

Longwriter Zero 32B GGUF

LongWriter-Zero-32B量化模型是基於原始模型進行靜態量化處理的多語言模型，適用於強化學習、寫作等長上下文場景。

大型語言模型

Transformers 支持多種語言

Acereason Nemotron 1.1 7B GGUF

英偉達推出的高性能7B參數語言模型，專注於數學和代碼推理任務，支持128k上下文長度。

大型語言模型支持多種語言

lmstudio-community

Kimi-Dev-72B 是一款用於軟件工程任務的開源編碼大語言模型，在 SWE-bench Verified 上取得了開源模型中的最優成績。

大型語言模型

Transformers 其他

ContentV是一個高效的視頻生成模型框架，通過極簡架構、多階段訓練策略和經濟高效的強化學習框架，在有限計算資源下實現高質量視頻生成。

Mmada 8B MixCoT

MMaDA是一類新型的多模態擴散基礎模型，在文本推理、多模態理解和文本到圖像生成等多個領域表現卓越。

文本生成圖像

ReasonGen-R1是一個融合思維鏈推理的自迴歸圖像生成模型，通過SFT和RL提升圖像生成的邏輯性和質量。

文本生成圖像

Qwenlong L1 32B

QwenLong-L1是基於強化學習訓練的長上下文大推理模型，在七個長上下文文檔問答基準測試中表現優異。

大型語言模型

Thinkless 1.5B Warmup

無思框架（Thinkless）是一種可學習框架，使大模型能根據任務複雜度和自身能力，自適應選擇簡短推理或長鏈推理。

大型語言模型

Qwen2.5 VL 3B UI R1 E

UI-R1-E-3B是基於Qwen2.5-VL-3B-Instruct微調的高效GUI定位模型，專注於視覺問答任務，特別擅長在用戶界面截圖中定位和識別操作元素。

圖像生成文本英語

Verireason Codellama 7b RTLCoder Verilog GRPO Reasoning Tb

VeriReason是一種結合強化學習與測試平臺反饋的Verilog RTL代碼生成方法，顯著提升了預訓練模型在硬件設計領域的性能。

大型語言模型

INTELLECT 2 GGUF

INTELLECT 2是由PrimeIntellect推出的大語言模型，支持40960 tokens的上下文長度，採用QwQ架構和GRPO強化學習框架訓練。

大型語言模型

lmstudio-community

Llama 3.1 Nemotron Nano 8B V1 GGUF

Llama-3.1-Nemotron-Nano-8B-v1是基於Meta Llama-3.1-8B-Instruct的推理模型，經過後訓練增強推理能力、人類聊天偏好及任務執行能力。

大型語言模型

Transformers 英語

INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf

基於Qwen2.5-VL-72B-Instruct改進的多模態視覺語言模型，在多個視覺推理基準測試中表現優異

文本生成圖像英語

INFRL Qwen2.5 VL 72B Preview Bf16.gguf

基於Qwen2.5-VL-72B-Instruct優化的視覺語言模型，在多個視覺推理基準測試中表現優異

文本生成圖像英語

Llama 3.1 8B Instruct

Meta Llama 3.1系列多語言大型語言模型，包含8B參數規模，針對多語言對話用例優化，支持8種語言。

大型語言模型

Safetensors 支持多種語言

Kevin 32B是由Cognition AI開發的大語言模型，支持超長上下文（40960 tokens），專注於CUDA內核生成和強化學習任務。

大型語言模型

lmstudio-community

RM R1 DeepSeek Distilled Qwen 14B

RM-R1是一個用於推理獎勵模型(ReasRM)的訓練框架，通過生成評分標準或推理軌跡來評判候選答案，提供可解釋的評判。

大型語言模型

Transformers 英語

II Medical 7B Preview

基於Qwen/Qwen2.5-7B-Instruct微調的醫療推理模型，在多個醫療QA基準測試上表現優異

大型語言模型

Intelligent-Internet

Deephermes Financial Fundamentals Prediction Specialist Atropos

這是一個實驗性金融分析模型，通過Atropos強化學習框架優化金融基本面預測能力

大型語言模型

Transformers 英語

Skywork VL Reward 7B

Skywork-VL-Reward-7B是一個7B參數的多模態獎勵模型，基於Qwen2.5-VL-7B-Instruct架構，增加了用於訓練獎勵模型的價值頭結構。

多模態融合

Deepcoder 1.5B Preview GGUF

基於DeepSeek-R1-Distilled-Qwen-1.5B微調的代碼推理大語言模型，採用分佈式強化學習技術擴展長上下文處理能力

大型語言模型英語

基於Qwen/Qwen2.5-1.5B-Instruct模型進行微調，使用了TinyV獎勵系統，能在高效強化學習（RL）後訓練中提供更準確的獎勵信號，顯著提升RL效率和最終模型性能。

大型語言模型

Tinyllava Video R1

TinyLLaVA-Video-R1是基於可溯源訓練模型TinyLLaVA-Video的小規模視頻推理模型，通過強化學習顯著提升了推理與思維能力，並展現出'頓悟時刻'的湧現特性。

視頻生成文本

Deepcoder 14B Preview Exl2

DeepCoder-14B-Preview是基於DeepSeek-R1-Distill-Qwen-14B開發的代碼生成模型，專注於可驗證編程問題的解決。

大型語言模型英語

Deepcoder 1.5B Preview Exl2 4.65bpw

基於DeepSeek-R1-Distilled-Qwen-1.5B微調的代碼推理大模型，採用分佈式強化學習技術擴展長上下文處理能力

大型語言模型

Transformers 英語

駱駝模型是一個基於變換器架構的文本生成模型，支持阿塞拜疆語，採用強化學習進行訓練。

大型語言模型

Transformers 其他

Quasar 3.0 Instract V2

Quasar-3.0-7B是即將發佈的400B Quasar 3.0模型的蒸餾版本，展示了Quasar架構的早期實力和潛力。

大型語言模型

Quasar 3.0 Final

Quasar-3.0-Max是SILX INC提供的7B參數蒸餾模型，展示了Quasar架構的早期潛力，採用創新的TTM訓練流程和強化學習技術。

大型語言模型

VARGPT-v1.1是一個視覺自迴歸統一大模型，通過迭代指令調優與強化學習提升，能夠同時實現視覺理解和生成任務。

文本生成圖像

Transformers 英語

VARGPT V1.1 Edit

VARGPT-v1.1是一個通過迭代指令調優與強化學習提升的視覺自迴歸統一大模型，支持視覺理解和生成任務。

文本生成圖像

Transformers 英語

Community Request 01 12B

基於多個Captain-Eris系列模型通過mergekit工具合併的預訓練語言模型

大型語言模型

Qwen2.5 VL 3B UI R1

UI-R1是通過強化學習增強GUI代理動作預測的視覺語言模型，基於Qwen2.5-VL-3B-Instruct構建。

文本生成圖像英語

R1-AQA是基於Qwen2-Audio-7B-Instruct的音頻問答模型，通過群體相對策略優化（GRPO）算法進行強化學習優化，在MMAU基準測試中取得最先進性能。

音頻生成文本

Light R1 14B DS

Light-R1-14B-DS是一個14B參數的數學SOTA模型，採用強化學習訓練，在AIME24/25和GPQA基準測試中表現優異。

大型語言模型

Visualthinker R1 Zero

首個在僅一個非監督微調的2B模型上覆現'頓悟時刻'和響應長度增加的多模態推理模型

圖像生成文本英語

turningpoint-ai

TRL 是一個基於 Transformer 架構的強化學習庫，用於訓練和微調語言模型。

大型語言模型

Qwen2.5vl 3B VLM R1 REC 500steps

基於Qwen2.5-VL-3B-Instruct的視覺語言模型，通過VLM-R1強化學習增強，專注於指代表達式理解任務。

文本生成圖像

Safetensors 英語

Text2graph R1 Qwen2.5 0.5b

基於Qwen-2.5-0.5B模型，通過強化學習（GRPO）和監督學習聯合訓練而成的文本轉圖譜信息抽取模型。

Safetensors 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase