Polaris 4B Preview F32 GGUF
Apache-2.0
Polaris是一種開源的後訓練方法,利用強化學習優化和增強模型,提升推理能力。
大型語言模型
Transformers 英語

P
prithivMLmods
765
1
Longwriter Zero 32B I1 GGUF
Apache-2.0
LongWriter-Zero-32B 量化模型基於 THU-KEG/LongWriter-Zero-32B 基礎模型,支持中英雙語,適用於強化學習、寫作等長上下文場景。
大型語言模型
Transformers 支持多種語言

L
mradermacher
135
1
Longwriter Zero 32B GGUF
Apache-2.0
LongWriter-Zero-32B量化模型是基於原始模型進行靜態量化處理的多語言模型,適用於強化學習、寫作等長上下文場景。
大型語言模型
Transformers 支持多種語言

L
mradermacher
204
1
Acereason Nemotron 1.1 7B GGUF
其他
英偉達推出的高性能7B參數語言模型,專注於數學和代碼推理任務,支持128k上下文長度。
大型語言模型 支持多種語言
A
lmstudio-community
278
1
Kimi Dev 72B
MIT
Kimi-Dev-72B 是一款用於軟件工程任務的開源編碼大語言模型,在 SWE-bench Verified 上取得了開源模型中的最優成績。
大型語言模型
Transformers 其他

K
moonshotai
324
162
Contentv 8B
Apache-2.0
ContentV是一個高效的視頻生成模型框架,通過極簡架構、多階段訓練策略和經濟高效的強化學習框架,在有限計算資源下實現高質量視頻生成。
視頻處理
C
ByteDance
417
25
Mmada 8B MixCoT
MIT
MMaDA是一類新型的多模態擴散基礎模型,在文本推理、多模態理解和文本到圖像生成等多個領域表現卓越。
文本生成圖像
Transformers

M
Gen-Verse
601
3
Reasongen R1
Apache-2.0
ReasonGen-R1是一個融合思維鏈推理的自迴歸圖像生成模型,通過SFT和RL提升圖像生成的邏輯性和質量。
文本生成圖像
Transformers

R
Franklin0
142
1
Qwenlong L1 32B
Apache-2.0
QwenLong-L1是基於強化學習訓練的長上下文大推理模型,在七個長上下文文檔問答基準測試中表現優異。
大型語言模型
Transformers

Q
Tongyi-Zhiwen
683
106
Thinkless 1.5B Warmup
Apache-2.0
無思框架(Thinkless)是一種可學習框架,使大模型能根據任務複雜度和自身能力,自適應選擇簡短推理或長鏈推理。
大型語言模型
Transformers

T
Vinnnf
966
1
Qwen2.5 VL 3B UI R1 E
MIT
UI-R1-E-3B是基於Qwen2.5-VL-3B-Instruct微調的高效GUI定位模型,專注於視覺問答任務,特別擅長在用戶界面截圖中定位和識別操作元素。
圖像生成文本 英語
Q
LZXzju
75
3
Verireason Codellama 7b RTLCoder Verilog GRPO Reasoning Tb
VeriReason是一種結合強化學習與測試平臺反饋的Verilog RTL代碼生成方法,顯著提升了預訓練模型在硬件設計領域的性能。
大型語言模型
Transformers

V
Nellyw888
1,483
1
INTELLECT 2 GGUF
Apache-2.0
INTELLECT 2是由PrimeIntellect推出的大語言模型,支持40960 tokens的上下文長度,採用QwQ架構和GRPO強化學習框架訓練。
大型語言模型
I
lmstudio-community
467
5
Llama 3.1 Nemotron Nano 8B V1 GGUF
其他
Llama-3.1-Nemotron-Nano-8B-v1是基於Meta Llama-3.1-8B-Instruct的推理模型,經過後訓練增強推理能力、人類聊天偏好及任務執行能力。
大型語言模型
Transformers 英語

L
unsloth
22.18k
3
INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf
Apache-2.0
基於Qwen2.5-VL-72B-Instruct改進的多模態視覺語言模型,在多個視覺推理基準測試中表現優異
文本生成圖像 英語
I
GeorgyGUF
64
0
INFRL Qwen2.5 VL 72B Preview Bf16.gguf
Apache-2.0
基於Qwen2.5-VL-72B-Instruct優化的視覺語言模型,在多個視覺推理基準測試中表現優異
文本生成圖像 英語
I
GeorgyGUF
40
0
Llama 3.1 8B Instruct
Meta Llama 3.1系列多語言大型語言模型,包含8B參數規模,針對多語言對話用例優化,支持8種語言。
大型語言模型
Safetensors 支持多種語言
L
RedHatAI
292
1
Kevin 32B GGUF
Kevin 32B是由Cognition AI開發的大語言模型,支持超長上下文(40960 tokens),專注於CUDA內核生成和強化學習任務。
大型語言模型
K
lmstudio-community
297
4
RM R1 DeepSeek Distilled Qwen 14B
MIT
RM-R1是一個用於推理獎勵模型(ReasRM)的訓練框架,通過生成評分標準或推理軌跡來評判候選答案,提供可解釋的評判。
大型語言模型
Transformers 英語

R
gaotang
95
1
II Medical 7B Preview
基於Qwen/Qwen2.5-7B-Instruct微調的醫療推理模型,在多個醫療QA基準測試上表現優異
大型語言模型
Transformers

I
Intelligent-Internet
112
9
Deephermes Financial Fundamentals Prediction Specialist Atropos
這是一個實驗性金融分析模型,通過Atropos強化學習框架優化金融基本面預測能力
大型語言模型
Transformers 英語

D
NousResearch
52
5
Skywork VL Reward 7B
MIT
Skywork-VL-Reward-7B是一個7B參數的多模態獎勵模型,基於Qwen2.5-VL-7B-Instruct架構,增加了用於訓練獎勵模型的價值頭結構。
多模態融合
Transformers

S
Skywork
30
8
Deepcoder 1.5B Preview GGUF
MIT
基於DeepSeek-R1-Distilled-Qwen-1.5B微調的代碼推理大語言模型,採用分佈式強化學習技術擴展長上下文處理能力
大型語言模型 英語
D
Mungert
888
2
Tinyv 1.5B
Apache-2.0
基於Qwen/Qwen2.5-1.5B-Instruct模型進行微調,使用了TinyV獎勵系統,能在高效強化學習(RL)後訓練中提供更準確的獎勵信號,顯著提升RL效率和最終模型性能。
大型語言模型
Transformers

T
zhangchenxu
1,124
1
Tinyllava Video R1
Apache-2.0
TinyLLaVA-Video-R1是基於可溯源訓練模型TinyLLaVA-Video的小規模視頻推理模型,通過強化學習顯著提升了推理與思維能力,並展現出'頓悟時刻'的湧現特性。
視頻生成文本
Transformers

T
Zhang199
123
2
Deepcoder 14B Preview Exl2
DeepCoder-14B-Preview是基於DeepSeek-R1-Distill-Qwen-14B開發的代碼生成模型,專注於可驗證編程問題的解決。
大型語言模型 英語
D
cgus
46
2
Deepcoder 1.5B Preview Exl2 4.65bpw
MIT
基於DeepSeek-R1-Distilled-Qwen-1.5B微調的代碼推理大模型,採用分佈式強化學習技術擴展長上下文處理能力
大型語言模型
Transformers 英語

D
async0x42
14
3
Unt 8b
Apache-2.0
駱駝模型是一個基於變換器架構的文本生成模型,支持阿塞拜疆語,採用強化學習進行訓練。
大型語言模型
Transformers 其他

U
omar07ibrahim
33
2
Quasar 3.0 Instract V2
Quasar-3.0-7B是即將發佈的400B Quasar 3.0模型的蒸餾版本,展示了Quasar架構的早期實力和潛力。
大型語言模型
Transformers

Q
silx-ai
314
8
Quasar 3.0 Final
Quasar-3.0-Max是SILX INC提供的7B參數蒸餾模型,展示了Quasar架構的早期潛力,採用創新的TTM訓練流程和強化學習技術。
大型語言模型
Transformers

Q
silx-ai
118
4
VARGPT V1.1
Apache-2.0
VARGPT-v1.1是一個視覺自迴歸統一大模型,通過迭代指令調優與強化學習提升,能夠同時實現視覺理解和生成任務。
文本生成圖像
Transformers 英語

V
VARGPT-family
954
6
VARGPT V1.1 Edit
Apache-2.0
VARGPT-v1.1是一個通過迭代指令調優與強化學習提升的視覺自迴歸統一大模型,支持視覺理解和生成任務。
文本生成圖像
Transformers 英語

V
VARGPT-family
169
1
Community Request 01 12B
基於多個Captain-Eris系列模型通過mergekit工具合併的預訓練語言模型
大型語言模型
Transformers

C
Nitral-AI
19
3
Qwen2.5 VL 3B UI R1
MIT
UI-R1是通過強化學習增強GUI代理動作預測的視覺語言模型,基於Qwen2.5-VL-3B-Instruct構建。
文本生成圖像 英語
Q
LZXzju
96
6
R1 Aqa
Apache-2.0
R1-AQA是基於Qwen2-Audio-7B-Instruct的音頻問答模型,通過群體相對策略優化(GRPO)算法進行強化學習優化,在MMAU基準測試中取得最先進性能。
音頻生成文本
Transformers

R
mispeech
791
14
Light R1 14B DS
Apache-2.0
Light-R1-14B-DS是一個14B參數的數學SOTA模型,採用強化學習訓練,在AIME24/25和GPQA基準測試中表現優異。
大型語言模型
Transformers

L
qihoo360
2,890
33
Visualthinker R1 Zero
MIT
首個在僅一個非監督微調的2B模型上覆現'頓悟時刻'和響應長度增加的多模態推理模型
圖像生成文本 英語
V
turningpoint-ai
578
6
DPO A5 Nlp
TRL 是一個基於 Transformer 架構的強化學習庫,用於訓練和微調語言模型。
大型語言模型
Transformers

D
EraCoding
26
1
Qwen2.5vl 3B VLM R1 REC 500steps
基於Qwen2.5-VL-3B-Instruct的視覺語言模型,通過VLM-R1強化學習增強,專注於指代表達式理解任務。
文本生成圖像
Safetensors 英語
Q
omlab
976
22
Text2graph R1 Qwen2.5 0.5b
Apache-2.0
基於Qwen-2.5-0.5B模型,通過強化學習(GRPO)和監督學習聯合訓練而成的文本轉圖譜信息抽取模型。
知識圖譜
Safetensors 英語
T
Ihor
199
20
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98