# 高效推理

Diffucoder 7B Cpgrpo 8bit
DiffuCoder-7B-cpGRPO-8bit是一個轉換為MLX格式的代碼生成模型,基於apple/DiffuCoder-7B-cpGRPO轉換而來,專為開發者提供高效的代碼生成工具。
大型語言模型 其他
D
mlx-community
272
2
ERNIE 4.5 21B A3B PT 8bit
Apache-2.0
ERNIE-4.5-21B-A3B-PT-8bit 是百度 ERNIE-4.5-21B-A3B-PT 模型的 8 位量化版本,轉換為 MLX 格式,適用於蘋果芯片設備。
大型語言模型 支持多種語言
E
mlx-community
123
1
Qwen Qwen2.5 Coder 1.5B GGUF
Qwen2.5-Coder-1.5B的GGUF量化版本,針對代碼生成任務優化,提供多種量化選項以平衡性能與資源消耗。
大型語言模型
Q
featherless-ai-quants
228
1
Neobert GGUF
MIT
這是chandar-lab/NeoBERT模型的靜態量化版本,旨在減少模型存儲空間和計算資源需求。
大型語言模型 Transformers 英語
N
mradermacher
219
1
Josiefied Qwen3 30B A3B Abliterated V2 4bit
這是一個基於Qwen3-30B模型轉換而來的4位量化版本,適用於MLX框架的文本生成任務。
大型語言模型
J
mlx-community
194
1
Huihui Ai.magistral Small 2506 Abliterated GGUF
慧慧AI量化模型是Magistral-Small-2506-abliterated的量化版本,致力於讓知識為每個人所用。
大型語言模型
H
DevQuasar
423
1
Qwen3 4B GGUF
MIT
一個經過量化的文本生成模型,輸出和嵌入張量採用f16格式,其餘張量採用q5_k或q6_k量化,體積更小且性能與純f16版本持平。
大型語言模型 英語
Q
ZeroWw
495
2
Apriel Nemotron 15b Thinker GGUF
MIT
Apriel-Nemotron-15b-Thinker是一款強大的推理模型,在同規模模型中表現出色,具有高效的內存使用和優秀的推理能力,適用於多種企業和學術場景。
大型語言模型 Transformers
A
Mungert
1,097
1
Wan2.1 14B T2V FusionX GGUF
Apache-2.0
這是一個文本轉視頻的量化模型,支持將文本描述轉換為視頻內容,並經過GGUF量化處理以提升推理效率。
文本生成視頻 英語
W
QuantStack
133
1
Slanet Plus
Apache-2.0
SLANet_plus是一款用於表格結構識別的模型,能夠將不可編輯的表格圖像轉換為可編輯的表格格式(如HTML),在表格識別系統中發揮著重要作用,可有效提升表格識別的準確性和效率。
文字識別 支持多種語言
S
PaddlePaddle
1,121
0
Qwen.qwen3 Reranker 0.6B GGUF
Qwen3-Reranker-0.6B的量化版本,致力於讓知識為每個人所用。
大型語言模型
Q
DevQuasar
1,481
3
Minicpm4 MCP
Apache-2.0
MiniCPM4-MCP是一款開源的端側大語言模型智能體模型,基於80億參數的MiniCPM-4構建,能夠通過MCP與各種工具和數據資源交互,解決廣泛的現實世界任務。
大型語言模型 Transformers 支持多種語言
M
openbmb
367
14
Gemma 3 27b It Quantized.w4a16
這是google/gemma-3-27b-it的量化版本,支持視覺-文本輸入和文本輸出,通過權重量化和激活量化優化,可使用vLLM進行高效推理。
圖像生成文本 Transformers
G
RedHatAI
302
1
Fpham Sydney Overthinker 13b HF GGUF
該項目提供了優化後的GGUF量化文件,可顯著提升模型性能。這些量化文件由Featherless AI提供支持,用戶只需支付少量費用,即可運行任意所需模型。
大型語言模型
F
featherless-ai-quants
133
1
Deepseek R1 0528 GPTQ Int4 Int8Mix Compact
MIT
DeepSeek-R1-0528模型的GPTQ量化版本,採用Int4 + 選擇性Int8的量化方案,在保證生成質量的同時減小文件大小。
大型語言模型 Transformers
D
QuantTrio
258
1
Qwen2 Audio 7B Instruct I1 GGUF
Apache-2.0
Qwen2-Audio-7B-Instruct的加權/矩陣量化模型,支持英文音頻文本轉文本任務
文本生成音頻 Transformers 英語
Q
mradermacher
282
0
Deepseek R1 0528 Qwen3 8B AWQ 4bit
MIT
DeepSeek-R1-0528-Qwen3-8B的AWQ量化版本,適用於特定場景下的高效推理。
大型語言模型 Transformers
D
hxac
179
2
Qvikhr 3 1.7B Instruction Noreasoning
Apache-2.0
QVikhr-3-1.7B-Instruction-noreasoning 是一個基於 Qwen/Qwen3-1.7B 的指令模型,在俄語數據集 GrandMaster2 上進行訓練,專為高效處理俄語和英語文本而設計。
大型語言模型 Transformers
Q
Vikhrmodels
274
10
Deepseek R1 0528 Qwen3 8B MLX 4bit
MIT
由DeepSeek AI開發的大語言模型,經過4位量化優化,適用於蘋果芯片設備。
大型語言模型
D
lmstudio-community
274.40k
1
Llm Jp 3.1 1.8b Instruct4
Apache-2.0
由日本國立情報學研究所開發的大語言模型,基於LLM-jp-3構建,通過指令預訓練技術顯著提升了遵循指令的能力。
大型語言模型 Transformers 支持多種語言
L
llm-jp
165
3
Llm Jp 3.1 1.8b
Apache-2.0
LLM-jp-3.1-1.8b是由日本國立情報學研究所開發的大語言模型,基於LLM-jp-3系列,融入指令預訓練增強指令遵循能力。
大型語言模型 Transformers 支持多種語言
L
llm-jp
572
1
Dmindai.dmind 1 GGUF
DMind-1 是一個文本生成基礎模型,致力於讓知識自由傳播。
大型語言模型
D
DevQuasar
226
1
Dmindai.dmind 1 Mini GGUF
DMind-1-mini 是一個輕量級的文本生成模型,適用於多種自然語言處理任務。
文本生成
D
DevQuasar
213
1
Devstral Small 2505 GGUF
Apache-2.0
Devstral-Small-2505的量化版本,提供多種精度選擇以適應不同硬件需求
大型語言模型 支持多種語言
D
Antigma
170
1
Bytedance Seed.academic Ds 9B GGUF
本項目提供了academic-ds-9B的量化版本,旨在讓知識為每個人所用。
大型語言模型
B
DevQuasar
277
1
Google.medgemma 27b Text It GGUF
MedGemma-27B-Text-IT 是 Google 開發的一個大型語言模型,專注於醫療領域的文本生成任務。
大型語言模型
G
DevQuasar
593
1
Devstral Small 2505 MLX 4bit
Apache-2.0
由mistralai開發的Devstral-Small-2505模型,經過MLX 4位量化優化,適用於Apple Silicon設備。
大型語言模型 支持多種語言
D
lmstudio-community
57.83k
3
Facebook KernelLLM GGUF
其他
KernelLLM是Facebook開發的大語言模型,此版本為使用llama.cpp工具進行imatrix量化的版本,提供多種量化選項以適應不同硬件需求。
大型語言模型
F
bartowski
5,151
2
A M Team AM Thinking V1 GGUF
Apache-2.0
基於a-m-team/AM-Thinking-v1模型的Llamacpp imatrix量化版本,支持多種量化類型,適用於文本生成任務。
大型語言模型
A
bartowski
671
1
Vintern 1B V3 5 GGUF Ext
MIT
Vintern-1B-v3_5是一個10億參數的視覺語言模型,支持圖像文本生成任務。
文本生成圖像
V
rootonchair
242
1
Sam Reason S2.1 GGUF
MIT
Sam-reason-S2.1的靜態量化版本,提供多種量化選項以適應不同硬件需求
大型語言模型 英語
S
mradermacher
299
1
Tngtech.deepseek R1T Chimera GGUF
DeepSeek-R1T-Chimera 是一個文本生成模型,基於 tngtech 的技術開發,專注於高效的自然語言處理任務。
大型語言模型
T
DevQuasar
1,407
2
Thedrummer Snowpiercer 15B V1 GGUF
MIT
基於TheDrummer/Snowpiercer-15B-v1模型的量化版本,使用llama.cpp進行量化,適用於文本生成任務。
大型語言模型
T
bartowski
4,783
1
Mellum 4b Sft Rust GGUF
Apache-2.0
專為Rust代碼中間填充(FIM)任務微調的大語言模型,基於JetBrains/Mellum-4b-base構建
大型語言模型 支持多種語言
M
Etherll
389
1
Ling Lite 1.5
MIT
靈曦是由InclusionAI開源的大規模混合專家語言模型,精簡版擁有168億總參數與27.5億激活參數,展現出卓越性能表現。
大型語言模型 Transformers
L
inclusionAI
46
3
Ko Gemma 3 12b
這是一個在Hugging Face Hub上發佈的transformers模型,具體功能和用途待補充。
大型語言模型 Transformers
K
davidkim205
126
1
Apriel Nemotron 15b Thinker
MIT
ServiceNow推出的150億參數高效推理模型,內存佔用僅為同類先進模型的一半
大型語言模型 Transformers
A
ServiceNow-AI
1,252
86
Qwen3 30B A3B 4bit DWQ
Apache-2.0
這是一個基於Qwen3-30B-A3B模型的4位量化版本,通過從6位量化蒸餾至4位定製的DWQ量化技術製作,適用於文本生成任務。
大型語言模型
Q
mlx-community
561
19
Qwen3 30B A3B FP8 Dynamic
Apache-2.0
Qwen3-30B-A3B-FP8-dynamic是基於Qwen3-30B-A3B模型通過FP8量化優化的版本,顯著降低了內存需求和計算成本,同時保持了原始模型的高準確率。
大型語言模型 Transformers
Q
RedHatAI
187
2
Qwen3 8B AWQ
Apache-2.0
Qwen3-8B-AWQ是通義千問系列最新一代8.2B參數的大語言模型,採用AWQ 4-bit量化技術優化推理效率。支持思維與非思維模式切換,具備卓越的推理、指令遵循和智能體能力。
大型語言模型 Transformers
Q
Qwen
13.99k
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase