# 低延遲推理

Phi Mini MoE Instruct GGUF
MIT
Phi-mini-MoE是一個輕量級的專家混合(MoE)模型,適用於英語的商業和研究場景,在資源受限環境和低延遲場景中表現出色。
大型語言模型 英語
P
gabriellarson
2,458
1
Arch Router 1.5B.gguf
其他
Arch-Router是一個1.5B參數的偏好對齊路由框架模型,用於將查詢映射到領域-操作偏好以進行模型路由決策。
大型語言模型 Transformers 英語
A
katanemo
220
1
Sarvam Finetune
這是一個發佈在Hub上的transformers模型,具體功能和詳細信息待補充。
大型語言模型 Transformers
S
jk12p
112
1
Unlearn Tofu Llama 3.2 1B Instruct Forget10 SimNPO Lr1e 05 B4.5 A1 D0 G0.25 Ep5
這是一個已上傳到 Hugging Face Hub 的 transformers 模型,具體信息待補充。
大型語言模型 Transformers
U
open-unlearning
153
1
Qwen3 14b Ug40 Pretrained
這是一個自動生成的transformers模型卡片,缺少具體模型信息。
大型語言模型 Transformers
Q
jq
1,757
1
Neurobert Mini
MIT
NeuroBERT-Mini 是從 google/bert-base-uncased 衍生的輕量級自然語言處理模型,專為邊緣和物聯網設備的即時推理優化。
大型語言模型 Transformers
N
boltuix
212
10
Vaani
Apache-2.0
基於 speechbrain/lang-id-commonlanguage_ecapa 的多語言音頻分類模型,支持5種印度語言識別
音頻分類 支持多種語言
V
panchajanya-ai
25
2
Dmind 1
MIT
DMind-1是基於Qwen3-32B打造的Web3專家模型,通過監督式指令微調與人類反饋強化學習專為Web3生態系統優化,在任務準確性、內容安全性和專家級交互對齊方面實現顯著提升。
大型語言模型 Transformers 支持多種語言
D
DMindAI
129
21
Sn29 Q1m4 Dx9i
這是一個在Hugging Face Hub上發佈的transformers模型,具體信息待補充。
大型語言模型 Transformers
S
mci29
1,797
1
Japanese Reranker Tiny V2
MIT
這是一個非常小巧且快速的日語重排序模型,適用於提升RAG系統的精度,在CPU或邊緣設備上也能高效運行。
文本嵌入 日語
J
hotchpotch
339
3
Japanese Reranker Xsmall V2
MIT
這是一個非常小巧且快速的日語重排序模型,適用於提升RAG系統的精度。
文本嵌入 日語
J
hotchpotch
260
1
Phi 4 Reasoning GGUF
MIT
Phi-4-reasoning是基於Phi-4微調的先進推理模型,通過監督微調與強化學習,在數學、科學和編碼等領域展現出卓越的推理能力。
大型語言模型 Transformers
P
unsloth
6,046
7
Treehop Rag
MIT
TreeHop是一個輕量級的嵌入級框架,用於高效處理多跳問答中的查詢嵌入生成與過濾,顯著降低計算開銷。
問答系統
T
allen-li1231
36
3
Qwen3 30B A3B FP8 Dynamic
基於Qwen/Qwen3-30B-A3B模型的FP8動態量化版本,優化了在安培架構顯卡上的推理效率
大型語言模型 Transformers
Q
khajaphysist
403
2
Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-Instruct的FP8量化版本,支持視覺-文本輸入和文本輸出,由Neural Magic優化發佈。
圖像生成文本 Transformers 英語
Q
parasail-ai
78
1
Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8
Apache-2.0
這是一個經過INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat和Neural Magic優化,適用於快速響應和低延遲場景。
Safetensors 支持多種語言
M
RedHatAI
833
2
Gemma 3 4b It Int8 Asym Ov
Apache-2.0
基於OpenVINO優化的Gemma 3 4B參數模型,支持文本到文本及視覺文本推理
圖像生成文本
G
Echo9Zulu
152
1
Faster Distil Whisper Large V3.5
MIT
Distil-Whisper是Whisper模型的蒸餾版本,針對自動語音識別(ASR)任務進行了優化,提供更快的推理速度。
語音識別 英語
F
Purfview
565
2
Mistral Small 3.1 24B Instruct 2503 FP8 Dynamic
Apache-2.0
這是一個基於Mistral3架構的24B參數條件生成模型,經過FP8動態量化優化,適用於多語言文本生成和視覺理解任務。
Safetensors 支持多種語言
M
RedHatAI
2,650
5
Faster Distil Whisper Large V3.5
MIT
基於Distil-Whisper large-v3.5轉換的CTranslate2格式模型,用於高效語音識別
語音識別 英語
F
deepdml
58.15k
2
Sana Sprint 1.6B 1024px
SANA-Sprint是超高效的文本生成圖像擴散模型,將推理步驟從20步縮減至1-4步的同時保持頂尖性能。
圖像生成 支持多種語言
S
Efficient-Large-Model
475
12
RWKV7 Goose World3 2.9B HF
Apache-2.0
RWKV-7模型採用閃存線性注意力格式,支持多語言文本生成任務,參數量達29億。
大型語言模型 支持多種語言
R
RWKV
132
7
Distil Large V3.5 Ct2
MIT
Distil-Whisper是Whisper模型的蒸餾版本,通過大規模偽標籤技術實現高效語音識別
語音識別 英語
D
distil-whisper
264
3
Canary 180m Flash
NVIDIA NeMo Canary Flash 是一個多語言多任務語音模型,支持英語、德語、法語和西班牙語的自動語音識別和翻譯任務。
語音識別 支持多種語言
C
nvidia
15.17k
60
Canary 1b Flash
NVIDIA NeMo Canary Flash 是一個多語言多任務模型家族,在多個語音基準測試中實現了最先進的性能。支持四種語言的自動語音識別和翻譯任務。
語音識別 支持多種語言
C
nvidia
125.22k
186
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一款輕量級開源多模態基礎模型,融合了Phi-3.5和4.0模型的語言、視覺及語音研究與數據集。支持文本、圖像和音頻輸入,生成文本輸出,並具備128K標記的上下文長度。
多模態融合 Transformers 支持多種語言
P
Robeeeeeeeeeee
21
1
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一個輕量級開源多模態基礎模型,支持文本、圖像和音頻輸入,生成文本輸出,具備128K標記的上下文長度。
多模態融合 Transformers 支持多種語言
P
mjtechguy
18
0
Pixtral 12b Quantized.w8a8
Apache-2.0
基於mgoin/pixtral-12b的INT8量化版本,支持視覺-文本多模態任務,優化了推理效率
圖像生成文本 Transformers 英語
P
RedHatAI
309
1
Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,支持視覺-文本輸入和文本輸出,通過INT8權重量化優化推理效率
圖像生成文本 Transformers 英語
Q
RedHatAI
1,992
3
Qwen2.5 VL 3B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-3B-Instruct的FP8量化版本,支持視覺-文本輸入和文本輸出,優化了推理效率。
文本生成圖像 Transformers 英語
Q
RedHatAI
112
1
Quickmt Zh En
一個速度快且準確度高的神經機器翻譯模型,用於中文到英文的翻譯
機器翻譯 支持多種語言
Q
quickmt
23
1
Mistral Small 24B Instruct 2501 AWQ
Apache-2.0
Mistral Small 3 (2501版本)是一個24B參數的指令微調大語言模型,在70B參數以下類別中樹立了新標杆,具有卓越的知識密度和多語言支持能力。
大型語言模型 Transformers 支持多種語言
M
stelterlab
52.55k
18
Yolo11n Cs2
基於YOLOv11的輕量級反恐精英2玩家檢測模型,適用於即時目標檢測場景
目標檢測
Y
Vombit
22
1
Mxbai Rerank Base V1
Apache-2.0
這是一個基於Transformers架構的重新排序(Reranker)模型,主要用於信息檢索和搜索結果優化任務。
Transformers 英語
M
khoj-ai
81
1
Lb Reranker 0.5B V1.0
Apache-2.0
LB重排序器是用於判斷查詢與文本片段相關性的模型,支持95+種語言,適用於檢索任務中的排序和重排序。
大型語言模型 Transformers 支持多種語言
L
lightblue
917
66
Whisper Large V3 Distil Multi7 V0.2
MIT
一個多語言蒸餾版Whisper模型,支持7種歐洲語言的自動語音識別,具有語碼轉換能力
語音識別 Transformers 支持多種語言
W
bofenghuang
119
1
Kljrklqejr 23 11 24
MIT
由OMEGA Labs與Bittensor合作開發的任意到任意轉換模型,專注於人工通用智能領域。
大型語言模型 其他
K
iekei
0
0
Bart Large Mnli Openvino
MIT
這是 facebook/bart-large-mnli 模型的 OpenVINO 優化版本,用於零樣本文本分類任務。
文本分類
B
Smashyalts
16
0
Vectorizer.guava
由Sinequa開發的向量化工具,能夠根據輸入的段落或查詢生成嵌入向量,用於句子相似度計算和檢索任務。
文本嵌入 PyTorch 支持多種語言
V
sinequa
204
1
Kotoba Whisper Bilingual V1.0
Apache-2.0
Kotoba-Whisper-Bilingual是通過蒸餾Whisper模型訓練而成的集合,專為日語和英語語音識別及語音到文本翻譯任務設計。
語音識別 Transformers 支持多種語言
K
kotoba-tech
782
13
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase