低延遲推理

# 低延遲推理

Phi Mini MoE Instruct GGUF

Phi-mini-MoE是一個輕量級的專家混合（MoE）模型，適用於英語的商業和研究場景，在資源受限環境和低延遲場景中表現出色。

大型語言模型英語

Arch Router 1.5B.gguf

Arch-Router是一個1.5B參數的偏好對齊路由框架模型，用於將查詢映射到領域-操作偏好以進行模型路由決策。

大型語言模型

Transformers 英語

Sarvam Finetune

這是一個發佈在Hub上的transformers模型，具體功能和詳細信息待補充。

大型語言模型

Unlearn Tofu Llama 3.2 1B Instruct Forget10 SimNPO Lr1e 05 B4.5 A1 D0 G0.25 Ep5

這是一個已上傳到 Hugging Face Hub 的 transformers 模型，具體信息待補充。

大型語言模型

open-unlearning

Qwen3 14b Ug40 Pretrained

這是一個自動生成的transformers模型卡片，缺少具體模型信息。

大型語言模型

NeuroBERT-Mini 是從 google/bert-base-uncased 衍生的輕量級自然語言處理模型，專為邊緣和物聯網設備的即時推理優化。

大型語言模型

基於 speechbrain/lang-id-commonlanguage_ecapa 的多語言音頻分類模型，支持5種印度語言識別

音頻分類支持多種語言

DMind-1是基於Qwen3-32B打造的Web3專家模型，通過監督式指令微調與人類反饋強化學習專為Web3生態系統優化，在任務準確性、內容安全性和專家級交互對齊方面實現顯著提升。

大型語言模型

Transformers 支持多種語言

這是一個在Hugging Face Hub上發佈的transformers模型，具體信息待補充。

大型語言模型

Japanese Reranker Tiny V2

這是一個非常小巧且快速的日語重排序模型，適用於提升RAG系統的精度，在CPU或邊緣設備上也能高效運行。

文本嵌入日語

Japanese Reranker Xsmall V2

這是一個非常小巧且快速的日語重排序模型，適用於提升RAG系統的精度。

文本嵌入日語

Phi 4 Reasoning GGUF

Phi-4-reasoning是基於Phi-4微調的先進推理模型，通過監督微調與強化學習，在數學、科學和編碼等領域展現出卓越的推理能力。

大型語言模型

TreeHop是一個輕量級的嵌入級框架，用於高效處理多跳問答中的查詢嵌入生成與過濾，顯著降低計算開銷。

Qwen3 30B A3B FP8 Dynamic

基於Qwen/Qwen3-30B-A3B模型的FP8動態量化版本，優化了在安培架構顯卡上的推理效率

大型語言模型

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-Instruct的FP8量化版本，支持視覺-文本輸入和文本輸出，由Neural Magic優化發佈。

圖像生成文本

Transformers 英語

Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8

這是一個經過INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat和Neural Magic優化，適用於快速響應和低延遲場景。

Safetensors 支持多種語言

Gemma 3 4b It Int8 Asym Ov

基於OpenVINO優化的Gemma 3 4B參數模型，支持文本到文本及視覺文本推理

圖像生成文本

Faster Distil Whisper Large V3.5

Distil-Whisper是Whisper模型的蒸餾版本，針對自動語音識別(ASR)任務進行了優化，提供更快的推理速度。

語音識別英語

Mistral Small 3.1 24B Instruct 2503 FP8 Dynamic

這是一個基於Mistral3架構的24B參數條件生成模型，經過FP8動態量化優化，適用於多語言文本生成和視覺理解任務。

Safetensors 支持多種語言

Faster Distil Whisper Large V3.5

基於Distil-Whisper large-v3.5轉換的CTranslate2格式模型，用於高效語音識別

語音識別英語

Sana Sprint 1.6B 1024px

SANA-Sprint是超高效的文本生成圖像擴散模型，將推理步驟從20步縮減至1-4步的同時保持頂尖性能。

圖像生成支持多種語言

Efficient-Large-Model

RWKV7 Goose World3 2.9B HF

RWKV-7模型採用閃存線性注意力格式，支持多語言文本生成任務，參數量達29億。

大型語言模型支持多種語言

Distil Large V3.5 Ct2

Distil-Whisper是Whisper模型的蒸餾版本，通過大規模偽標籤技術實現高效語音識別

語音識別英語

Canary 180m Flash

NVIDIA NeMo Canary Flash 是一個多語言多任務語音模型，支持英語、德語、法語和西班牙語的自動語音識別和翻譯任務。

語音識別支持多種語言

Canary 1b Flash

NVIDIA NeMo Canary Flash 是一個多語言多任務模型家族，在多個語音基準測試中實現了最先進的性能。支持四種語言的自動語音識別和翻譯任務。

語音識別支持多種語言

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款輕量級開源多模態基礎模型，融合了Phi-3.5和4.0模型的語言、視覺及語音研究與數據集。支持文本、圖像和音頻輸入，生成文本輸出，並具備128K標記的上下文長度。

多模態融合

Transformers 支持多種語言

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一個輕量級開源多模態基礎模型，支持文本、圖像和音頻輸入，生成文本輸出，具備128K標記的上下文長度。

多模態融合

Transformers 支持多種語言

Pixtral 12b Quantized.w8a8

基於mgoin/pixtral-12b的INT8量化版本，支持視覺-文本多模態任務，優化了推理效率

圖像生成文本

Transformers 英語

Qwen2.5 VL 7B Instruct Quantized.w8a8

Qwen2.5-VL-7B-Instruct的量化版本，支持視覺-文本輸入和文本輸出，通過INT8權重量化優化推理效率

圖像生成文本

Transformers 英語

Qwen2.5 VL 3B Instruct FP8 Dynamic

Qwen2.5-VL-3B-Instruct的FP8量化版本，支持視覺-文本輸入和文本輸出，優化了推理效率。

文本生成圖像

Transformers 英語

一個速度快且準確度高的神經機器翻譯模型，用於中文到英文的翻譯

機器翻譯支持多種語言

Mistral Small 24B Instruct 2501 AWQ

Mistral Small 3 (2501版本)是一個24B參數的指令微調大語言模型，在70B參數以下類別中樹立了新標杆，具有卓越的知識密度和多語言支持能力。

大型語言模型

Transformers 支持多種語言

基於YOLOv11的輕量級反恐精英2玩家檢測模型，適用於即時目標檢測場景

Mxbai Rerank Base V1

這是一個基於Transformers架構的重新排序(Reranker)模型，主要用於信息檢索和搜索結果優化任務。

Transformers 英語

Lb Reranker 0.5B V1.0

LB重排序器是用於判斷查詢與文本片段相關性的模型，支持95+種語言，適用於檢索任務中的排序和重排序。

大型語言模型

Transformers 支持多種語言

Whisper Large V3 Distil Multi7 V0.2

一個多語言蒸餾版Whisper模型，支持7種歐洲語言的自動語音識別，具有語碼轉換能力

Transformers 支持多種語言

Kljrklqejr 23 11 24

由OMEGA Labs與Bittensor合作開發的任意到任意轉換模型，專注於人工通用智能領域。

大型語言模型其他

Bart Large Mnli Openvino

這是 facebook/bart-large-mnli 模型的 OpenVINO 優化版本，用於零樣本文本分類任務。

Vectorizer.guava

由Sinequa開發的向量化工具，能夠根據輸入的段落或查詢生成嵌入向量，用於句子相似度計算和檢索任務。

PyTorch 支持多種語言

Kotoba Whisper Bilingual V1.0

Kotoba-Whisper-Bilingual是通過蒸餾Whisper模型訓練而成的集合，專為日語和英語語音識別及語音到文本翻譯任務設計。

Transformers 支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase