高效推理

# 高效推理

Diffucoder 7B Cpgrpo 8bit

DiffuCoder-7B-cpGRPO-8bit是一個轉換為MLX格式的代碼生成模型，基於apple/DiffuCoder-7B-cpGRPO轉換而來，專為開發者提供高效的代碼生成工具。

大型語言模型其他

ERNIE 4.5 21B A3B PT 8bit

ERNIE-4.5-21B-A3B-PT-8bit 是百度 ERNIE-4.5-21B-A3B-PT 模型的 8 位量化版本，轉換為 MLX 格式，適用於蘋果芯片設備。

大型語言模型支持多種語言

Qwen Qwen2.5 Coder 1.5B GGUF

Qwen2.5-Coder-1.5B的GGUF量化版本，針對代碼生成任務優化，提供多種量化選項以平衡性能與資源消耗。

大型語言模型

featherless-ai-quants

這是chandar-lab/NeoBERT模型的靜態量化版本，旨在減少模型存儲空間和計算資源需求。

大型語言模型

Transformers 英語

Josiefied Qwen3 30B A3B Abliterated V2 4bit

這是一個基於Qwen3-30B模型轉換而來的4位量化版本，適用於MLX框架的文本生成任務。

大型語言模型

Huihui Ai.magistral Small 2506 Abliterated GGUF

慧慧AI量化模型是Magistral-Small-2506-abliterated的量化版本，致力於讓知識為每個人所用。

大型語言模型

一個經過量化的文本生成模型，輸出和嵌入張量採用f16格式，其餘張量採用q5_k或q6_k量化，體積更小且性能與純f16版本持平。

大型語言模型英語

Apriel Nemotron 15b Thinker GGUF

Apriel-Nemotron-15b-Thinker是一款強大的推理模型，在同規模模型中表現出色，具有高效的內存使用和優秀的推理能力，適用於多種企業和學術場景。

大型語言模型

Wan2.1 14B T2V FusionX GGUF

這是一個文本轉視頻的量化模型，支持將文本描述轉換為視頻內容，並經過GGUF量化處理以提升推理效率。

文本生成視頻英語

SLANet_plus是一款用於表格結構識別的模型，能夠將不可編輯的表格圖像轉換為可編輯的表格格式（如HTML），在表格識別系統中發揮著重要作用，可有效提升表格識別的準確性和效率。

文字識別支持多種語言

Qwen.qwen3 Reranker 0.6B GGUF

Qwen3-Reranker-0.6B的量化版本，致力於讓知識為每個人所用。

大型語言模型

MiniCPM4-MCP是一款開源的端側大語言模型智能體模型，基於80億參數的MiniCPM-4構建，能夠通過MCP與各種工具和數據資源交互，解決廣泛的現實世界任務。

大型語言模型

Transformers 支持多種語言

Gemma 3 27b It Quantized.w4a16

這是google/gemma-3-27b-it的量化版本，支持視覺-文本輸入和文本輸出，通過權重量化和激活量化優化，可使用vLLM進行高效推理。

圖像生成文本

Fpham Sydney Overthinker 13b HF GGUF

該項目提供了優化後的GGUF量化文件，可顯著提升模型性能。這些量化文件由Featherless AI提供支持，用戶只需支付少量費用，即可運行任意所需模型。

大型語言模型

featherless-ai-quants

Deepseek R1 0528 GPTQ Int4 Int8Mix Compact

DeepSeek-R1-0528模型的GPTQ量化版本，採用Int4 + 選擇性Int8的量化方案，在保證生成質量的同時減小文件大小。

大型語言模型

Qwen2 Audio 7B Instruct I1 GGUF

Qwen2-Audio-7B-Instruct的加權/矩陣量化模型，支持英文音頻文本轉文本任務

文本生成音頻

Transformers 英語

Deepseek R1 0528 Qwen3 8B AWQ 4bit

DeepSeek-R1-0528-Qwen3-8B的AWQ量化版本，適用於特定場景下的高效推理。

大型語言模型

Qvikhr 3 1.7B Instruction Noreasoning

QVikhr-3-1.7B-Instruction-noreasoning 是一個基於 Qwen/Qwen3-1.7B 的指令模型，在俄語數據集 GrandMaster2 上進行訓練，專為高效處理俄語和英語文本而設計。

大型語言模型

Deepseek R1 0528 Qwen3 8B MLX 4bit

由DeepSeek AI開發的大語言模型，經過4位量化優化，適用於蘋果芯片設備。

大型語言模型

lmstudio-community

Llm Jp 3.1 1.8b Instruct4

由日本國立情報學研究所開發的大語言模型，基於LLM-jp-3構建，通過指令預訓練技術顯著提升了遵循指令的能力。

大型語言模型

Transformers 支持多種語言

Llm Jp 3.1 1.8b

LLM-jp-3.1-1.8b是由日本國立情報學研究所開發的大語言模型，基於LLM-jp-3系列，融入指令預訓練增強指令遵循能力。

大型語言模型

Transformers 支持多種語言

Dmindai.dmind 1 GGUF

DMind-1 是一個文本生成基礎模型，致力於讓知識自由傳播。

大型語言模型

Dmindai.dmind 1 Mini GGUF

DMind-1-mini 是一個輕量級的文本生成模型，適用於多種自然語言處理任務。

Devstral Small 2505 GGUF

Devstral-Small-2505的量化版本，提供多種精度選擇以適應不同硬件需求

大型語言模型支持多種語言

Bytedance Seed.academic Ds 9B GGUF

本項目提供了academic-ds-9B的量化版本，旨在讓知識為每個人所用。

大型語言模型

Google.medgemma 27b Text It GGUF

MedGemma-27B-Text-IT 是 Google 開發的一個大型語言模型，專注於醫療領域的文本生成任務。

大型語言模型

Devstral Small 2505 MLX 4bit

由mistralai開發的Devstral-Small-2505模型，經過MLX 4位量化優化，適用於Apple Silicon設備。

大型語言模型支持多種語言

lmstudio-community

Facebook KernelLLM GGUF

KernelLLM是Facebook開發的大語言模型，此版本為使用llama.cpp工具進行imatrix量化的版本，提供多種量化選項以適應不同硬件需求。

大型語言模型

A M Team AM Thinking V1 GGUF

基於a-m-team/AM-Thinking-v1模型的Llamacpp imatrix量化版本，支持多種量化類型，適用於文本生成任務。

大型語言模型

Vintern 1B V3 5 GGUF Ext

Vintern-1B-v3_5是一個10億參數的視覺語言模型，支持圖像文本生成任務。

文本生成圖像

Sam Reason S2.1 GGUF

Sam-reason-S2.1的靜態量化版本，提供多種量化選項以適應不同硬件需求

大型語言模型英語

Tngtech.deepseek R1T Chimera GGUF

DeepSeek-R1T-Chimera 是一個文本生成模型，基於 tngtech 的技術開發，專注於高效的自然語言處理任務。

大型語言模型

Thedrummer Snowpiercer 15B V1 GGUF

基於TheDrummer/Snowpiercer-15B-v1模型的量化版本，使用llama.cpp進行量化，適用於文本生成任務。

大型語言模型

Mellum 4b Sft Rust GGUF

專為Rust代碼中間填充(FIM)任務微調的大語言模型，基於JetBrains/Mellum-4b-base構建

大型語言模型支持多種語言

靈曦是由InclusionAI開源的大規模混合專家語言模型，精簡版擁有168億總參數與27.5億激活參數，展現出卓越性能表現。

大型語言模型

這是一個在Hugging Face Hub上發佈的transformers模型，具體功能和用途待補充。

大型語言模型

Apriel Nemotron 15b Thinker

ServiceNow推出的150億參數高效推理模型，內存佔用僅為同類先進模型的一半

大型語言模型

Qwen3 30B A3B 4bit DWQ

這是一個基於Qwen3-30B-A3B模型的4位量化版本，通過從6位量化蒸餾至4位定製的DWQ量化技術製作，適用於文本生成任務。

大型語言模型

Qwen3 30B A3B FP8 Dynamic

Qwen3-30B-A3B-FP8-dynamic是基於Qwen3-30B-A3B模型通過FP8量化優化的版本，顯著降低了內存需求和計算成本，同時保持了原始模型的高準確率。

大型語言模型

Qwen3-8B-AWQ是通義千問系列最新一代8.2B參數的大語言模型，採用AWQ 4-bit量化技術優化推理效率。支持思維與非思維模式切換，具備卓越的推理、指令遵循和智能體能力。

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase