低资源推理

# 低资源推理

Diffucoder 7B Cpgrpo 4bit

DiffuCoder-7B-cpGRPO-4bit 是一个基于苹果 DiffuCoder-7B-cpGRPO 模型转换而来的 4 位量化版本，专为 MLX 框架优化。

大型语言模型其他

Kimi Dev 72B GGUF

Kimi-Dev-72B的量化版本，采用先进的非线性最优量化和多头潜在注意力机制，减少存储和计算需求。

大型语言模型其他

Delta Vector Austral 24B Winton GGUF

Delta-Vector的Austral-24B-Winton模型的量化版本，使用llama.cpp工具进行量化处理，适用于不同硬件配置的高效运行。

大型语言模型英语

Acereason Nemotron 14B GGUF

AceReason-Nemotron-14B是一个通过强化学习训练的数学和代码推理模型，在多个数学和代码推理基准测试中表现出色。

大型语言模型

Motif 2.6B是一个拥有26亿参数的语言模型，在AMD Instinct™ MI250 GPU上从头开始训练，旨在构建符合人类价值观、有用且可靠的AI。

大型语言模型

Safetensors 支持多种语言

Motif-Technologies

Qwen3 235B A22B 4bit DWQ 053125

这是一个基于Qwen3-235B-A22B-8bit模型转换而来的4位量化版本，专为MLX框架优化，适用于文本生成任务。

大型语言模型

Phantom Wan 1.3B GGUF

这是一个将 bytedance-research/Phantom 直接转换为 GGUF 格式的项目，用于图像到视频的转换任务。

文本生成视频英语

Phantom Wan 1.3B GGUF

这是bytedance-research/Phantom模型的GGUF直接转换版本，可在ComfyUI中结合ComfyUI-GGUF自定义节点使用。

文本生成视频英语

Deepseek R1 0528 Qwen3 8B MLX 8bit

基于DeepSeek-R1-0528-Qwen3-8B模型的8位量化版本，专为苹果Silicon芯片优化，适用于文本生成任务。

大型语言模型

lmstudio-community

Llama 3.3 70b Instruct Deepseek Distilled GGUF

基于unsloth/Llama-3.3-70B-Instruct-bnb-4bit微调的多语言文本生成模型，支持英语、西班牙语、拉丁语、阿拉伯语和法语。

大型语言模型

Transformers 支持多种语言

Dans PersonalityEngine V1.3.0 24b Q4 K M GGUF

基于Mistral-Small-3.1-24B-Base-2503的多语言文本生成模型，支持10种语言，适用于角色扮演和对话场景

大型语言模型

Gemma 3 1b It Fast GUFF

针对低端硬件和纯CPU环境优化的量化版本，在资源限制下实现生产可用的推理就绪配置

大型语言模型

Llava 1.5 7b Hf Q4 K M GGUF

该模型是基于llava-hf/llava-1.5-7b-hf转换的GGUF格式模型，支持图像文本生成任务。

图像生成文本英语

Seed Coder 8B Reasoning Bf16 Q6 K GGUF

这是一个基于ByteDance-Seed/Seed-Coder-8B-Reasoning-bf16转换的GGUF格式模型，适用于代码生成和推理任务。

大型语言模型

Magtie V1 12B GGUF

MagTie-v1-12B的GGUF量化版本集合，通过mergekit工具合并预训练语言模型创建，适用于文本生成任务。

大型语言模型

Bielik 4.5B V3.0 Instruct GGUF

Bielik-4.5B-v3.0-Instruct-GGUF 是 SpeakLeash 发布的波兰语大语言模型，基于 Bielik-4.5B-v3.0-Instruct 转换的 GGUF 量化格式，适用于本地推理。

大型语言模型其他

Qwen3是通义千问系列大语言模型的最新迭代，提供稠密模型与混合专家（MoE）模型的完整套件。基于大规模训练，Qwen3在推理能力、指令遵循、智能体功能及多语言支持方面实现突破性进展。

大型语言模型

Qwen Qwen3 8B GGUF

Qwen3-8B的GGUF格式量化版本，由TensorBlock提供，兼容llama.cpp

大型语言模型

Nvidia OpenMath Nemotron 14B Kaggle GGUF

这是NVIDIA开源的14B参数数学大语言模型，经过llama.cpp量化处理，可在不同硬件条件下高效运行。

大型语言模型英语

Nousresearch DeepHermes 3 Llama 3 3B Preview GGUF

基于Llama-3-3B架构的指令微调模型，支持对话、推理和角色扮演等任务，适用于通用人工智能辅助场景。

大型语言模型英语

Llama 3 8B Instruct Abliterated TR

LLaMA-3-8B-Instruct的消融版本，通过特定技术手段强制模型用土耳其语响应

大型语言模型

Transformers 其他

Ring Lite Linear Preview

玲珑线性预览版是由InclusionAI开源发布的混合线性稀疏大语言模型，总参数量17.1B，激活参数量3.0B。该模型基于混合线性注意力机制实现长文本推理，在推理过程中具备近线性计算复杂度与近恒定空间复杂度。

大型语言模型支持多种语言

Zero Mistral 24B Gguf

Zero-Mistral-24B 是一个基于 Mistral 架构的大型语言模型，支持俄语和英语，适用于对话和文本生成任务。

大型语言模型支持多种语言

Deepseek R1 GGUF UD

DeepSeek-R1 是一个高效的大语言模型，采用了 Unsloth Dynamic v2.0 量化技术，实现了卓越的准确性。

大型语言模型英语

Orpheus 3b Kaya Q2 K.gguf

基于Canopy Labs预训练模型微调的文本转语音模型，支持英语，采用GGUF Q2_K量化格式实现高效推理

语音合成支持多种语言

Orpheus 3b Kaya Q4 K M.gguf

基于Canopy Labs预训练模型微调的文本转语音模型，量化后支持高效推理

语音合成支持多种语言

Orpheus 3b Kaya FP16.gguf

基于Canopy Labs预训练模型微调的文本转语音(TTS)模型，量化为GGUF FP16格式以实现高效推理

语音合成支持多种语言

Orpheus 3b Kaya Q8 0.gguf

基于Canopy Labs预训练模型微调的8位量化文本转语音模型，支持英语24kHz音频生成

语音合成支持多种语言

Google Gemma 3 27b It Qat GGUF

基于Google Gemma 3 270亿参数指令调优模型的量化版本，采用量化感知训练(QAT)权重生成，支持多种量化级别以适应不同硬件需求。

大型语言模型

Gemma 3 12b It GPTQ 4b 128g

该模型是对google/gemma-3-12b-it进行INT4量化的版本，通过GPTQ算法将参数从16比特降至4比特，显著减少了磁盘空间和GPU内存需求。

图像生成文本

3b Hi Ft Research Release Q4 K M GGUF

这是一个基于canopylabs/3b-hi-ft-research_release模型转换的GGUF格式模型，支持印地语文本处理。

大型语言模型其他

Phi 4 Mini Instruct 8da4w

Phi-4-mini 是由 PyTorch 团队开发的量化语言模型，采用8位嵌入和8位动态激活，以及4位权重线性层（8da4w）的量化方案，适合移动端部署。

大型语言模型

Transformers 其他

Meta Llama Llama 4 Scout 17B 16E Instruct Old GGUF

Llama-4-Scout-17B-16E-Instruct是Meta发布的17B参数指令微调大语言模型，经过量化处理以提高运行效率

大型语言模型支持多种语言

Gemma 3 4b It Abliterated Q4 0 GGUF

该模型是mlabonne/gemma-3-4b-it-abliterated的GGUF格式转换版本，结合了x-ray_alpha的视觉组件，提供更流畅的多模态体验。

图像生成文本

Gemma 3 4b It Q4 0

Gemma 3 4B Instruct 是 Google 开发的一个 40 亿参数的大语言模型，专注于文本生成和理解任务。

大型语言模型

Doge 120M MoE Instruct

Doge模型采用动态掩码注意力机制进行序列转换，并可使用多层感知机或跨域专家混合进行状态转换。

大型语言模型

Transformers 英语

Bge Reranker Base Q4 K M GGUF

基于BAAI/bge-reranker-base模型转换的GGUF格式重排序模型，支持中英文文本排序任务

文本嵌入支持多种语言

Turkish Llama 3 8B Function Calling GGUF

这是一个基于Turkish-Llama-8b-DPO-v0.1模型微调的土耳其语函数调用模型，专门用于执行土耳其语的函数调用任务。

大型语言模型

Transformers 支持多种语言

Qwen2.5 VL 7B Instruct Q8 0 GGUF

该模型是基于Qwen2.5-VL-7B-Instruct转换的GGUF格式模型，支持多模态任务，适用于图像和文本的交互处理。

文本生成图像英语

Qwen2.5 VL 7B Instruct Q4 K M GGUF

这是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本，适用于多模态任务，支持图像和文本输入。

图像生成文本英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase