轻量化部署

# 轻量化部署

Apollo2 7B GGUF

Apollo2-7B-GGUF 是 FreedomIntelligence/Apollo2-7B 的量化版本，支持多种语言的医学大语言模型应用。

大型语言模型支持多种语言

Qwen3 Embedding 8B 4bit DWQ

这是一个基于Qwen/Qwen3-Embedding-8B转换的4位DWQ量化版本，适用于MLX框架的嵌入模型。

PP OCRv4 Mobile Det

PP-OCRv4_mobile_det 是由 PaddleOCR 团队开发的针对移动设备优化的高效文本检测模型，适合边缘设备部署。

文字识别支持多种语言

Qwen.qwen3 Reranker 0.6B GGUF

Qwen3-Reranker-0.6B的量化版本，致力于让知识为每个人所用。

大型语言模型

PP OCRv5 Mobile Det

PP-OCRv5_mobile_det是PaddleOCR团队研发的最新一代轻量级文本检测模型，支持多语言、多场景下的高效文本检测。

文字识别支持多种语言

Qwen2.5 Omni 7B GGUF

Qwen2.5-Omni-7B-GGUF 是基于 Qwen2.5-Omni-7B 模型的 GGUF 格式版本，支持多模态输入，包括文本、音频和图像。

大型语言模型英语

Bytedance Seed.academic Ds 9B GGUF

本项目提供了academic-ds-9B的量化版本，旨在让知识为每个人所用。

大型语言模型

Nvidia.cosmos Reason1 7B GGUF

Cosmos-Reason1-7B是英伟达发布的7B参数规模的基础模型，专注于图文转文本任务。

大型语言模型

Unsloth.devstral Small 2505 GGUF

Devstral-Small-2505是一个基于Mistral架构的小型语言模型，支持文本生成任务，并可通过兼容的mmproj文件实现基础视觉功能。

文本生成图像

Devstral Small 2505 Bnb 4bit

Devstral是一款专为软件工程任务设计的智能大语言模型，由Mistral AI和All Hands AI合作开发，擅长代码库探索、多文件编辑和驱动软件工程代理。

大型语言模型

Safetensors 支持多种语言

Qwen2 VL OCR 2B Instruct GGUF

基于Qwen/Qwen2-VL-2B-Instruct微调的多模态模型，专为OCR、图像转文本、LaTeX数学求解及手写识别优化

图像生成文本支持多种语言

Llava 1.5 7b Hf Q4 K M GGUF

该模型是基于llava-hf/llava-1.5-7b-hf转换的GGUF格式模型，支持图像文本生成任务。

图像生成文本英语

Skywork Skywork OR1 7B GGUF

Skywork-OR1-7B 是一个 7B 参数规模的大语言模型，提供多种量化版本以适应不同硬件需求。

大型语言模型

ACE-Step-v1-3.5B是一个文本转音频模型，支持高质量音频生成，适用于音乐和声音效果创作。

Openvision Vit Tiny Patch8 384

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

Josiefied Qwen3 8B Abliterated V1 8bit

基于Qwen3-8B优化的8位量化版本，适用于MLX框架的高效推理

大型语言模型

Muyan TTS SFT Q8 0 GGUF

该模型是基于MYZY-AI/Muyan-TTS-SFT转换的GGUF格式文本转语音模型，支持中文语音合成。

Fdtn Ai.foundation Sec 8B GGUF

Foundation-Sec-8B 是一个基于 Transformer 架构的大型语言模型，专注于文本生成任务。

大型语言模型

Industry Project V2

基于Mistral架构优化的指令微调模型，适用于零样本分类任务

大型语言模型

Qwen3-4B的MNN模型4位量化版本，用于高效文本生成任务

大型语言模型英语

Gemma 3 12b It Qat Unsloth Bnb 4bit

Gemma 3是Google推出的轻量级、最先进的开放模型家族，基于与Gemini模型相同的研究和技术构建。支持多模态输入和文本输出。

图像生成文本

Gemma 3 12b It Qat

Gemma 3是谷歌推出的轻量级、最先进的多模态开源模型，能处理文本和图像输入并生成文本输出，适用于多种文本生成和图像理解任务。

图像生成文本

Huihui Ai.glm 4 9B 0414 Abliterated GGUF

GLM-4-9B-0414-abliterated 是一个基于 GLM 架构的 9B 参数规模的大型语言模型，适用于文本生成任务。

大型语言模型

Google.gemma 3 4b It Qat Int4 Unquantized GGUF

基于Gemma 3 4B的量化版本图像文本转文本模型，旨在让知识为大众所用

图像生成文本

Google.gemma 3 12b It Qat Int4 Unquantized GGUF

这是一个量化版本的Gemma模型，旨在通过量化技术实现知识的广泛共享。

大型语言模型

Llama 3.2 11B Vision Radiology Mini

这是一个基于Llama架构的多模态模型，支持视觉和文本指令，经过4位量化优化。

图像生成文本

Kimi VL A3B Thinking 8bit

Kimi-VL-A3B-Thinking-8bit 是一个基于 MLX 格式转换的多模态视觉语言模型，支持图像文本到文本的生成任务。

图像生成文本

Transformers 其他

GLM Z1 9B 0414 Q4 K M GGUF

本模型是THUDM/GLM-Z1-9B-0414的GGUF格式转换版本，支持中英文文本生成任务。

大型语言模型支持多种语言

Gemma 3 12b It Qat 8bit

基于Google Gemma 3 12B模型转换的8位量化版本，适用于图像文本到文本任务。

图像生成文本

Transformers 其他

Salesforce.llama Xlam 2 8b Fc R GGUF

Salesforce发布的8亿参数规模的Llama-xLAM-2模型量化版本，专注于文本生成任务

大型语言模型

Gemma 3 4b It Qat Compressed Tensors

Gemma 3 4B是基于Google技术的轻量级多模态模型，支持文本和图像输入，生成文本输出，适合资源有限环境部署。

图像生成文本

Gemma 3 4b It Abliterated Q4 0 GGUF

该模型是mlabonne/gemma-3-4b-it-abliterated的GGUF格式转换版本，结合了x-ray_alpha的视觉组件，提供更流畅的多模态体验。

图像生成文本

Gemma 3 4b It Qat Q4 0 Gguf

Gemma 3是谷歌推出的轻量级开源多模态模型家族，基于与Gemini相同技术构建，支持文本和图像输入并生成文本输出。

图像生成文本

Gemma 3 4b It Gguf

基于Google基础模型的文本或图文到文本生成模型，支持GGUF格式。

大型语言模型

Qwen2.5 VL 7B Instruct Q4 K M GGUF

这是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本，适用于多模态任务，支持图像和文本输入。

图像生成文本英语

Mxbai Rerank Large V2 GGUF

本仓库包含mixedbread-ai/mxbai-rerank-large-v2的GGUF格式模型文件，由TensorBlock提供的机器进行量化，兼容llama.cpp。

文本嵌入支持多种语言

Mistral Small 3.1 24B Instruct 2503 GGUF

Mistral-Small-3.1-24B-Instruct-2503 是一个24B参数规模的多语言指令微调模型，支持多种语言和任务，适用于文本生成和对话场景。

大型语言模型支持多种语言

Thedrummer Fallen Gemma3 4B V1 GGUF

这是一个基于TheDrummer/Fallen-Gemma3-4B-v1模型的量化版本，使用llama.cpp进行量化处理，适用于文本生成任务。

大型语言模型

Orpheus 3b 0.1 Ft Q8 0 GGUF

该模型是基于canopylabs/orpheus-3b-0.1-ft转换的GGUF格式模型，适用于文本生成任务。

大型语言模型英语

Gemma 3 27b It Abliterated Q4 K M GGUF

该模型是基于mlabonne/gemma-3-27b-it-abliterated转换的GGUF格式版本，适用于llama.cpp框架的推理任务。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase