轻量级推理

# 轻量级推理

Baidu ERNIE 4.5 0.3B PT GGUF

基于百度ERNIE-4.5-0.3B-PT模型的量化版本，通过llama.cpp工具进行优化，减少模型大小并提升运行效率。

大型语言模型支持多种语言

Deepseek Ai DeepSeek R1 Distill Qwen 14B GGUF

DeepSeek-R1-Distill-Qwen-14B 是一个经过优化的14B参数规模的大语言模型，由DeepSeek AI发布，基于Qwen架构蒸馏而来，提供多种GGUF量化版本以提升性能。

大型语言模型

featherless-ai-quants

Devstral Small 2505 3bit

这是一个基于mistralai/Devstral-Small-2505模型转换的3位量化版本，适用于MLX框架，支持多语言文本生成任务。

大型语言模型支持多种语言

Phi 4 Mini Reasoning

Phi-4-mini-reasoning 是一个轻量级的开源模型，专注于数学推理任务，支持128K令牌的上下文长度。

大型语言模型

GLM 4 9B 0414 GGUF

GLM-4-9B-0414是GLM家族中的轻量级成员，拥有90亿参数，在数学推理和通用任务上表现出色，为资源受限场景提供了高效的解决方案。

大型语言模型支持多种语言

Qwen3 8B Q4 K M GGUF

这是Qwen3-8B模型的GGUF格式版本，适用于llama.cpp框架，支持文本生成任务。

大型语言模型

Phi 4 Mini Instruct.gguf

Phi-4-mini-instruct 是一个轻量级开源模型，专注于高质量、富含推理的数据，支持128K token的上下文长度。

大型语言模型其他

3b Zh Ft Research Release Q8 0 GGUF

本模型是基于canopylabs/3b-zh-ft-research_release转换而来的GGUF格式模型，适用于中文文本生成任务。

大型语言模型中文

Google Gemma 3 1b It Qat GGUF

基于Google Gemma 3B QAT权重的多种量化版本，适用于本地推理部署

大型语言模型

Google Gemma 3 12b It Qat GGUF

基于Google QAT（量化感知训练）权重量化的Gemma-3-12b模型，提供多种量化版本以适应不同硬件需求。

大型语言模型

3b Ko Ft Research Release Q4 K M GGUF

这是一个基于韩语优化的3B参数规模的语言模型，转换为GGUF格式以便与llama.cpp兼容使用。

大型语言模型韩语

Llama 4 Scout 17B 16E Instruct GGUF

Llama-4-Scout-17B-16E-Instruct-GGUF是一款基于Llama-4-Scout-17B-16E-Instruct模型的量化版本，支持多语言处理，适用于聊天和指令任务。

大型语言模型

Transformers 支持多种语言

GLM-4-9B-0414是GLM家族中的轻量级成员，拥有90亿参数规模，在数学推理和通用任务上展现出卓越能力，综合表现在同规模开源模型中名列前茅。

大型语言模型

Transformers 支持多种语言

Orpheus 3b 0.1 Ft Q8 0 GGUF

该模型是基于canopylabs/orpheus-3b-0.1-ft转换而来的GGUF格式模型，适用于文本生成任务。

大型语言模型英语

Orpheus 3b 0.1 Ft Q2 K.gguf

该模型是基于canopylabs/orpheus-3b-0.1-ft转换的GGUF格式模型，适用于文本生成任务。

大型语言模型英语

Orpheus 3b 0.1 Ft Q4 K M GGUF

该模型是基于canopylabs/orpheus-3b-0.1-ft转换而来的GGUF格式模型，适用于文本生成任务。

大型语言模型英语

Deepseek V3 5layer

DeepSeek-V3的5层简化开发版本，适用于轻量级任务和快速实验。

大型语言模型

基于潜在桥接匹配(LBM)技术的图像深度估计模型，通过潜在空间桥接实现快速图像转换

Gemma 3 4b It Abliterated GGUF

该模型是基于mlabonne/gemma-3-4b-it-abliterated转换的GGUF格式版本，适用于本地运行和推理。

大型语言模型

Gemma 3 1b It Abliterated GGUF

基于mlabonne/gemma-3-1b-it-abliterated转换的GGUF格式模型，适用于本地推理任务

大型语言模型

Orpheus 3b 0.1 Ft Q4 K M GGUF

Orpheus-3B-0.1-FT 的 GGUF 量化版本，适用于高效推理

大型语言模型英语

Gemma 3 4b It GGUF

该模型是通过llama.cpp从google/gemma-3-4b-it转换为GGUF格式的，适用于本地部署和推理。

大型语言模型

Orpheus 3b 0.1 Ft Q2 K GGUF

这是一个基于canopylabs/orpheus-3b-0.1-ft模型转换而来的GGUF格式模型，适用于文本生成任务。

大型语言模型英语

Mistral Small 3.1 24b Instruct 2503 Hf GGUF

这是一个基于mrfakename/mistral-small-3.1-24b-instruct-2503-hf模型的GGUF格式量化版本，适用于文本生成任务。

大型语言模型

Gemma 3 4b Pt Q4 0 GGUF

这是一个基于Google Gemma 3.4B参数模型转换的GGUF格式模型，适用于文本生成任务。

大型语言模型

Gemma 3 4b It Q4 K M GGUF

Gemma 3 4B 模型的 GGUF 量化版本，适用于本地推理

大型语言模型

Gemma 3 4b It GGUF

Gemma 3.4B IT 是 Google 发布的轻量级开源大语言模型，基于 3.4B 参数规模，适用于对话和指令跟随任务。

大型语言模型

Phi 4 Mini Instruct Abliterated

Phi-4-mini-instruct是基于合成数据和精选公开网站构建的轻量级开源模型，专注于高质量、强推理能力的数据。支持128K令牌上下文长度，通过监督微调和直接偏好优化进行增强，以确保精准的指令遵循和安全性。

大型语言模型

Transformers 支持多种语言

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型，融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入，生成文本输出，并具备128K token的上下文长度。

文本生成音频

Transformers 支持多种语言

Phi 4 Mini Instruct

Phi-4-mini-instruct是一个轻量级开源模型，基于合成数据和过滤后的公开网站数据构建，专注于高质量、富含推理能力的数据。支持128K令牌的上下文长度和多语言处理。

大型语言模型

Transformers 支持多种语言

Mistral Small 24B Instruct 2501 GGUF

Mistral-Small-24B-Instruct-2501的GGUF量化版本，适用于本地部署和文本生成任务。

大型语言模型

Selene 1 Mini Llama 3.1 8B Q6 K GGUF

基于AtlaAI/Selene-1-Mini-Llama-3.1-8B转换的GGUF格式模型，适用于文本生成任务，支持多种欧洲语言。

大型语言模型支持多种语言

Qwen2 VL 7B GGUF

Qwen2-VL-7B 是一个视觉语言模型，提供多种量化版本的 GGUF 格式模型文件，适用于 llama.cpp 使用。

文本生成图像

Transformers 英语

Llama 3.2 3B Instruct Abliterated GGUF

一个经过优化的量化模型，输出和嵌入张量使用f16格式，其余张量使用q5_k或q6_k格式，体积更小且性能与纯f16相当。

大型语言模型英语

Gemma 2 Baku 2b It

基于Gemma 2 Baku 2B的指令微调模型，优化了指令遵循能力，适用于自然语言处理任务。

大型语言模型

Transformers 日语

Llama 3.2 1B Instruct Q8 0 GGUF

这是Meta发布的Llama 3.2系列中的10亿参数指令微调模型，已转换为GGUF格式便于在llama.cpp中使用

大型语言模型支持多种语言

Llm Jp 3 1.8b Instruct

由日本国立情报学研究所开发的大语言模型，支持日语和英语，具备指令微调能力。

大型语言模型

Transformers 支持多种语言

T5 Large Q4 K M GGUF

本模型是google-t5/t5-large的GGUF格式转换版本，支持摘要生成、翻译等任务，适用于英语、法语、罗马尼亚语、德语等多种语言。

大型语言模型支持多种语言

Phi 3.5 Mini Instruct Uncensored GGUF

Phi-3.5-mini-instruct_Uncensored 是一个经过量化的语言模型，适用于多种硬件条件下的使用。

大型语言模型

Stable Diffusion V1 5 GGUF

Stable Diffusion v1.5 是一个文本到图像的生成模型，能够根据文本描述生成高质量的图像。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase