轻量化推理

# 轻量化推理

Echelon AI Med Qwen2 7B GGUF

该项目提供了Echelon-AI/Med-Qwen2-7B模型的GGUF量化文件，由Featherless AI提供支持，旨在增强模型性能并降低运行成本。

大型语言模型

featherless-ai-quants

Magma-8B是一个基于GGUF格式的图像文本到文本转换模型，适用于多模态任务处理。

图像生成文本

Qwen3 1.7B GGUF

Qwen3是通义千问系列大语言模型的最新版本，提供了一系列密集型和混合专家（MoE）模型。基于大规模训练，Qwen3在推理、指令遵循、智能体能力和多语言支持方面实现了突破性进展。

大型语言模型英语

Qwen3 0.6B GGUF

Qwen3是通义千问系列大语言模型的最新版本，提供了一系列密集型和混合专家（MoE）模型。基于大规模训练，Qwen3在推理能力、指令遵循、智能体功能和多语言支持方面实现了突破性进展。

大型语言模型英语

Kimi VL A3B Thinking 6bit

Kimi-VL-A3B-Thinking-6bit 是一个基于 MLX 格式转换的多语言视觉语言模型，支持图像文本到文本的任务。

图像生成文本

Transformers 其他

Zhaav Gemma3 4B

基于Gemma 3架构微调的波斯语专用模型，使用QLoRA 4位量化技术，适合普通硬件运行。

大型语言模型其他

Arrowmint Gemma3 4B YUKI V0.1

专为AI虚拟主播（AI VTuber）对话优化的日语语言模型，基于Google的gemma-3-4b-it开发

大型语言模型支持多种语言

Bge Reranker V2 M3 Q5 K M GGUF

该模型是通过ggml.ai的GGUF-my-repo空间，使用llama.cpp从BAAI/bge-reranker-v2-m3转换而来的GGUF格式模型，主要用于文本分类任务。

文本嵌入其他

Rank Zephyr 7b V1 Full GGUF

这是castorini/rank_zephyr_7b_v1_full模型的GGUF量化版本，适用于文本排序任务。

大型语言模型英语

USER Bge M3 Q8 0 GGUF

该模型是从deepvk/USER-bge-m3转换而来的GGUF格式模型，主要用于句子相似度和特征提取任务。

文本嵌入其他

Flan T5 Base Q4 K M GGUF

该模型是基于Google的flan-t5-base模型转换而来的GGUF格式版本，支持多种语言和任务，适用于文本生成和推理任务。

大型语言模型支持多种语言

3danimationdiffusion V10 GGUF

一个基于稳定扩散技术的3D动画风格文本生成图像模型，支持生成迪士尼、动漫风格的3D图像。

图像生成英语

USER Bge M3 Q4 K M GGUF

该模型是从deepvk/USER-bge-m3转换而来的GGUF格式模型，主要用于句子相似度计算和特征提取。

文本嵌入其他

Robbert 2022 Dutch Sentence Transformers Onnx

荷兰法医研究所RobBERT-2022荷兰语句嵌入模型的ONNX版本，专为高速和轻量化性能优化。

Faster Whisper Large V2

这是OpenAI Whisper large-v2模型的CTranslate2转换版本，用于高效语音识别

语音识别支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase