高效量化

# 高效量化

Helpingai Dhanishtha 2.0 Preview GGUF

基于HelpingAI的Dhanishtha-2.0-preview模型进行量化处理的多语言文本生成模型，支持推理、对话等多种场景。

大型语言模型

Transformers 支持多种语言

Baidu ERNIE 4.5 0.3B PT GGUF

基于百度ERNIE-4.5-0.3B-PT模型的量化版本，通过llama.cpp工具进行优化，减少模型大小并提升运行效率。

大型语言模型支持多种语言

Openthinker3 7B GGUF

OpenThinker3-7B-GGUF 是 open-thoughts/OpenThinker3-7B 的量化版本，专为高效推理优化，基于 Qwen/Qwen2.5-7B-Instruct 微调，在数学、代码和科学问题上表现优异。

大型语言模型

BAAI RoboBrain2.0 7B GGUF

这是BAAI的RoboBrain2.0-7B模型的量化版本，通过llama.cpp进行量化处理，提供多种量化类型以适应不同硬件需求。

大型语言模型

Sophosympatheia StrawberryLemonade L3 70B V1.0 GGUF

StrawberryLemonade-L3-70B-v1.0 是一个经过量化处理的大型语言模型，旨在在不同硬件条件下高效运行。

大型语言模型英语

Wan14bt2vfusionx Fp16 GGUF

Wan14BT2VFusionX 是一个文本到视频生成模型，支持通过 ComfyUI - GGUF 自定义节点进行视频生成。

Deepseek Ai DeepSeek R1 Distill Qwen 14B GGUF

DeepSeek-R1-Distill-Qwen-14B 是一个经过优化的14B参数规模的大语言模型，由DeepSeek AI发布，基于Qwen架构蒸馏而来，提供多种GGUF量化版本以提升性能。

大型语言模型

featherless-ai-quants

Medra27b I1 GGUF

Medra27B 的量化版本，提供多种量化类型，适用于文本生成、医疗人工智能等多个领域。

大型语言模型

Transformers 支持多种语言

Nvidia Llama 3.1 Nemotron Nano 4B V1.1 GGUF

基于NVIDIA Llama-3.1-Nemotron-Nano-4B-v1.1模型的量化版本，使用llama.cpp工具进行多种量化处理，适合在资源受限的环境中运行。

大型语言模型英语

Seed Coder 8B Instruct GGUF

该模型经过自行量化处理，输出和嵌入张量量化为f16格式，其余张量量化为q5_k或q6_k格式，体积更小且性能与纯f16相当。

大型语言模型英语

Andrewzh Absolute Zero Reasoner Coder 7b GGUF

基于andrewzh的Absolute_Zero_Reasoner-Coder-7b模型的Llamacpp量化版本，支持多种量化级别，适用于推理和代码生成任务。

大型语言模型

Qwen3-14B-AWQ是通义千问系列最新一代大语言模型的4-bit AWQ量化版本，支持思维模式与非思维模式无缝切换，具备强大的推理、指令遵循和智能体能力。

大型语言模型

Mlabonne Qwen3 4B Abliterated GGUF

Qwen3-4B-abliterated的量化版本，使用llama.cpp进行量化，支持多种量化类型，适用于文本生成任务。

大型语言模型

Qwen Qwen3 1.7B GGUF

基于Qwen/Qwen3-1.7B的量化版本，使用llama.cpp进行量化，支持多种量化类型，适用于文本生成任务。

大型语言模型

Dreamgen Lucid V1 Nemo GGUF

基于 dreamgen/lucid-v1-nemo 的量化模型，使用 llama.cpp 进行多种量化处理，适用于文本生成任务。

大型语言模型英语

3b Ko Ft Research Release Q4 K M GGUF

这是一个基于韩语优化的3B参数规模的语言模型，转换为GGUF格式以便与llama.cpp兼容使用。

大型语言模型韩语

Gemma 3 12b It GGUF

Gemma 3 12B 是一种大型语言模型，提供 GGUF 格式的量化版本，适用于本地部署和使用。

大型语言模型

EXAONE Deep 2.4B AWQ

EXAONE Deep系列模型在数学和编程等推理任务中表现出色，本模型为24亿参数的AWQ量化版本

大型语言模型

Transformers 支持多种语言

Thedrummer Gemmasutra Small 4B V1 GGUF

Gemmasutra-Small-4B-v1是一个4B参数的文本生成模型，基于llama.cpp进行量化，适用于多种量化版本选择。

大型语言模型

Internvl2 5 4B AWQ

InternVL2_5-4B-AWQ 是使用 autoawq 对 InternVL2_5-4B 进行 AWQ 量化的版本，支持多语言和多模态任务。

图像生成文本

Transformers 其他

Ozone Ai 0x Lite GGUF

基于ozone-ai/0x-lite模型的量化版本，支持中英文文本生成任务，采用llama.cpp进行imatrix量化，提供多种量化选项以适应不同硬件需求。

大型语言模型支持多种语言

Thedrummer Gemmasutra 9B V1.1 GGUF

这是一个基于TheDrummer/Gemmasutra-9B-v1.1模型的量化版本，使用llama.cpp进行量化处理，适用于文本生成任务。

大型语言模型

Mt0 Xxl Mt Q4 K M GGUF

该模型是从bigscience/mt0-xxl-mt通过llama.cpp转换为GGUF格式的多语言文本生成模型，支持多种语言任务。

大型语言模型支持多种语言

Summllama3.1 8B GGUF

基于Llama3架构优化的8B参数摘要生成模型，提供多种量化版本

大型语言模型

Granite Embedding 107m Multilingual GGUF

IBM Granite团队开发的多语言嵌入模型量化版本，支持17种语言的文本嵌入任务，适用于检索和信息提取等场景。

文本嵌入支持多种语言

Granite 8b Code Instruct 128k GGUF

IBM Granite 8B代码指令模型，支持128k上下文长度，专注于代码生成和指令理解任务。

大型语言模型

Transformers 其他

Qwen2.5 Coder 3B Instruct GGUF

基于Qwen2.5-Coder-3B-Instruct模型进行量化处理，为代码生成和对话交互提供了高效且便捷的解决方案。

大型语言模型

Transformers 支持多种语言

Nasiruddin15 Mistral Dolphin 2.8 Grok Instract 2 7B Slerp GGUF

这是一个基于Mistral架构的7B参数模型，经过量化优化，提供多种GGUF量化版本以适应不同硬件需求。

大型语言模型

featherless-ai-quants

Molmo 7B O Bnb 4bit

Molmo-7B-O的4bit量化版本，显著降低显存需求，适合资源有限的环境。

大型语言模型

Llama 3.2 1B Instruct GGUF

Llama-3.2-1B-Instruct的GGUF格式版本，提供更广泛的支持和更好的性能。

大型语言模型

FLUX.1 Schnell GGUF

FLUX.1-schnell 是一个高效的文本生成图像模型，基于扩散模型架构，支持英文文本输入生成高质量图像。

文本生成图像英语

Phi 3.5 Mini Instruct Uncensored GGUF

Phi-3.5-mini-instruct_Uncensored 是一个经过量化的语言模型，适用于多种硬件条件下的使用。

大型语言模型

FLUX.1 Schnell Quantized

FLUX.1-schnell的量化版本，基于文本生成图像的扩散模型，支持多种量化精度选择

文本生成图像英语

该模型是通过ggml.ai的GGUF-my-repo空间，使用llama.cpp从BAAI/bge-m3转换为GGUF格式的句子相似度模型。

Openchat 3.6 8b 20240522 IMat GGUF

这是对 openchat/openchat-3.6-8b-20240522 模型进行 Llama.cpp imatrix 量化处理后的版本，提供了不同量化类型的文件，方便用户根据需求下载和使用。

大型语言模型

Deepseek V2 Lite IMat GGUF

DeepSeek-V2-Lite 的 GGUF 量化版本，通过 Llama.cpp imatrix 量化处理，减少存储和计算资源需求，便于部署。

大型语言模型

Deepseek V2 Chat GGUF

DeepSeek-V2-Chat 的 GGUF 量化版本，适用于本地部署和运行。

大型语言模型支持多种语言

Chronos T5 Tiny

Chronos是基于语言模型架构的预训练时间序列预测模型家族，通过量化和缩放将时间序列转化为标记序列进行训练。

Chronos T5 Base

Chronos是基于语言模型架构的预训练时间序列预测模型家族，通过将时间序列转化为标记序列进行训练，实现概率预测。

Mixtral 8x7B V0.1 Turkish GGUF

基于特定土耳其语数据集微调的模型，能够以土耳其语准确回答信息，为土耳其语相关的文本生成任务提供了强大支持。

大型语言模型

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase