超低比特量化

# 超低比特量化

Holo1-3B是基于Transformer架构的多模态模型，专注于视觉文档检索任务，在WebVoyager基准测试中表现出色，平衡了准确性和成本。

图像生成文本

Transformers 英语

Holo1-7B GGUF模型是Surfer-H系统的一部分，适用于视觉文档检索等多模态任务，特别擅长网页交互和网络监控，能以较低成本实现高准确性。

图像生成文本

Transformers 英语

Devstral Small 2505 GGUF

专为软件工程项目打造的高效语言模型，轻量级设计，支持128k大上下文窗口，适用于复杂编码任务。

大型语言模型支持多种语言

Qwq 32B ArliAI RpR V4 GGUF

基于Qwen/QwQ-32B的文本生成模型，专注于角色扮演和创意写作任务，支持超低比特量化和长对话处理。

大型语言模型

Transformers 英语

Kanana 1.5 8b Instruct 2505 GGUF

Kanana 1.5 是 Kanana 模型系列的新版本，在编码、数学和函数调用能力方面有显著提升，能够处理长达32K个令牌的输入，使用YaRN时可处理多达128K个令牌。

大型语言模型

Transformers 支持多种语言

Medgemma 4b It GGUF

MedGemma-4B-IT是基于Gemma 3的医学领域多模态模型，支持医学文本和图像理解，适用于医疗AI应用开发。

图像生成文本

Medgemma 27b Text It GGUF

MedGemma-27B-Text-IT是基于Gemma 3架构的医疗专用大语言模型，针对医疗文本处理进行了优化，提供多种量化版本以适应不同硬件环境。

大型语言模型

Qwenlong L1 32B GGUF

QwenLong-L1-32B 是专为长上下文推理设计的大语言模型，通过强化学习训练，在多个长上下文问答基准测试中表现出色，能有效处理复杂的推理任务。

大型语言模型

Dans PersonalityEngine V1.3.0 24b GGUF

Dans-PersonalityEngine-V1.3.0-24b是一个多功能模型系列，在50多个专业数据集上进行了微调，支持多语言和专业领域任务。

大型语言模型

Qwen3 30B A6B 16 Extreme GGUF

基于Qwen/Qwen3-30B-A3B-Base生成的超低比特量化模型，支持32k上下文长度，适用于多种硬件环境

大型语言模型

Llama 3.1 Nemotron Nano 4B V1.1 GGUF

Llama-3.1-Nemotron-Nano-4B-v1.1是一款基于Llama 3.1优化的大语言模型，在准确性和效率间取得良好平衡，适用于AI代理、聊天机器人等多种场景。

大型语言模型

Transformers 英语

Opencodereasoning Nemotron 32B IOI GGUF

基于Qwen2.5-32B-Instruct的大语言模型，专为代码生成推理而进行了后训练，支持32K上下文长度，适用于商业和非商业用途。

大型语言模型

UI TARS 1.5 7B GGUF

UI-TARS-1.5-7B是基于先进技术的多模态模型，在图像文本转换等任务中表现出色，采用创新的量化方法，能在极低比特率下保持较高的准确性。

文本生成图像

Phi 4 Mini Reasoning GGUF

Phi-4-mini-reasoning 是一个基于合成数据构建的轻量级开放模型，专注于高质量、富含推理的数据，并针对更高级的数学推理能力进行了进一步微调。

大型语言模型

Foundation Sec 8B GGUF

Foundation-Sec-8B是一款专为网络安全应用设计的语言模型，基于Llama-3.1架构，经过大量网络安全相关文本数据的预训练，能够理解和处理多种网络安全领域的概念、术语和实践。

大型语言模型

Transformers 英语

Qwen3-14B是基于Qwen/Qwen3-14B-Base生成的GGUF格式模型，支持文本生成任务，采用IQ-DynamicGate超低比特量化技术优化内存效率。

大型语言模型

Qwen2.5 7B Instruct GGUF

Qwen2.5-7B-Instruct是基于Qwen2.5-7B的指令微调模型，支持文本生成任务，特别优化了聊天场景下的表现。

大型语言模型英语

Olympiccoder 7B GGUF

OlympicCoder-7B是基于Qwen2.5-Coder-7B-Instruct优化的代码生成模型，采用IQ-DynamicGate超低比特量化技术，专为内存受限环境设计。

大型语言模型英语

phi-2 是一个采用 IQ-DynamicGate 超低比特量化（1-2 比特）的文本生成模型，适用于自然语言处理和代码生成任务。

大型语言模型支持多种语言

GLM Z1 32B 0414 GGUF

GLM-Z1-32B-0414是一个32B参数规模的多语言文本生成模型，支持中文和英文，采用MIT许可证发布。

大型语言模型支持多种语言

GLM 4 32B 0414 GGUF

GLM-4-32B-0414 GGUF模型是一系列强大的文本生成模型，具有多种量化格式，适用于不同硬件和内存条件。

大型语言模型

Transformers 支持多种语言

Llama 3.1 Nemotron 70B Instruct HF GGUF

基于Meta Llama-3.1-70B-Instruct微调的模型，采用NVIDIA HelpSteer2数据集优化，支持文本生成任务。

大型语言模型英语

Orpheus 3b 0.1 Ft GGUF

基于Llama-3-8B架构优化的超低比特量化模型，采用IQ-DynamicGate技术实现1-2比特精度自适应量化，适用于内存受限环境。

大型语言模型英语

Olmo 2 0325 32B Instruct GGUF

基于OLMo-2-0325-32B-DPO的指令微调模型，采用IQ-DynamicGate超低比特量化技术，专为内存受限环境优化。

大型语言模型英语

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct 是一个多模态视觉语言模型，支持图像理解和文本生成任务。

图像生成文本英语

Llama 3.1 Nemotron Nano 8B V1 GGUF

基于Llama-3架构的8B参数模型，采用IQ-DynamicGate超低比特量化技术优化内存使用

大型语言模型英语

Granite 3.2 8b Instruct GGUF

IBM Granite系列8B参数指令微调语言模型，采用IQ-DynamicGate超低比特量化技术，适用于高效推理场景

大型语言模型

Mistral Small 3.1 24B Instruct 2503 GGUF

这是一个基于 Mistral-Small-3.1-24B-Base-2503 的指令微调模型，采用 GGUF 格式和 IQ-DynamicGate 超低比特量化技术。

大型语言模型支持多种语言

Qwen2.5 14B Instruct 1M GGUF

Qwen2.5-14B-Instruct-1M 是一个基于 Qwen2.5-14B 的指令微调模型，支持文本生成任务，适用于聊天场景。

大型语言模型英语

Mistral 7B Instruct V0.2 GGUF

Mistral-7B-Instruct-v0.2是基于Mistral-7B架构的指令微调模型，支持文本生成任务，采用IQ-DynamicGate超低比特量化技术优化内存效率。

大型语言模型

Mistral 7B Instruct V0.1 GGUF

Mistral-7B-Instruct-v0.1是一个基于Mistral-7B-v0.1的微调模型，支持文本生成任务，采用IQ-DynamicGate超低比特量化技术，适用于内存受限的部署环境。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase