QWQ-32B-FP8开源AI模型 - 免费部署，高速推理还能保持高准确率

Home

QWQ 32B FP8

Developed by qingcheng-ai

QwQ-32B-FP8 是 QwQ-32B 模型的 FP8 量化版本，保持了与 BF16 版本几乎相同的准确率，同时支持更快的推理速度。

大型语言模型

Transformers

Open Source License:Apache-2.0 #FP8量化 #高效推理 #MMLU基准

Downloads 144

Release Time : 3/21/2025

Model Overview

FP8 量化版本的 QwQ-32B 模型，适用于高效推理任务，性能与原始 BF16 版本相当。

Model Features

高效推理

FP8 量化版本在保持与 BF16 版本相同准确率的同时，支持更快的推理速度。

高性能

在 MMLU 基准测试中表现优异，与原始 BF16 版本得分相同。

轻量化

通过 FP8 量化技术减少模型体积，适合资源有限的环境。

Model Capabilities

文本生成

高效推理

Use Cases

自然语言处理

问答系统

可用于构建高性能问答系统，处理复杂查询。

在 MMLU 基准测试中得分 61.2，表现优异。

文本生成

适用于各种文本生成任务，如内容创作、摘要生成等。

数据格式	MMLU分数
BF16官方版	61.2
FP8量化版	61.2
Q8_0 (INT8)	59.1
AWQ (INT4)	53.4

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

QWQ 32B FP8

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 FP8量化QwQ - 32B模型

🚀 快速开始

✨ 主要特性

📚 详细文档

模型描述

评估结果

📄 许可证

📞 联系我们