Q

Qwen3 235B A22B FP8 Dynamic

由 RedHatAI 开发
Qwen3-235B-A22B模型的FP8量化版本,有效降低GPU内存需求,提高计算吞吐量,适用于多种自然语言处理场景。
下载量 2,198
发布时间 : 5/4/2025

模型简介

本模型是对Qwen3-235B-A22B模型进行FP8量化后的版本,能有效降低GPU内存需求,提高计算吞吐量,可用于推理、函数调用等多种自然语言处理场景。

模型特点

FP8量化
对激活和权重进行FP8量化,减少GPU内存需求约50%,提高矩阵乘法计算吞吐量约2倍,磁盘大小需求减少约50%。
高效部署
支持使用vLLM后端高效部署,兼容OpenAI服务。
高性能
在多个基准测试中表现优异,准确率恢复率接近100%。

模型能力

文本生成
函数调用
多语言指令跟随
翻译

使用案例

自然语言处理
推理
用于生成文本、回答问题等推理任务。
函数调用
支持函数调用功能,可用于构建复杂的应用。
翻译
支持多语言翻译任务。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase