I

Internvl3 38B FP8 Dynamic

由ConfidentialMind開發
這是 OpenGVLab/InternVL3-38B 的 FP8 靜態量化版本,針對使用 vLLM 進行高性能推理進行了優化,在視覺語言任務上實現了約 2 倍的加速,同時精度損失極小。
下載量 5,173
發布時間 : 5/31/2025

模型概述

一個優化後的視覺語言模型,通過 FP8 靜態量化實現高性能推理,適用於多模態任務。

模型特點

FP8 靜態量化
通過預計算的激活尺度實現最大推理性能
視覺語言優化
專門的量化方法,保留了視覺理解能力
支持 vLLM
可與 vLLM 無縫集成,便於生產部署
內存高效
與原始的 FP16 版本相比,內存使用減少約 50%
性能提升
在 H100/L40S GPU 上推理速度最高可提升 2 倍

模型能力

圖像理解
文本生成
視覺問答
多模態推理

使用案例

生產環境服務
即時圖像分析
用於需要高吞吐量的視覺語言模型服務
約 2 倍的推理速度提升
文檔處理
文檔 AI 和 OCR
處理包含圖像和文本的文檔
交互應用
多模態聊天機器人
構建能夠理解圖像和文本的虛擬助手
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase