I

Internvl3 8B Hf

由OpenGVLab開發
InternVL3 是一個先進的多模態大語言模型系列,具備強大的多模態感知和推理能力,支持圖像、視頻和文本輸入。
下載量 454
發布時間 : 4/18/2025

模型概述

InternVL3 是 OpenGVLab 推出的多模態大語言模型,展現出卓越的綜合性能。相比前代版本,它具備更強大的多模態感知和推理能力,並擴展了工具使用、GUI 代理、工業圖像分析、3D 視覺感知等能力。

模型特點

多模態能力
支持圖像、視頻和文本輸入,具備強大的多模態感知和推理能力。
擴展功能
除了基礎的多模態能力,還支持工具使用、GUI 代理、工業圖像分析、3D 視覺感知等擴展功能。
批量處理
支持圖像和文本輸入的批量處理,提高推理效率。
原生 Transformers 實現
作為原生 Transformers 模型,支持核心庫功能,如多種注意力實現(包括 SDPA 和 FA2)。

模型能力

圖像描述生成
視頻內容理解
多模態對話
文本生成
多語言支持
批量推理

使用案例

內容理解與生成
圖像描述
根據輸入圖像生成詳細描述
生成包含細節的自然語言描述
視頻分析
理解視頻內容並回答問題
準確識別視頻中的動作和場景
創意內容生成
詩歌創作
根據圖像或純文本提示生成詩歌
生成符合主題的創意文本
工業應用
工業圖像分析
分析工業場景中的圖像
識別工業場景中的特定對象和狀態
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase