I

Idefics2 8b

由HuggingFaceM4開發
Idefics2 是一個開源的多模態模型,能夠接受任意序列的圖像和文本輸入並生成文本輸出。它在 OCR、文檔理解和視覺推理方面有顯著提升。
下載量 14.99k
發布時間 : 4/9/2024

模型概述

Idefics2 是一個多模態模型,能夠處理圖像和文本輸入並生成文本輸出。它可以回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事,或僅作為純語言模型使用。

模型特點

多模態處理能力
能夠接受任意序列的圖像和文本輸入並生成文本輸出。
OCR 能力提升
通過整合需要模型轉錄圖像或文檔中文本的數據,顯著提升了 OCR 能力。
原生分辨率處理
以原生分辨率(最高 980 x 980)和原生寬高比處理圖像,避免了傳統計算機視覺中將圖像調整為固定大小正方形的需求。
子圖像分割
允許(可選)子圖像分割和傳遞極高分辨率的圖像。

模型能力

圖像描述
視覺問答
文檔理解
視覺推理
文本生成

使用案例

視覺問答
回答關於圖像的問題
根據輸入的圖像和文本問題,生成準確的回答。
在 TextVQA 驗證集上達到 70.4 的準確率。
圖像描述
描述視覺內容
根據輸入的圖像生成詳細的描述文本。
文檔理解
回答文檔問題
根據輸入的文檔圖像和文本問題,生成準確的回答。
在 DocVQA 測試集上達到 67.3 的準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase