I

Idefics2 8b Base

由HuggingFaceM4開發
Idefics2 是 Hugging Face 開發的開源多模態模型,能夠處理圖像和文本輸入並生成文本輸出,在 OCR、文檔理解和視覺推理方面表現優異。
下載量 1,409
發布時間 : 4/9/2024

模型概述

Idefics2 是一個多模態模型,可以接受任意序列的圖像和文本輸入,並生成文本輸出。它能夠回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事,也可以作為純語言模型使用。

模型特點

多模態處理能力
能夠同時處理圖像和文本輸入,並生成連貫的文本輸出
原生分辨率支持
遵循 NaViT 策略,以原生分辨率和寬高比處理圖像(最高 980 x 980)
高分辨率圖像分割
可選地支持子圖像分割,可處理非常高分辨率的圖像
增強的OCR能力
通過專門訓練顯著提升了文本識別和文檔理解能力

模型能力

圖像描述
視覺問答
多圖像故事創作
文檔理解
圖表分析
純文本語言模型

使用案例

教育
數學問題解答
基於圖像中的數學問題提供解答
在數學相關測試集上表現優異
內容創作
多圖像故事創作
基於多張相關圖像生成連貫的故事
文檔處理
文檔內容理解
識別和理解掃描文檔中的內容和結構
在DocVQA測試集上達到74.0分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase