I

Idefics2 8b Base

Developed by HuggingFaceM4
Idefics2 是 Hugging Face 開發的開源多模態模型,能夠處理圖像和文本輸入並生成文本輸出,在 OCR、文檔理解和視覺推理方面表現優異。
Downloads 1,409
Release Time : 4/9/2024

Model Overview

Idefics2 是一個多模態模型,可以接受任意序列的圖像和文本輸入,並生成文本輸出。它能夠回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事,也可以作為純語言模型使用。

Model Features

多模態處理能力
能夠同時處理圖像和文本輸入,並生成連貫的文本輸出
原生分辨率支持
遵循 NaViT 策略,以原生分辨率和寬高比處理圖像(最高 980 x 980)
高分辨率圖像分割
可選地支持子圖像分割,可處理非常高分辨率的圖像
增強的OCR能力
通過專門訓練顯著提升了文本識別和文檔理解能力

Model Capabilities

圖像描述
視覺問答
多圖像故事創作
文檔理解
圖表分析
純文本語言模型

Use Cases

教育
數學問題解答
基於圖像中的數學問題提供解答
在數學相關測試集上表現優異
內容創作
多圖像故事創作
基於多張相關圖像生成連貫的故事
文檔處理
文檔內容理解
識別和理解掃描文檔中的內容和結構
在DocVQA測試集上達到74.0分
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase