I

Idefics2 8b

HuggingFaceM4によって開発
Idefics2はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において大幅な改善が見られます。
ダウンロード数 14.99k
リリース時間 : 4/9/2024

モデル概要

Idefics2はマルチモーダルモデルで、画像とテキスト入力を処理しテキスト出力を生成できます。画像に関する質問に答えたり、視覚的内容を説明したり、複数の画像に基づいてストーリーを作成したり、純粋な言語モデルとして使用したりできます。

モデル特徴

マルチモーダル処理能力
任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できます。
OCR能力の向上
モデルが画像やドキュメント内のテキストを転記する必要があるデータを統合することで、OCR能力が大幅に向上しました。
ネイティブ解像度処理
画像をネイティブ解像度(最大980 x 980)とネイティブアスペクト比で処理し、従来のコンピュータビジョンで必要だった固定サイズの正方形へのリサイズを回避します。
サブイメージ分割
(オプションで)サブイメージ分割を許可し、非常に高解像度の画像を渡すことができます。

モデル能力

画像説明
視覚的質問応答
ドキュメント理解
視覚的推論
テキスト生成

使用事例

視覚的質問応答
画像に関する質問に答える
入力された画像とテキスト質問に基づき、正確な回答を生成します。
TextVQA検証セットで70.4の精度を達成。
画像説明
視覚的内容を説明
入力された画像に基づいて詳細な説明テキストを生成します。
ドキュメント理解
ドキュメントの質問に答える
入力されたドキュメント画像とテキスト質問に基づき、正確な回答を生成します。
DocVQAテストセットで67.3の精度を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase