I

Idefics3 8B Llama3

HuggingFaceM4によって開発
Idefics3はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において顕著な改善が見られます。
ダウンロード数 45.86k
リリース時間 : 8/5/2024

モデル概要

Idefics3はIdefics1とIdefics2を改良したマルチモーダルモデルで、画像とテキストの任意の交互入力を受け入れ、画像キャプション作成や視覚的質問応答などのタスクを実行できます。

モデル特徴

マルチモーダル処理能力
画像とテキスト入力を同時に処理し、テキスト出力を生成可能
ドキュメント理解の強化
前世代モデルと比較してOCRとドキュメント理解において顕著な改善
柔軟な入力形式
画像とテキストの任意の交互入力シーケンスをサポート
オープンソースライセンス
Apache 2.0ライセンスで公開され、自由に使用・改変可能

モデル能力

画像キャプション
視覚的質問応答
複数画像に基づく創作
純粋テキスト言語モデル
ドキュメント理解
OCR

使用事例

視覚コンテンツ理解
画像キャプション
画像内の視覚的コンテンツを説明
画像内の主要要素を正確に識別し説明
視覚的質問応答
画像内容に関する質問に回答
画像の文脈を理解し関連する回答を提供
ドキュメント処理
ドキュメント理解
ドキュメントの内容と構造を解析・理解
DocVQAテストセットで87.7の精度を達成
クリエイティブアプリケーション
複数画像ストーリー創作
複数の画像に基づいて一貫性のあるストーリーを創作
画像間の関連性を確立し一貫した叙述を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase