I

Idefics 80b Instruct

HuggingFaceM4によって開発
IDEFICSはDeepmindが開発したクローズドソースの視覚言語モデルFlamingoのオープンソース再現版で、マルチモーダル入力(画像+テキスト)をサポートし、テキスト出力を生成します。
ダウンロード数 1,235
リリース時間 : 7/25/2023

モデル概要

IDEFICSはマルチモーダルモデルで、交互に配置された画像とテキストシーケンス入力を処理し、テキスト出力を生成できます。画像に関する質問に答えたり、視覚コンテンツを説明したり、複数の画像に基づいてストーリーを作成したり、純粋な言語モデルとして動作したりできます。

モデル特徴

オープンソース再現
完全に公開可能なデータとモデルに基づいて構築されており、Flamingoのオープンソース再現版です
マルチモーダル処理
任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます
コンテキスト少数ショット学習
強力なコンテキスト少数ショット学習能力を示し、クローズドソースモデルと同等のパフォーマンスを発揮します
2つのサイズ
800億パラメータと90億パラメータの2つのバージョンを提供します

モデル能力

画像質問応答
視覚コンテンツ記述
複数画像に基づくナラティブ作成
純粋テキスト言語処理

使用事例

視覚質問応答
画像コンテンツ質問応答
ユーザーの画像コンテンツに関する質問に答えます
画像コンテンツを正確に記述し、関連する質問に答えることができます
コンテンツ作成
複数画像ストーリー作成
関連する複数の画像に基づいて一貫性のあるストーリーを生成します
画像間の関係を理解し、合理的なナラティブを作成できます
教育
視覚補助学習
学生が視覚教材の内容を理解するのを助けます
正確な画像記述と説明を提供します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase