I

Idefics 9b Instruct

HuggingFaceM4によって開発
IDEFICSはDeepmindが開発したクローズドソースの視覚言語モデルFlamingoのオープンソース再現版で、任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できるマルチモーダルモデルです。
ダウンロード数 28.34k
リリース時間 : 7/24/2023

モデル概要

IDEFICSは大規模なマルチモーダル英語モデルで、交互に配置された画像とテキストシーケンスを入力として受け取り、テキスト出力を生成します。このモデルは強力なコンテキスト対応の少数ショット学習能力を示し、クローズドソースモデルに匹敵します。

モデル特徴

マルチモーダル能力
画像とテキスト入力を同時に処理し、一貫性のあるテキスト出力を生成できる
オープンソース再現
完全に公開可能なデータとモデルに基づいて構築され、クローズドソースのFlamingoモデルの機能を再現している
少数ショット学習
強力なコンテキスト対応の少数ショット学習能力を示し、クローズドソースモデルに匹敵する

モデル能力

画像質問応答
画像説明
複数画像ストーリー作成
純粋テキスト言語モデル

使用事例

コンテンツ生成
画像説明生成
入力画像に基づいて詳細な文章説明を生成する
画像内容と高度に一致する説明テキストを生成する
教育
視覚的質問応答
画像内容に関する様々な質問に回答する
画像内容に関するオープンエンドおよび選択式質問に正確に回答する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase