C

Clip Flant5 Xxl

zhiqiulinによって開発
google/flan-t5-xxlをベースに微調整されたビジュアル言語生成モデルで、画像テキスト検索タスク向けに設計されています。
ダウンロード数 86.23k
リリース時間 : 12/13/2023

モデル概要

このモデルは、画像テキスト検索タスクに対してflan-t5-xxlを微調整したバージョンで、VQAScore論文に示されています。

モデル特徴

ビジュアル言語生成能力
ビジュアルと言語の理解能力を結合し、画像とテキストのクロスモーダル検索を実現します。
Flan-T5をベースに微調整
強力なFlan-T5-XXLをベースに対象的に微調整し、元の言語理解能力を維持しながらビジュアル関連能力を強化します。
VQAScore関連
モデルの設計はVQAScore評価方法に関連しており、ビジュアル質問応答関連の指標を最適化している可能性があります。

モデル能力

画像テキスト検索
クロスモーダル理解
ビジュアル言語生成

使用事例

情報検索
画像ベースのテキスト検索
画像の内容に基づいて関連するテキスト記述を検索します。
クロスモーダル検索
画像とテキストの双方向検索を実現します。
ビジュアル質問応答
VQAシステム
VQAScore関連性から推測すると、ビジュアル質問応答システムの構築に使用される可能性があります。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase