C

Clip Flant5 Xl

Developed by zhiqiulin
画像 - テキスト検索タスク用に微調整されたビジュアル - 言語生成モデルで、google/flan-t5-xlをベースに改良されています。
Downloads 13.44k
Release Time : 12/13/2023

Model Overview

このモデルはgoogle/flan-t5-xlの微調整バージョンで、主に画像とテキストの検索タスクに使用され、VQAScore論文で関連するアプリケーションが展示されています。

Model Features

ビジュアル - 言語生成能力
画像とテキストの情報を組み合わせてクロスモーダル検索と生成を行います。
Flan-T5-XLをベースに微調整
強力な言語モデルを基にビジュアルタスクに適合させます。
オープンソースライセンス
Apache - 2.0ライセンスを採用しており、商用および研究用途での使用が許可されています。

Model Capabilities

画像 - テキストマッチング
クロスモーダル検索
ビジュアル質問応答(VQA)関連タスク

Use Cases

情報検索
画像検索
テキストの説明に基づいて関連する画像を検索します。
テキスト検索
画像の内容に基づいて関連するテキスト説明を検索します。
研究支援
ビジュアル質問応答研究
VQAScore関連の研究に使用されます。
論文で展示されたアプリケーションの効果
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase