Clip Flant5 Xl
画像 - テキスト検索タスク用に微調整されたビジュアル - 言語生成モデルで、google/flan-t5-xlをベースに改良されています。
Downloads 13.44k
Release Time : 12/13/2023
Model Overview
このモデルはgoogle/flan-t5-xlの微調整バージョンで、主に画像とテキストの検索タスクに使用され、VQAScore論文で関連するアプリケーションが展示されています。
Model Features
ビジュアル - 言語生成能力
画像とテキストの情報を組み合わせてクロスモーダル検索と生成を行います。
Flan-T5-XLをベースに微調整
強力な言語モデルを基にビジュアルタスクに適合させます。
オープンソースライセンス
Apache - 2.0ライセンスを採用しており、商用および研究用途での使用が許可されています。
Model Capabilities
画像 - テキストマッチング
クロスモーダル検索
ビジュアル質問応答(VQA)関連タスク
Use Cases
情報検索
画像検索
テキストの説明に基づいて関連する画像を検索します。
テキスト検索
画像の内容に基づいて関連するテキスト説明を検索します。
研究支援
ビジュアル質問応答研究
VQAScore関連の研究に使用されます。
論文で展示されたアプリケーションの効果
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98