Clip Flant5 Xxl
google/flan-t5-xxlをベースに微調整されたビジュアル言語生成モデルで、画像テキスト検索タスク向けに設計されています。
ダウンロード数 86.23k
リリース時間 : 12/13/2023
モデル概要
このモデルは、画像テキスト検索タスクに対してflan-t5-xxlを微調整したバージョンで、VQAScore論文に示されています。
モデル特徴
ビジュアル言語生成能力
ビジュアルと言語の理解能力を結合し、画像とテキストのクロスモーダル検索を実現します。
Flan-T5をベースに微調整
強力なFlan-T5-XXLをベースに対象的に微調整し、元の言語理解能力を維持しながらビジュアル関連能力を強化します。
VQAScore関連
モデルの設計はVQAScore評価方法に関連しており、ビジュアル質問応答関連の指標を最適化している可能性があります。
モデル能力
画像テキスト検索
クロスモーダル理解
ビジュアル言語生成
使用事例
情報検索
画像ベースのテキスト検索
画像の内容に基づいて関連するテキスト記述を検索します。
クロスモーダル検索
画像とテキストの双方向検索を実現します。
ビジュアル質問応答
VQAシステム
VQAScore関連性から推測すると、ビジュアル質問応答システムの構築に使用される可能性があります。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98