clip-flant5-xxlオープンソース視覚言語モデル - 無料でのデプロイで画像テキスト検索をサポート

ホーム

Clip Flant5 Xxl

zhiqiulinによって開発

google/flan-t5-xxlをベースに微調整されたビジュアル言語生成モデルで、画像テキスト検索タスク向けに設計されています。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #画像テキスト検索 #ビジュアル言語生成 #マルチモーダル微調整

ダウンロード数 86.23k

リリース時間 : 12/13/2023

モデル概要

このモデルは、画像テキスト検索タスクに対してflan-t5-xxlを微調整したバージョンで、VQAScore論文に示されています。

モデル特徴

ビジュアル言語生成能力

ビジュアルと言語の理解能力を結合し、画像とテキストのクロスモーダル検索を実現します。

Flan-T5をベースに微調整

強力なFlan-T5-XXLをベースに対象的に微調整し、元の言語理解能力を維持しながらビジュアル関連能力を強化します。

VQAScore関連

モデルの設計はVQAScore評価方法に関連しており、ビジュアル質問応答関連の指標を最適化している可能性があります。

モデル能力

画像テキスト検索

クロスモーダル理解

ビジュアル言語生成

使用事例

情報検索

画像ベースのテキスト検索

画像の内容に基づいて関連するテキスト記述を検索します。

クロスモーダル検索

画像とテキストの双方向検索を実現します。

ビジュアル質問応答

VQAシステム

VQAScore関連性から推測すると、ビジュアル質問応答システムの構築に使用される可能性があります。

属性	详情
開発者	Zhiqiu Linとその共同研究者
モデルタイプ	ビジョン-言語生成モデル
ライセンス	Apache-2.0
微調整元モデル	google/flan-t5-xxl

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Clip Flant5 Xxl

モデル概要

モデル特徴

モデル能力

使用事例

🚀 CLIP-FlanT5-XXL (VQAScore)

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

モデルの詳細

モデルのソース

📄 ライセンス