clip-flant5-xlオープンソースモデル - 画像-テキスト検索をサポート、google/flan-t5-xlから改良

Home

Clip Flant5 Xl

Developed by zhiqiulin

画像 - テキスト検索タスク用に微調整されたビジュアル - 言語生成モデルで、google/flan-t5-xlをベースに改良されています。

テキスト生成画像

Transformers

EnglishOpen Source License:Apache-2.0 #画像テキスト検索 #ビジュアル言語生成 #マルチモーダル微調整

Downloads 13.44k

Release Time : 12/13/2023

Model Overview

このモデルはgoogle/flan-t5-xlの微調整バージョンで、主に画像とテキストの検索タスクに使用され、VQAScore論文で関連するアプリケーションが展示されています。

Model Features

ビジュアル - 言語生成能力

画像とテキストの情報を組み合わせてクロスモーダル検索と生成を行います。

Flan-T5-XLをベースに微調整

強力な言語モデルを基にビジュアルタスクに適合させます。

オープンソースライセンス

Apache - 2.0ライセンスを採用しており、商用および研究用途での使用が許可されています。

Model Capabilities

画像 - テキストマッチング

クロスモーダル検索

ビジュアル質問応答（VQA）関連タスク

Use Cases

情報検索

画像検索

テキストの説明に基づいて関連する画像を検索します。

テキスト検索

画像の内容に基づいて関連するテキスト説明を検索します。

研究支援

ビジュアル質問応答研究

VQAScore関連の研究に使用されます。

論文で展示されたアプリケーションの効果

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Clip Flant5 Xl

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 CLIP-FlanT5-XL (VQAScore)

📚 ドキュメント

モデルの概要

モデルのソース

📄 ライセンス