R

Ret OpenCLIP ViT H 14

Developed by aimagelab
ReTはマルチモーダルクエリと文書検索をサポートする革新的な手法で、視覚とテキストのバックボーンネットワークの異なるレイヤーの多元的な表現を統合することで細粒度検索を実現します。
Downloads 23
Release Time : 3/25/2025

Model Overview

ReTはTransformerベースのリカレントユニットとシグモイドゲート機構を採用し、クロスレイヤーおよびクロスモーダルの情報フローを選択的に制御し、マルチモーダルクエリと文書を処理し、類似度計算のための潜在トークンセットを生成します。

Model Features

リカレント拡張アーキテクチャ
LSTMにヒントを得たシグモイドゲート機構を採用し、視覚とテキストネットワークのマルチレイヤー特徴を統合
マルチモーダル混合処理
クエリと文書内の画像とテキストの任意の組み合わせ入力をサポート
細粒度類似度計算
遅延インタラクションのための細粒度マッチングをサポートする潜在トークンセットを生成

Model Capabilities

マルチモーダル文書検索
画像テキスト混合クエリ処理
クロスモーダル特徴融合

Use Cases

情報検索
視覚質問応答文書検索
視覚的な質問を含むテキストクエリに基づいて関連する画像テキスト文書を検索
カスタムM2KRベンチマークで評価(OVEN/InfoSeekなどのデータセットを含む)
クロスモーダル検索
画像による文書検索
画像をクエリ条件として関連文書を検索
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase