R

Ret CLIP ViT L 14

由aimagelab開發
ReT是一種支持多模態查詢與文檔檢索的創新方法,通過融合視覺與文本骨幹網絡多層級表徵實現細粒度檢索。
下載量 523
發布時間 : 3/25/2025

模型概述

ReT採用基於Transformer的循環單元和sigmoid門控機制,選擇性調控跨層級與跨模態信息流,可獨立處理多模態查詢與文檔,生成用於相似度計算的潛在標記集。

模型特點

多層級特徵融合
利用視覺與文本骨幹網絡的多層級表徵,而非僅最終層特徵
循環門控機制
受LSTM啟發的sigmoid門控機制,動態調控跨模態信息流
多模態獨立處理
可同時處理查詢與文檔中的圖像和文本內容
細粒度相似度計算
生成潛在標記集支持細粒度的延遲交互式相似度匹配

模型能力

多模態文檔檢索
圖像-文本聯合表徵
跨模態相似度計算
視覺-語言特徵融合

使用案例

信息檢索
跨模態知識檢索
通過圖文混合查詢檢索包含相關答案的文檔
在定製版M2KR基準上驗證有效性
問答系統
視覺問答支持
為VQA系統提供包含問題答案及對應圖像的文檔檢索
支持OKVQA/E-VQA等視覺問答場景
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase