R

Ret OpenCLIP ViT G 14

由aimagelab開發
ReT是一種支持多模態查詢與文檔檢索的創新方法,通過整合視覺與文本主幹網絡不同層級的多元表徵實現細粒度檢索。
下載量 77
發布時間 : 3/25/2025

模型概述

ReT採用基於Transformer的循環單元和Sigmoid門控機制,支持圖像與文本混合輸入,用於視覺文檔檢索任務。

模型特點

多層級特徵整合
不同於傳統方法僅使用最後一層特徵,ReT整合視覺與文本主幹網絡不同層級的多元表徵
Sigmoid門控機制
受LSTM啟發的門控機制,選擇性調控跨層級與跨模態的信息流
混合模態處理
可獨立處理圖像、文本或混合模態的查詢和文檔輸入

模型能力

多模態文檔檢索
圖像-文本聯合特徵提取
細粒度相似度計算

使用案例

信息檢索
視覺問答文檔檢索
根據問題文本和參考圖像檢索包含答案的相關文檔
在定製版M2KR基準測試中驗證效果
跨模態檢索
使用文本查詢檢索相關圖像文檔,或使用圖像查詢檢索相關文本文檔
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase