O

Omniembed V0.1

Developed by Tevatron
基於Qwen2.5-Omni-7B構建的多模態嵌入模型,支持跨語言文本、圖像、音頻和視頻的統一嵌入表示
Downloads 2,190
Release Time : 4/12/2025

Model Overview

OmniEmbed是一個多模態嵌入模型,能夠生成跨語言文本、圖像、音頻和視頻的統一嵌入表示,為多樣化應用提供高效的跨模態檢索能力。

Model Features

多模態統一嵌入
支持文本、圖像、音頻和視頻的統一嵌入表示,實現跨模態檢索
跨語言能力
支持多語言文本檢索,性能接近專業多語言檢索模型
高性能檢索
在多個基準測試中表現優異,與專業單模態模型相當
開源訓練
訓練數據和訓練代碼已在Tevatron完全開源

Model Capabilities

文本檢索
圖像文檔檢索
視頻檢索
音頻檢索
多語言檢索

Use Cases

多媒體檢索
視頻檢索
根據文本查詢檢索相關視頻內容
在MSRVTT數據集上R@1達到51.3,優於CLIP基線
音頻檢索
根據文本描述檢索相關音頻片段
在AudioCaps數據集上R@1達到34.0,優於現有基線
文檔檢索
圖像文檔檢索
從包含圖像/圖表的文檔中檢索相關信息
在VIDORE數據集上nDCG@5達到85.8
多語言檢索
跨語言文本檢索
在MIRACL數據集上nDCG@10達到69.1
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase