M

Mme5 Mllama 11b Instruct

由intfloat開發
mmE5是基於Llama-3.2-11B-Vision訓練的多模態多語言嵌入模型,通過高質量合成數據改進嵌入性能,在MMEB基準測試中達到最先進水平。
下載量 596
發布時間 : 2/13/2025

模型概述

該模型專注於多模態(圖像+文本)和多語言嵌入任務,能夠將圖像和文本映射到統一的嵌入空間,支持跨模態檢索和相似度計算。

模型特點

多模態嵌入能力
能夠同時處理圖像和文本輸入,將它們映射到統一的嵌入空間
多語言支持
支持8種語言的文本處理,包括英語、中文、阿拉伯語等
高質量合成數據訓練
使用專門設計的合成數據進行訓練,提高模型性能
最先進性能
在MMEB基準測試中達到最先進水平

模型能力

圖像-文本相似度計算
跨模態檢索
多語言文本嵌入
零樣本圖像分類

使用案例

跨模態檢索
圖像搜索
通過文本查詢檢索相關圖像
示例中'一隻貓和一隻狗'的查詢與圖像匹配度達0.4219
文本搜索
通過圖像檢索相關文本描述
示例中圖像與'一隻貓和一隻狗'的文本匹配度達0.4414
多語言應用
多語言圖像標註
為圖像生成多語言描述或標籤
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase