開源E5-V多模態模型 - 免費處理文本圖像並生成統一嵌入表示

Home

E5 V

Developed by royokong

E5-V是基於多模態大語言模型的通用嵌入方法，能夠處理文本和圖像輸入並生成統一的嵌入表示。

多模態對齊

Transformers

#多模態嵌入 #跨模態檢索 #文本圖像對齊

Downloads 5,619

Release Time : 7/14/2024

Model Overview

E5-V是一個多模態嵌入框架，通過適配多模態大語言模型（MLLMs）來實現跨模態的嵌入表示，有效彌合不同輸入類型之間的模態鴻溝。

Model Features

跨模態統一表示

能夠將文本和圖像輸入映射到統一的嵌入空間，實現跨模態檢索和比較

單模態訓練優化

僅通過文本對訓練即可獲得優於多模態訓練的性能表現

零樣本遷移能力

未經微調也能在多模態嵌入任務中展現出色性能

Model Capabilities

文本嵌入生成

圖像嵌入生成

跨模態檢索

語義相似度計算

Use Cases

信息檢索

跨模態搜索

使用文本查詢檢索相關圖像，或使用圖像查詢檢索相關文本

高精度的跨模態匹配能力

內容推薦

多模態內容推薦

基於用戶歷史交互（文本或圖像）推薦相關內容

提升推薦系統的多樣性和準確性

🚀 [E5-V：基於多模態大語言模型的通用嵌入]

E5-V是一個用於實現多模態嵌入的框架，它基於MLLMs進行適配，有效彌合了不同類型輸入之間的模態差距，即使在未微調的情況下，也能在多模態嵌入任務中展現出強大性能。同時，其單模態訓練方法僅在文本對上進行訓練，表現優於多模態訓練。

🚀 快速開始

E5-V基於lmms-lab/llama3-llava-next-8b進行微調。我們提出了名為E5-V的框架，用於適配MLLMs以實現多模態嵌入。E5-V有效地彌合了不同類型輸入之間的模態差距，即使在未進行微調的情況下，也能在多模態嵌入中展現出強大的性能。我們還為E5-V提出了一種單模態訓練方法，該模型僅在文本對上進行訓練，其性能優於多模態訓練。

更多詳細信息可查看：https://github.com/kongds/E5-V

💻 使用示例

基礎用法

import torch
import torch.nn.functional as F
import requests
from PIL import Image
from transformers import AutoTokenizer
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration

llama3_template = '<|start_header_id|>user<|end_header_id|>\n\n{}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n \n'

processor = LlavaNextProcessor.from_pretrained('royokong/e5-v')
model = LlavaNextForConditionalGeneration.from_pretrained('royokong/e5-v', torch_dtype=torch.float16).cuda()

img_prompt = llama3_template.format('<image>\nSummary above image in one word: ')
text_prompt = llama3_template.format('<sent>\nSummary above sentence in one word: ')

urls = ['https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/American_Eskimo_Dog.jpg/360px-American_Eskimo_Dog.jpg',
        'https://upload.wikimedia.org/wikipedia/commons/thumb/b/b6/Felis_catus-cat_on_snow.jpg/179px-Felis_catus-cat_on_snow.jpg']
images = [Image.open(requests.get(url, stream=True).raw) for url in urls]

texts = ['A dog sitting in the grass.',
         'A cat standing in the snow.']

text_inputs = processor([text_prompt.replace('<sent>', text) for text in texts], return_tensors="pt", padding=True).to('cuda')
img_inputs = processor([img_prompt]*len(images), images, return_tensors="pt", padding=True).to('cuda')

with torch.no_grad():
    text_embs = model(**text_inputs, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]
    img_embs = model(**img_inputs, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]

    text_embs = F.normalize(text_embs, dim=-1)
    img_embs = F.normalize(img_embs, dim=-1)

print(text_embs @ img_embs.t())