EuroVLM-9B-Preview開源多模態模型 - 免費支持多語言視覺任務應用！

首頁

Eurovlm 9B Preview

由utter-project開發

EuroVLM-9B-Preview是基於EuroLLM-9B長上下文版本的多模態視覺語言模型，支持多種語言和視覺任務，目前為預覽版本。

圖像生成文本

Transformers

支持多種語言開源協議:Apache-2.0 #多語言視覺問答 #高分辨率圖像理解 #歐洲語言多模態

下載量 156

發布時間 : 6/9/2025

模型概述

EuroVLM-9B-Preview是一個結合文本和視覺處理能力的多模態模型，專注於歐洲語言支持，適用於圖像描述生成、視覺問答等任務。

模型特點

多語言支持

支持超過30種歐洲及其他語言，涵蓋主要歐洲語言及部分亞洲語言。

多模態處理

能夠同時處理文本和圖像輸入，執行跨模態任務。

長上下文支持

擴展上下文大小，支持多達32K個標記的長文本處理。

高效推理

採用分組查詢注意力（GQA）和SwiGLU激活函數，優化推理效率。

模型能力

多語言圖像描述生成

視覺問答

視覺指令執行

多模態翻譯

文檔理解

使用案例

教育

多語言學習輔助

幫助學生通過圖像理解不同語言的描述，輔助語言學習。

提供多語言圖像描述，增強語言學習體驗。

內容創作

多語言內容生成

根據圖像生成多語言的描述或故事，用於內容創作。

快速生成多語言內容，提高創作效率。

客戶服務

多語言視覺支持

回答客戶關於產品圖像的跨語言問題。

提供多語言視覺問答，改善客戶體驗。

🚀 EuroVLM-9B-Preview模型卡片

EuroVLM-9B-Preview是基於EuroLLM-9B長上下文版本的多模態視覺語言模型。它支持多種語言，能處理文本和視覺（圖像）模態的任務。不過這只是預覽版本，模型仍在開發中，性能和穩定性可能存在侷限。

🚀 快速開始

使用HuggingFace的`transformers`庫運行模型

from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
    
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)

# Load an image
image = Image.open("/path/to/image.jpg")
    
messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
        ]
    },
]

prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))

使用`vLLM`運行模型

from vllm import LLM, SamplingParams

# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)

# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)

# Image and prompt
image_url = "/url/of/image.jpg"

messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image_url", "image_url": {"url": image_url}},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
        ]
    },
]

# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

✨ 主要特性

多語言支持：支持保加利亞語、克羅地亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、德語、希臘語、匈牙利語、愛爾蘭語、意大利語、拉脫維亞語、立陶宛語、馬耳他語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、西班牙語、瑞典語、阿拉伯語、加泰羅尼亞語、中文、加利西亞語、印地語、日語、韓語、挪威語、俄語、土耳其語和烏克蘭語等多種語言。
多模態處理：能夠處理文本和視覺（圖像）模態的任務，支持多語言圖像描述生成、視覺問答、視覺指令執行、多模態翻譯和文檔理解等多種視覺語言任務。

📦 安裝指南

文檔未提及安裝步驟，若需使用，可參考上述代碼示例中使用相關庫加載模型的方式。

💻 使用示例

基礎用法

from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
    
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)

# Load an image
image = Image.open("/path/to/image.jpg")
    
messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
        ]
    },
]

prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))

高級用法

from vllm import LLM, SamplingParams

# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)

# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)

# Image and prompt
image_url = "/url/of/image.jpg"

messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image_url", "image_url": {"url": image_url}},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
        ]
    },
]

# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

📚 詳細文檔

模型詳情

EuroVLM-9B是一個具有90億 + 4億參數的視覺語言模型，它將EuroLLM-9B的多語言能力與視覺編碼組件相結合。該模型在多種多語言視覺語言數據集上進行了（視覺）指令調優，包括圖像描述、視覺問答和跨支持語言的多模態推理任務。

模型描述

EuroVLM採用了一種將視覺編碼器與EuroLLM語言模型相結合的多模態架構：

語言模型組件：
- 基於EuroLLM-9B的標準密集Transformer架構。
- 採用分組查詢注意力（GQA），有8個鍵值頭，以實現高效推理。
- 採用RMSNorm進行層前歸一化，以保證訓練穩定性。
- 使用SwiGLU激活函數，以實現最佳下游性能。
- 每層都使用旋轉位置嵌入（RoPE）。
- 擴展上下文大小，支持多達32K個標記。
視覺組件：
- 基於google/siglip2-so400m-patch14-384的視覺Transformer（ViT）編碼器。
- 多模態投影器，將視覺表示映射到標記嵌入。
- 支持高分辨率圖像輸入。

模型能力

EuroVLM-9B-Instruct支持跨多種語言的廣泛視覺語言任務：

多語言圖像描述生成：以任何支持的語言生成圖像的詳細描述。
視覺問答：在多語言環境中回答關於圖像內容的問題。
視覺指令執行：執行涉及視覺分析和文本生成的複雜指令。
多模態翻譯：在支持的語言之間翻譯圖像描述和說明。
文檔理解：處理和分析包含多語言文本的文檔、圖表和示意圖。

偏差、風險和侷限性

EuroVLM-9B尚未完全與人類偏好對齊，因此該模型在文本和圖像理解方面可能會產生有問題的輸出（例如，對圖像內容的幻覺、有害內容、有偏見的解釋或關於視覺信息的錯誤陳述）。

多模態模型的其他考慮因素包括：

不同文化背景下視覺解釋的潛在偏差。
理解複雜視覺場景或不尋常圖像構圖的侷限性。
跨語言的視覺理解和文本生成之間可能存在不一致。
處理可能包含個人信息的圖像時的隱私問題。

用戶在生產環境中部署此模型時應謹慎行事，並實施適當的安全措施。

🔧 技術細節

模型架構

語言模型：基於EuroLLM-9B的標準密集Transformer架構，採用分組查詢注意力（GQA）、RMSNorm層前歸一化、SwiGLU激活函數和旋轉位置嵌入（RoPE），擴展上下文大小支持多達32K個標記。
視覺編碼器：基於google/siglip2-so400m-patch14-384的視覺Transformer（ViT）編碼器，通過多模態投影器將視覺表示映射到標記嵌入，支持高分辨率圖像輸入。

訓練數據

模型在多種多語言視覺語言數據集上進行了（視覺）指令調優，包括圖像描述、視覺問答和跨支持語言的多模態推理任務。

📄 許可證

本模型使用Apache License 2.0許可證。

⚠️ 重要提示

這是EuroVLM-9B的預覽版本。該模型仍在開發中，性能和穩定性可能存在侷限。在生產環境中使用時請謹慎。

屬性	詳情
模型類型	一個具有90億 + 4億參數的多語言多模態Transformer視覺語言模型（VLM）
訓練數據	多種多語言視覺語言數據集，包括圖像描述、視覺問答和跨支持語言的多模態推理任務