EuroVLM-9B-Preview开源多模态模型 - 免费支持多语言视觉任务应用！

首页

Eurovlm 9B Preview

由 utter-project 开发

EuroVLM-9B-Preview是基于EuroLLM-9B长上下文版本的多模态视觉语言模型，支持多种语言和视觉任务，目前为预览版本。

图像生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #多语言视觉问答 #高分辨率图像理解 #欧洲语言多模态

下载量 156

发布时间 : 6/9/2025

模型简介

EuroVLM-9B-Preview是一个结合文本和视觉处理能力的多模态模型，专注于欧洲语言支持，适用于图像描述生成、视觉问答等任务。

模型特点

多语言支持

支持超过30种欧洲及其他语言，涵盖主要欧洲语言及部分亚洲语言。

多模态处理

能够同时处理文本和图像输入，执行跨模态任务。

长上下文支持

扩展上下文大小，支持多达32K个标记的长文本处理。

高效推理

采用分组查询注意力（GQA）和SwiGLU激活函数，优化推理效率。

模型能力

多语言图像描述生成

视觉问答

视觉指令执行

多模态翻译

文档理解

使用案例

教育

多语言学习辅助

帮助学生通过图像理解不同语言的描述，辅助语言学习。

提供多语言图像描述，增强语言学习体验。

内容创作

多语言内容生成

根据图像生成多语言的描述或故事，用于内容创作。

快速生成多语言内容，提高创作效率。

客户服务

多语言视觉支持

回答客户关于产品图像的跨语言问题。

提供多语言视觉问答，改善客户体验。

🚀 EuroVLM-9B-Preview模型卡片

EuroVLM-9B-Preview是基于EuroLLM-9B长上下文版本的多模态视觉语言模型。它支持多种语言，能处理文本和视觉（图像）模态的任务。不过这只是预览版本，模型仍在开发中，性能和稳定性可能存在局限。

🚀 快速开始

使用HuggingFace的`transformers`库运行模型

from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
    
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)

# Load an image
image = Image.open("/path/to/image.jpg")
    
messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
        ]
    },
]

prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))

使用`vLLM`运行模型

from vllm import LLM, SamplingParams

# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)

# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)

# Image and prompt
image_url = "/url/of/image.jpg"

messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image_url", "image_url": {"url": image_url}},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
        ]
    },
]

# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

✨ 主要特性

多语言支持：支持保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、阿拉伯语、加泰罗尼亚语、中文、加利西亚语、印地语、日语、韩语、挪威语、俄语、土耳其语和乌克兰语等多种语言。
多模态处理：能够处理文本和视觉（图像）模态的任务，支持多语言图像描述生成、视觉问答、视觉指令执行、多模态翻译和文档理解等多种视觉语言任务。

📦 安装指南

文档未提及安装步骤，若需使用，可参考上述代码示例中使用相关库加载模型的方式。

💻 使用示例

基础用法

from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
    
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)

# Load an image
image = Image.open("/path/to/image.jpg")
    
messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
        ]
    },
]

prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))

高级用法

from vllm import LLM, SamplingParams

# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)

# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)

# Image and prompt
image_url = "/url/of/image.jpg"

messages = [
    {
        "role": "system",
        "content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
    },
    {
        "role": "user", 
        "content": [
            {"type": "image_url", "image_url": {"url": image_url}},
            {"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
        ]
    },
]

# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

📚 详细文档

模型详情

EuroVLM-9B是一个具有90亿 + 4亿参数的视觉语言模型，它将EuroLLM-9B的多语言能力与视觉编码组件相结合。该模型在多种多语言视觉语言数据集上进行了（视觉）指令调优，包括图像描述、视觉问答和跨支持语言的多模态推理任务。

模型描述

EuroVLM采用了一种将视觉编码器与EuroLLM语言模型相结合的多模态架构：

语言模型组件：
- 基于EuroLLM-9B的标准密集Transformer架构。
- 采用分组查询注意力（GQA），有8个键值头，以实现高效推理。
- 采用RMSNorm进行层前归一化，以保证训练稳定性。
- 使用SwiGLU激活函数，以实现最佳下游性能。
- 每层都使用旋转位置嵌入（RoPE）。
- 扩展上下文大小，支持多达32K个标记。
视觉组件：
- 基于google/siglip2-so400m-patch14-384的视觉Transformer（ViT）编码器。
- 多模态投影器，将视觉表示映射到标记嵌入。
- 支持高分辨率图像输入。

模型能力

EuroVLM-9B-Instruct支持跨多种语言的广泛视觉语言任务：

多语言图像描述生成：以任何支持的语言生成图像的详细描述。
视觉问答：在多语言环境中回答关于图像内容的问题。
视觉指令执行：执行涉及视觉分析和文本生成的复杂指令。
多模态翻译：在支持的语言之间翻译图像描述和说明。
文档理解：处理和分析包含多语言文本的文档、图表和示意图。

偏差、风险和局限性

EuroVLM-9B尚未完全与人类偏好对齐，因此该模型在文本和图像理解方面可能会产生有问题的输出（例如，对图像内容的幻觉、有害内容、有偏见的解释或关于视觉信息的错误陈述）。

多模态模型的其他考虑因素包括：

不同文化背景下视觉解释的潜在偏差。
理解复杂视觉场景或不寻常图像构图的局限性。
跨语言的视觉理解和文本生成之间可能存在不一致。
处理可能包含个人信息的图像时的隐私问题。

用户在生产环境中部署此模型时应谨慎行事，并实施适当的安全措施。

🔧 技术细节

模型架构

语言模型：基于EuroLLM-9B的标准密集Transformer架构，采用分组查询注意力（GQA）、RMSNorm层前归一化、SwiGLU激活函数和旋转位置嵌入（RoPE），扩展上下文大小支持多达32K个标记。
视觉编码器：基于google/siglip2-so400m-patch14-384的视觉Transformer（ViT）编码器，通过多模态投影器将视觉表示映射到标记嵌入，支持高分辨率图像输入。

训练数据

模型在多种多语言视觉语言数据集上进行了（视觉）指令调优，包括图像描述、视觉问答和跨支持语言的多模态推理任务。

📄 许可证

本模型使用Apache License 2.0许可证。

⚠️ 重要提示

这是EuroVLM-9B的预览版本。该模型仍在开发中，性能和稳定性可能存在局限。在生产环境中使用时请谨慎。

属性	详情
模型类型	一个具有90亿 + 4亿参数的多语言多模态Transformer视觉语言模型（VLM）
训练数据	多种多语言视觉语言数据集，包括图像描述、视觉问答和跨支持语言的多模态推理任务