Eurovlm 9B Preview
E
Eurovlm 9B Preview
由 utter-project 开发
EuroVLM-9B-Preview是基于EuroLLM-9B长上下文版本的多模态视觉语言模型,支持多种语言和视觉任务,目前为预览版本。
下载量 156
发布时间 : 6/9/2025
模型简介
EuroVLM-9B-Preview是一个结合文本和视觉处理能力的多模态模型,专注于欧洲语言支持,适用于图像描述生成、视觉问答等任务。
模型特点
多语言支持
支持超过30种欧洲及其他语言,涵盖主要欧洲语言及部分亚洲语言。
多模态处理
能够同时处理文本和图像输入,执行跨模态任务。
长上下文支持
扩展上下文大小,支持多达32K个标记的长文本处理。
高效推理
采用分组查询注意力(GQA)和SwiGLU激活函数,优化推理效率。
模型能力
多语言图像描述生成
视觉问答
视觉指令执行
多模态翻译
文档理解
使用案例
教育
多语言学习辅助
帮助学生通过图像理解不同语言的描述,辅助语言学习。
提供多语言图像描述,增强语言学习体验。
内容创作
多语言内容生成
根据图像生成多语言的描述或故事,用于内容创作。
快速生成多语言内容,提高创作效率。
客户服务
多语言视觉支持
回答客户关于产品图像的跨语言问题。
提供多语言视觉问答,改善客户体验。
🚀 EuroVLM-9B-Preview模型卡片
EuroVLM-9B-Preview是基于EuroLLM-9B长上下文版本的多模态视觉语言模型。它支持多种语言,能处理文本和视觉(图像)模态的任务。不过这只是预览版本,模型仍在开发中,性能和稳定性可能存在局限。
🚀 快速开始
使用HuggingFace的transformers
库运行模型
from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)
# Load an image
image = Image.open("/path/to/image.jpg")
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
]
},
]
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))
使用vLLM
运行模型
from vllm import LLM, SamplingParams
# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)
# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)
# Image and prompt
image_url = "/url/of/image.jpg"
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
]
},
]
# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
✨ 主要特性
- 多语言支持:支持保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、阿拉伯语、加泰罗尼亚语、中文、加利西亚语、印地语、日语、韩语、挪威语、俄语、土耳其语和乌克兰语等多种语言。
- 多模态处理:能够处理文本和视觉(图像)模态的任务,支持多语言图像描述生成、视觉问答、视觉指令执行、多模态翻译和文档理解等多种视觉语言任务。
📦 安装指南
文档未提及安装步骤,若需使用,可参考上述代码示例中使用相关库加载模型的方式。
💻 使用示例
基础用法
from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)
# Load an image
image = Image.open("/path/to/image.jpg")
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
]
},
]
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))
高级用法
from vllm import LLM, SamplingParams
# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)
# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)
# Image and prompt
image_url = "/url/of/image.jpg"
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
]
},
]
# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
📚 详细文档
模型详情
EuroVLM-9B是一个具有90亿 + 4亿参数的视觉语言模型,它将EuroLLM-9B的多语言能力与视觉编码组件相结合。该模型在多种多语言视觉语言数据集上进行了(视觉)指令调优,包括图像描述、视觉问答和跨支持语言的多模态推理任务。
模型描述
EuroVLM采用了一种将视觉编码器与EuroLLM语言模型相结合的多模态架构:
- 语言模型组件:
- 基于EuroLLM-9B的标准密集Transformer架构。
- 采用分组查询注意力(GQA),有8个键值头,以实现高效推理。
- 采用RMSNorm进行层前归一化,以保证训练稳定性。
- 使用SwiGLU激活函数,以实现最佳下游性能。
- 每层都使用旋转位置嵌入(RoPE)。
- 扩展上下文大小,支持多达32K个标记。
- 视觉组件:
- 基于google/siglip2-so400m-patch14-384的视觉Transformer(ViT)编码器。
- 多模态投影器,将视觉表示映射到标记嵌入。
- 支持高分辨率图像输入。
模型能力
EuroVLM-9B-Instruct支持跨多种语言的广泛视觉语言任务:
- 多语言图像描述生成:以任何支持的语言生成图像的详细描述。
- 视觉问答:在多语言环境中回答关于图像内容的问题。
- 视觉指令执行:执行涉及视觉分析和文本生成的复杂指令。
- 多模态翻译:在支持的语言之间翻译图像描述和说明。
- 文档理解:处理和分析包含多语言文本的文档、图表和示意图。
偏差、风险和局限性
EuroVLM-9B尚未完全与人类偏好对齐,因此该模型在文本和图像理解方面可能会产生有问题的输出(例如,对图像内容的幻觉、有害内容、有偏见的解释或关于视觉信息的错误陈述)。
多模态模型的其他考虑因素包括:
- 不同文化背景下视觉解释的潜在偏差。
- 理解复杂视觉场景或不寻常图像构图的局限性。
- 跨语言的视觉理解和文本生成之间可能存在不一致。
- 处理可能包含个人信息的图像时的隐私问题。
用户在生产环境中部署此模型时应谨慎行事,并实施适当的安全措施。
🔧 技术细节
模型架构
- 语言模型:基于EuroLLM-9B的标准密集Transformer架构,采用分组查询注意力(GQA)、RMSNorm层前归一化、SwiGLU激活函数和旋转位置嵌入(RoPE),扩展上下文大小支持多达32K个标记。
- 视觉编码器:基于google/siglip2-so400m-patch14-384的视觉Transformer(ViT)编码器,通过多模态投影器将视觉表示映射到标记嵌入,支持高分辨率图像输入。
训练数据
模型在多种多语言视觉语言数据集上进行了(视觉)指令调优,包括图像描述、视觉问答和跨支持语言的多模态推理任务。
📄 许可证
本模型使用Apache License 2.0许可证。
⚠️ 重要提示
这是EuroVLM-9B的预览版本。该模型仍在开发中,性能和稳定性可能存在局限。在生产环境中使用时请谨慎。
属性 | 详情 |
---|---|
模型类型 | 一个具有90亿 + 4亿参数的多语言多模态Transformer视觉语言模型(VLM) |
训练数据 | 多种多语言视觉语言数据集,包括图像描述、视觉问答和跨支持语言的多模态推理任务 |
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98