Eurovlm 9B Preview
E
Eurovlm 9B Preview
由utter-project開發
EuroVLM-9B-Preview是基於EuroLLM-9B長上下文版本的多模態視覺語言模型,支持多種語言和視覺任務,目前為預覽版本。
下載量 156
發布時間 : 6/9/2025
模型概述
EuroVLM-9B-Preview是一個結合文本和視覺處理能力的多模態模型,專注於歐洲語言支持,適用於圖像描述生成、視覺問答等任務。
模型特點
多語言支持
支持超過30種歐洲及其他語言,涵蓋主要歐洲語言及部分亞洲語言。
多模態處理
能夠同時處理文本和圖像輸入,執行跨模態任務。
長上下文支持
擴展上下文大小,支持多達32K個標記的長文本處理。
高效推理
採用分組查詢注意力(GQA)和SwiGLU激活函數,優化推理效率。
模型能力
多語言圖像描述生成
視覺問答
視覺指令執行
多模態翻譯
文檔理解
使用案例
教育
多語言學習輔助
幫助學生通過圖像理解不同語言的描述,輔助語言學習。
提供多語言圖像描述,增強語言學習體驗。
內容創作
多語言內容生成
根據圖像生成多語言的描述或故事,用於內容創作。
快速生成多語言內容,提高創作效率。
客戶服務
多語言視覺支持
回答客戶關於產品圖像的跨語言問題。
提供多語言視覺問答,改善客戶體驗。
🚀 EuroVLM-9B-Preview模型卡片
EuroVLM-9B-Preview是基於EuroLLM-9B長上下文版本的多模態視覺語言模型。它支持多種語言,能處理文本和視覺(圖像)模態的任務。不過這只是預覽版本,模型仍在開發中,性能和穩定性可能存在侷限。
🚀 快速開始
使用HuggingFace的transformers
庫運行模型
from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)
# Load an image
image = Image.open("/path/to/image.jpg")
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
]
},
]
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))
使用vLLM
運行模型
from vllm import LLM, SamplingParams
# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)
# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)
# Image and prompt
image_url = "/url/of/image.jpg"
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
]
},
]
# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
✨ 主要特性
- 多語言支持:支持保加利亞語、克羅地亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、德語、希臘語、匈牙利語、愛爾蘭語、意大利語、拉脫維亞語、立陶宛語、馬耳他語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、西班牙語、瑞典語、阿拉伯語、加泰羅尼亞語、中文、加利西亞語、印地語、日語、韓語、挪威語、俄語、土耳其語和烏克蘭語等多種語言。
- 多模態處理:能夠處理文本和視覺(圖像)模態的任務,支持多語言圖像描述生成、視覺問答、視覺指令執行、多模態翻譯和文檔理解等多種視覺語言任務。
📦 安裝指南
文檔未提及安裝步驟,若需使用,可參考上述代碼示例中使用相關庫加載模型的方式。
💻 使用示例
基礎用法
from PIL import Image
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration
model_id = "utter-project/EuroVLM-9B-Preview"
processor = LlavaNextProcessor.from_pretrained(model_id)
model = LlavaNextForConditionalGeneration.from_pretrained(model_id)
# Load an image
image = Image.open("/path/to/image.jpg")
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese."}
]
},
]
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(images=image, text=prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(processor.decode(outputs[0], skip_special_tokens=True))
高級用法
from vllm import LLM, SamplingParams
# Initialize the model
model_id = "utter-project/EuroVLM-9B-Preview"
llm = LLM(model=model_id)
# Set up sampling parameters
sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)
# Image and prompt
image_url = "/url/of/image.jpg"
messages = [
{
"role": "system",
"content": "You are EuroVLM --- a multimodal AI assistant specialized in European languages that provides safe, educational and helpful answers about images and text.",
},
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "What do you see in this image? Please describe it in Portuguese in one sentence."}
]
},
]
# Generate response
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
📚 詳細文檔
模型詳情
EuroVLM-9B是一個具有90億 + 4億參數的視覺語言模型,它將EuroLLM-9B的多語言能力與視覺編碼組件相結合。該模型在多種多語言視覺語言數據集上進行了(視覺)指令調優,包括圖像描述、視覺問答和跨支持語言的多模態推理任務。
模型描述
EuroVLM採用了一種將視覺編碼器與EuroLLM語言模型相結合的多模態架構:
- 語言模型組件:
- 基於EuroLLM-9B的標準密集Transformer架構。
- 採用分組查詢注意力(GQA),有8個鍵值頭,以實現高效推理。
- 採用RMSNorm進行層前歸一化,以保證訓練穩定性。
- 使用SwiGLU激活函數,以實現最佳下游性能。
- 每層都使用旋轉位置嵌入(RoPE)。
- 擴展上下文大小,支持多達32K個標記。
- 視覺組件:
- 基於google/siglip2-so400m-patch14-384的視覺Transformer(ViT)編碼器。
- 多模態投影器,將視覺表示映射到標記嵌入。
- 支持高分辨率圖像輸入。
模型能力
EuroVLM-9B-Instruct支持跨多種語言的廣泛視覺語言任務:
- 多語言圖像描述生成:以任何支持的語言生成圖像的詳細描述。
- 視覺問答:在多語言環境中回答關於圖像內容的問題。
- 視覺指令執行:執行涉及視覺分析和文本生成的複雜指令。
- 多模態翻譯:在支持的語言之間翻譯圖像描述和說明。
- 文檔理解:處理和分析包含多語言文本的文檔、圖表和示意圖。
偏差、風險和侷限性
EuroVLM-9B尚未完全與人類偏好對齊,因此該模型在文本和圖像理解方面可能會產生有問題的輸出(例如,對圖像內容的幻覺、有害內容、有偏見的解釋或關於視覺信息的錯誤陳述)。
多模態模型的其他考慮因素包括:
- 不同文化背景下視覺解釋的潛在偏差。
- 理解複雜視覺場景或不尋常圖像構圖的侷限性。
- 跨語言的視覺理解和文本生成之間可能存在不一致。
- 處理可能包含個人信息的圖像時的隱私問題。
用戶在生產環境中部署此模型時應謹慎行事,並實施適當的安全措施。
🔧 技術細節
模型架構
- 語言模型:基於EuroLLM-9B的標準密集Transformer架構,採用分組查詢注意力(GQA)、RMSNorm層前歸一化、SwiGLU激活函數和旋轉位置嵌入(RoPE),擴展上下文大小支持多達32K個標記。
- 視覺編碼器:基於google/siglip2-so400m-patch14-384的視覺Transformer(ViT)編碼器,通過多模態投影器將視覺表示映射到標記嵌入,支持高分辨率圖像輸入。
訓練數據
模型在多種多語言視覺語言數據集上進行了(視覺)指令調優,包括圖像描述、視覺問答和跨支持語言的多模態推理任務。
📄 許可證
本模型使用Apache License 2.0許可證。
⚠️ 重要提示
這是EuroVLM-9B的預覽版本。該模型仍在開發中,性能和穩定性可能存在侷限。在生產環境中使用時請謹慎。
屬性 | 詳情 |
---|---|
模型類型 | 一個具有90億 + 4億參數的多語言多模態Transformer視覺語言模型(VLM) |
訓練數據 | 多種多語言視覺語言數據集,包括圖像描述、視覺問答和跨支持語言的多模態推理任務 |
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98