🚀 Cohere Labs Aya Vision 8B模型
Cohere Labs Aya Vision 8B 是一個擁有80億參數的模型的開放權重研究版本,它具備先進的能力,針對各種視覺語言用例進行了優化,包括光學字符識別(OCR)、圖像描述、視覺推理、摘要生成、問答、代碼處理等。它是一個多語言模型,在視覺和語言方面針對23種語言進行了訓練。
本模型卡片對應Aya Vision模型的80億參數版本。我們還發布了320億參數版本,你可以點擊此處查看。
🚀 快速開始
在線體驗
在下載模型權重之前,你可以在 Cohere playground 或我們專門的 Hugging Face Space 中嘗試Aya Vision聊天功能,進行交互式探索。
WhatsApp集成
你還可以通過流行的即時通訊服務WhatsApp與Aya Vision進行對話。點擊此鏈接,即可打開與Aya Vision的WhatsApp聊天窗口。
如果你尚未在設備上安裝WhatsApp,可能需要先進行安裝;如果你已在手機上安裝,可以按照屏幕提示將手機與WhatsApp Web進行關聯。最後,你將看到一個文本窗口,可用於與模型進行聊天。有關我們的WhatsApp集成的更多詳細信息,請點擊此處查看。
示例筆記本
你還可以查看以下筆記本,瞭解如何將Aya Vision用於不同的用例。
✨ 主要特性
- 多語言支持:該模型在23種語言的視覺和語言任務上進行了訓練,包括英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語、中文(簡體和繁體)、俄語、波蘭語、土耳其語、越南語、荷蘭語、捷克語、印尼語、烏克蘭語、羅馬尼亞語、希臘語、印地語、希伯來語和波斯語。
- 先進的視覺語言能力:具備OCR、圖像描述、視覺推理、摘要生成、問答、代碼處理等多種能力。
- 長上下文支持:支持16K的上下文長度。
📦 安裝指南
請從包含此模型必要更改的源倉庫安裝 transformers
:
💻 使用示例
基礎用法
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "CohereLabs/aya-vision-8b"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
{"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
]},
]
inputs = processor.apply_chat_template(
messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)
gen_tokens = model.generate(
**inputs,
max_new_tokens=300,
do_sample=True,
temperature=0.3,
)
print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
高級用法
from transformers import pipeline
pipe = pipeline(model="CohereLabs/aya-vision-8b", task="image-text-to-text", device_map="auto")
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
{"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
]},
]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)
print(outputs)
📚 詳細文檔
模型詳情
屬性 |
詳情 |
輸入 |
模型接受文本和圖像作為輸入。 |
輸出 |
模型生成文本。 |
模型架構 |
這是一個視覺語言模型,它基於 Command R7B 多語言語言模型,並使用 Aya Expanse配方 進行進一步的後訓練。通過多模態適配器將其與 SigLIP2 - patch14 - 384 視覺編碼器配對,以實現視覺語言理解。 |
圖像處理 |
我們使用 169個視覺標記 對分辨率為 364x364像素 的圖像塊進行編碼。任意大小的輸入圖像會根據寬高比映射到最近的支持分辨率。Aya Vision最多使用12個輸入圖像塊和一個縮略圖(調整為364x364)(共2197個圖像標記)。 |
支持語言 |
該模型在23種語言上進行了訓練:英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語、中文(簡體和繁體)、俄語、波蘭語、土耳其語、越南語、荷蘭語、捷克語、印尼語、烏克蘭語、羅馬尼亞語、希臘語、印地語、希伯來語和波斯語。 |
上下文長度 |
Aya Vision 8B支持16K的上下文長度。 |
更多關於模型訓練的詳細信息,請查看 我們的博客文章。
評估
我們使用 Aya Vision Benchmark 和 m - WildVision 對Aya Vision 8B與 Pangea 7B、Llama - 3.2 11B Vision、Molmo - D 7B、Qwen2.5 - VL 7B、Pixtral 12B 和 Gemini Flash 1.5 8B 進行了評估。勝率使用claude - 3 - 7 - sonnet - 20250219作為評判模型確定,因為與其他模型相比,它具有更優越的評判性能。
我們還使用 m - ArenaHard 對Aya Vision 8B在僅文本輸入情況下的性能與上述模型進行了評估,這是一項具有挑戰性的開放式生成評估,使用gpt - 4o - 2024 - 11 - 20作為評判模型,以勝率進行衡量。

模型卡片聯繫方式
如果對本模型卡片中的細節有錯誤反饋或額外問題,請聯繫 labs@cohere.com。
使用條款
我們希望通過向全球研究人員發佈這個高性能的80億參數視覺語言模型的權重,使基於社區的研究工作更加容易開展。
該模型受 CC - BY - NC 許可證約束,同時需要遵守 Cohere Lab的可接受使用政策。
📄 許可證
本模型採用 CC - BY - NC 許可證,同時需要遵守 Cohere Lab的可接受使用政策。