🚀 Aya Vision 32B模型介紹
Cohere Labs Aya Vision 32B 是一個擁有320億參數的模型的開放權重研究版本,具備先進的能力,針對多種視覺語言用例進行了優化,包括光學字符識別(OCR)、圖像描述、視覺推理、摘要生成、問答、代碼處理等。它是一個多語言模型,在視覺和語言方面針對23種語言進行了訓練。
本模型卡片對應Aya Vision模型的320億參數版本。我們還發布了一個80億參數的版本,你可以點擊此處查看。
🚀 快速開始
在線體驗
在下載模型權重之前,你可以在 Cohere playground 或我們專門的 Hugging Face Space 中嘗試Aya Vision 32B的聊天功能,進行交互式探索。
WhatsApp集成
你還可以通過流行的即時通訊服務WhatsApp與Aya Vision進行對話。使用此鏈接打開與Aya Vision的WhatsApp聊天窗口。
如果你尚未在設備上安裝WhatsApp,可能需要先進行安裝;如果你已在手機上安裝,可以按照屏幕上的說明將手機與WhatsApp Web進行關聯。最後,你將看到一個文本窗口,可用於與模型進行聊天。有關我們WhatsApp集成的更多詳細信息,請點擊此處查看。
示例筆記本
你可以查看以下筆記本,瞭解如何將Aya Vision用於不同的用例。
📦 安裝指南
請從包含此模型必要更改的源倉庫中安裝 transformers
:
💻 使用示例
基礎用法
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "CohereLabs/aya-vision-32b"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
{"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
]},
]
inputs = processor.apply_chat_template(
messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)
gen_tokens = model.generate(
**inputs,
max_new_tokens=300,
do_sample=True,
temperature=0.3,
)
print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
高級用法
你也可以直接使用transformers的 pipeline
抽象來使用該模型:
from transformers import pipeline
pipe = pipeline(model="CohereLabs/aya-vision-32b", task="image-text-to-text", device_map="auto")
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
{"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
]},
]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)
print(outputs)
📚 詳細文檔
模型詳情
- 輸入:模型接受文本和圖像作為輸入。
- 輸出:模型生成文本。
- 模型架構:這是一個視覺語言模型,使用了最先進的多語言語言模型 Aya Expanse 32B,該模型採用 Aya Expanse 方法進行訓練,並通過多模態適配器與 SigLIP2 - patch14 - 384 視覺編碼器配對,以實現視覺語言理解。
- 圖像處理:我們使用 169個視覺標記 對分辨率為 364x364像素 的圖像塊進行編碼。任意大小的輸入圖像會根據寬高比映射到最近的支持分辨率。Aya Vision最多使用12個輸入圖像塊和一個縮略圖(調整為364x364)(共2197個圖像標記)。
- 支持語言:該模型在23種語言上進行了訓練,包括英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語、中文(簡體和繁體)、俄語、波蘭語、土耳其語、越南語、荷蘭語、捷克語、印尼語、烏克蘭語、羅馬尼亞語、希臘語、印地語、希伯來語和波斯語。
- 上下文長度:Aya Vision 32B支持16K的上下文長度。
有關模型訓練的更多詳細信息,請查看我們的博客文章。
評估
我們使用 Aya Vision Benchmark 和 m - WildVision,將Aya Vision 32B與 Llama - 3.2 90B Vision、Molmo 72B、Qwen2.5 - VL 72B 進行了對比評估。勝率使用claude - 3 - 7 - sonnet - 20250219作為評判模型確定,因為與其他模型相比,它具有更優越的評判性能。
我們還使用 m - ArenaHard 對Aya Vision 32B在僅文本輸入情況下的性能與相同模型進行了評估,這是一項具有挑戰性的開放式生成評估,使用gpt - 4o - 2024 - 11 - 20作為評判模型,以勝率進行衡量。

模型卡片聯繫信息
如果對本模型卡片中的細節有錯誤反饋或額外問題,請聯繫 labs@cohere.com。
使用條款
我們希望通過向全球研究人員發佈這個高性能的320億參數視覺語言模型的權重,使基於社區的研究工作更加容易開展。
該模型受 CC - BY - NC 許可證的約束,同時需遵守 Cohere Lab's Acceptable Use Policy。