Aya Vision 32B開源多模態模型 - 支持23種語言的視覺語言任務應用

首頁

Aya Vision 32b

由CohereLabs開發

Aya Vision 32B是Cohere實驗室開發的開放權重32B參數多模態模型，支持23種語言的視覺語言任務。

圖像生成文本

Transformers

支持多種語言#多語言視覺理解 #高精度OCR #跨模態推理

下載量 387

發布時間 : 3/2/2025

模型概述

針對多種視覺語言任務優化的多語言模型，包括OCR、圖像描述、視覺推理、摘要、問答、代碼生成等。

模型特點

多語言支持

支持23種語言的視覺語言任務處理

高分辨率圖像處理

支持364x364像素分辨率，最多2197個圖像標記

長上下文支持

16K上下文長度，適合處理複雜任務

多模態適配器

結合先進文本模型與視覺編碼器的創新架構

模型能力

圖像描述生成

視覺問答

多語言OCR

視覺推理

文本摘要

代碼生成

跨模態理解

使用案例

內容理解

多語言圖像描述

為圖像生成不同語言的描述文本

支持23種語言的準確描述

文檔OCR

從圖像中提取多語言文本內容

高精度文字識別

智能交互

視覺問答

回答關於圖像內容的複雜問題

支持多語言問答

教育輔助

解釋圖像中的教育內容

多語言教學支持

🚀 Aya Vision 32B模型介紹

Cohere Labs Aya Vision 32B 是一個擁有320億參數的模型的開放權重研究版本，具備先進的能力，針對多種視覺語言用例進行了優化，包括光學字符識別（OCR）、圖像描述、視覺推理、摘要生成、問答、代碼處理等。它是一個多語言模型，在視覺和語言方面針對23種語言進行了訓練。

本模型卡片對應Aya Vision模型的320億參數版本。我們還發布了一個80億參數的版本，你可以點擊此處查看。

屬性	詳情
開發團隊	Cohere Labs
聯繫方式	Cohere Labs
許可證	CC - BY - NC，同時需遵守 Cohere Lab's Acceptable Use Policy
模型名稱	Cohere Labs - aya - vision - 32b
模型規模	320億參數
上下文長度	16K

🚀 快速開始

在線體驗

在下載模型權重之前，你可以在 Cohere playground 或我們專門的 Hugging Face Space 中嘗試Aya Vision 32B的聊天功能，進行交互式探索。

WhatsApp集成

你還可以通過流行的即時通訊服務WhatsApp與Aya Vision進行對話。使用此鏈接打開與Aya Vision的WhatsApp聊天窗口。

如果你尚未在設備上安裝WhatsApp，可能需要先進行安裝；如果你已在手機上安裝，可以按照屏幕上的說明將手機與WhatsApp Web進行關聯。最後，你將看到一個文本窗口，可用於與模型進行聊天。有關我們WhatsApp集成的更多詳細信息，請點擊此處查看。

示例筆記本

你可以查看以下筆記本，瞭解如何將Aya Vision用於不同的用例。

📦 安裝指南

請從包含此模型必要更改的源倉庫中安裝 transformers：

# pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'

💻 使用示例

基礎用法

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "CohereLabs/aya-vision-32b"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.float16
)

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
        {"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
    ]},
    ]

inputs = processor.apply_chat_template(
    messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)

gen_tokens = model.generate(
    **inputs, 
    max_new_tokens=300, 
    do_sample=True, 
    temperature=0.3,
)

print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

高級用法

你也可以直接使用transformers的 pipeline 抽象來使用該模型：

from transformers import pipeline

pipe = pipeline(model="CohereLabs/aya-vision-32b", task="image-text-to-text", device_map="auto")

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
        {"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
    ]},
    ]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)

print(outputs)

📚 詳細文檔

模型詳情

輸入：模型接受文本和圖像作為輸入。
輸出：模型生成文本。
模型架構：這是一個視覺語言模型，使用了最先進的多語言語言模型 Aya Expanse 32B，該模型採用 Aya Expanse 方法進行訓練，並通過多模態適配器與 SigLIP2 - patch14 - 384 視覺編碼器配對，以實現視覺語言理解。
圖像處理：我們使用 169個視覺標記 對分辨率為 364x364像素 的圖像塊進行編碼。任意大小的輸入圖像會根據寬高比映射到最近的支持分辨率。Aya Vision最多使用12個輸入圖像塊和一個縮略圖（調整為364x364）（共2197個圖像標記）。
支持語言：該模型在23種語言上進行了訓練，包括英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語、中文（簡體和繁體）、俄語、波蘭語、土耳其語、越南語、荷蘭語、捷克語、印尼語、烏克蘭語、羅馬尼亞語、希臘語、印地語、希伯來語和波斯語。
上下文長度：Aya Vision 32B支持16K的上下文長度。

有關模型訓練的更多詳細信息，請查看我們的博客文章。

評估

我們使用 Aya Vision Benchmark 和 m - WildVision，將Aya Vision 32B與 Llama - 3.2 90B Vision、Molmo 72B、Qwen2.5 - VL 72B 進行了對比評估。勝率使用claude - 3 - 7 - sonnet - 20250219作為評判模型確定，因為與其他模型相比，它具有更優越的評判性能。

我們還使用 m - ArenaHard 對Aya Vision 32B在僅文本輸入情況下的性能與相同模型進行了評估，這是一項具有挑戰性的開放式生成評估，使用gpt - 4o - 2024 - 11 - 20作為評判模型，以勝率進行衡量。

Aya Vision 32B綜合勝率逐步改進效率與性能對比