aya-vision-8b開源多語言視覺語言模型 - 免費支持23種語言視語任務

首頁

Aya Vision 8b

由CohereLabs開發

Aya Vision 8B是一個開放權重的80億參數多語言視覺語言模型，支持23種語言的視覺和語言任務。

圖像生成文本

Transformers

支持多種語言#多語言視覺理解 #圖像文本生成 #OCR增強

下載量 29.94k

發布時間 : 3/2/2025

模型概述

針對多種視覺語言應用場景優化的多語言模型，包括OCR、圖像描述、視覺推理、摘要、問答、代碼等任務。

模型特點

多語言支持

支持23種語言的視覺和語言任務處理

高效視覺處理

使用169個視覺標記編碼364x364像素圖像塊，支持最多2197個圖像標記

長上下文支持

支持16K的上下文長度

開放權重

提供開放權重的80億參數版本供研究使用

模型能力

圖像文本識別(OCR)

圖像描述生成

視覺推理

多語言文本生成

圖像問答

多模態摘要

使用案例

多語言應用

多語言圖像描述

為圖像生成不同語言的描述文本

支持23種語言的準確描述

跨語言視覺問答

用不同語言提問關於圖像內容的問題

準確理解並用相應語言回答

文檔處理

多語言OCR

識別圖像中的多語言文本

高精度識別23種語言的文本

🚀 Cohere Labs Aya Vision 8B模型

Cohere Labs Aya Vision 8B 是一個擁有80億參數的模型的開放權重研究版本，它具備先進的能力，針對各種視覺語言用例進行了優化，包括光學字符識別（OCR）、圖像描述、視覺推理、摘要生成、問答、代碼處理等。它是一個多語言模型，在視覺和語言方面針對23種語言進行了訓練。

本模型卡片對應Aya Vision模型的80億參數版本。我們還發布了320億參數版本，你可以點擊此處查看。

開發者：Cohere Labs
聯繫方式：Cohere Labs
許可證：CC - BY - NC，同時需要遵守 Cohere Lab的可接受使用政策
模型名稱：c4ai - aya - vision - 8b
模型大小：80億參數
上下文長度：16K

🚀 快速開始

在線體驗

在下載模型權重之前，你可以在 Cohere playground 或我們專門的 Hugging Face Space 中嘗試Aya Vision聊天功能，進行交互式探索。

WhatsApp集成

你還可以通過流行的即時通訊服務WhatsApp與Aya Vision進行對話。點擊此鏈接，即可打開與Aya Vision的WhatsApp聊天窗口。

如果你尚未在設備上安裝WhatsApp，可能需要先進行安裝；如果你已在手機上安裝，可以按照屏幕提示將手機與WhatsApp Web進行關聯。最後，你將看到一個文本窗口，可用於與模型進行聊天。有關我們的WhatsApp集成的更多詳細信息，請點擊此處查看。

示例筆記本

你還可以查看以下筆記本，瞭解如何將Aya Vision用於不同的用例。

✨ 主要特性

多語言支持：該模型在23種語言的視覺和語言任務上進行了訓練，包括英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語、中文（簡體和繁體）、俄語、波蘭語、土耳其語、越南語、荷蘭語、捷克語、印尼語、烏克蘭語、羅馬尼亞語、希臘語、印地語、希伯來語和波斯語。
先進的視覺語言能力：具備OCR、圖像描述、視覺推理、摘要生成、問答、代碼處理等多種能力。
長上下文支持：支持16K的上下文長度。

📦 安裝指南

請從包含此模型必要更改的源倉庫安裝 transformers：

# pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'

💻 使用示例

基礎用法

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "CohereLabs/aya-vision-8b"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.float16
)

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
        {"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
    ]},
    ]

inputs = processor.apply_chat_template(
    messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)

gen_tokens = model.generate(
    **inputs, 
    max_new_tokens=300, 
    do_sample=True, 
    temperature=0.3,
)

print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

高級用法

from transformers import pipeline

pipe = pipeline(model="CohereLabs/aya-vision-8b", task="image-text-to-text", device_map="auto")

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
        {"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
    ]},
    ]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)

print(outputs)

📚 詳細文檔

模型詳情

屬性	詳情
輸入	模型接受文本和圖像作為輸入。
輸出	模型生成文本。
模型架構	這是一個視覺語言模型，它基於 Command R7B 多語言語言模型，並使用 Aya Expanse配方進行進一步的後訓練。通過多模態適配器將其與 SigLIP2 - patch14 - 384 視覺編碼器配對，以實現視覺語言理解。
圖像處理	我們使用 169個視覺標記對分辨率為 364x364像素的圖像塊進行編碼。任意大小的輸入圖像會根據寬高比映射到最近的支持分辨率。Aya Vision最多使用12個輸入圖像塊和一個縮略圖（調整為364x364）（共2197個圖像標記）。
支持語言	該模型在23種語言上進行了訓練：英語、法語、西班牙語、意大利語、德語、葡萄牙語、日語、韓語、阿拉伯語、中文（簡體和繁體）、俄語、波蘭語、土耳其語、越南語、荷蘭語、捷克語、印尼語、烏克蘭語、羅馬尼亞語、希臘語、印地語、希伯來語和波斯語。
上下文長度	Aya Vision 8B支持16K的上下文長度。

更多關於模型訓練的詳細信息，請查看我們的博客文章。

評估

我們使用 Aya Vision Benchmark 和 m - WildVision 對Aya Vision 8B與 Pangea 7B、Llama - 3.2 11B Vision、Molmo - D 7B、Qwen2.5 - VL 7B、Pixtral 12B 和 Gemini Flash 1.5 8B 進行了評估。勝率使用claude - 3 - 7 - sonnet - 20250219作為評判模型確定，因為與其他模型相比，它具有更優越的評判性能。

我們還使用 m - ArenaHard 對Aya Vision 8B在僅文本輸入情況下的性能與上述模型進行了評估，這是一項具有挑戰性的開放式生成評估，使用gpt - 4o - 2024 - 11 - 20作為評判模型，以勝率進行衡量。

評估結果1 評估結果2 評估結果3 評估結果4