🚀 Cohere Labs Aya Vision 8B模型
Cohere Labs Aya Vision 8B 是一个拥有80亿参数的模型的开放权重研究版本,它具备先进的能力,针对各种视觉语言用例进行了优化,包括光学字符识别(OCR)、图像描述、视觉推理、摘要生成、问答、代码处理等。它是一个多语言模型,在视觉和语言方面针对23种语言进行了训练。
本模型卡片对应Aya Vision模型的80亿参数版本。我们还发布了320亿参数版本,你可以点击此处查看。
🚀 快速开始
在线体验
在下载模型权重之前,你可以在 Cohere playground 或我们专门的 Hugging Face Space 中尝试Aya Vision聊天功能,进行交互式探索。
WhatsApp集成
你还可以通过流行的即时通讯服务WhatsApp与Aya Vision进行对话。点击此链接,即可打开与Aya Vision的WhatsApp聊天窗口。
如果你尚未在设备上安装WhatsApp,可能需要先进行安装;如果你已在手机上安装,可以按照屏幕提示将手机与WhatsApp Web进行关联。最后,你将看到一个文本窗口,可用于与模型进行聊天。有关我们的WhatsApp集成的更多详细信息,请点击此处查看。
示例笔记本
你还可以查看以下笔记本,了解如何将Aya Vision用于不同的用例。
✨ 主要特性
- 多语言支持:该模型在23种语言的视觉和语言任务上进行了训练,包括英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语、中文(简体和繁体)、俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印尼语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。
- 先进的视觉语言能力:具备OCR、图像描述、视觉推理、摘要生成、问答、代码处理等多种能力。
- 长上下文支持:支持16K的上下文长度。
📦 安装指南
请从包含此模型必要更改的源仓库安装 transformers
:
💻 使用示例
基础用法
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "CohereLabs/aya-vision-8b"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
{"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
]},
]
inputs = processor.apply_chat_template(
messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)
gen_tokens = model.generate(
**inputs,
max_new_tokens=300,
do_sample=True,
temperature=0.3,
)
print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
高级用法
from transformers import pipeline
pipe = pipeline(model="CohereLabs/aya-vision-8b", task="image-text-to-text", device_map="auto")
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
{"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
]},
]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)
print(outputs)
📚 详细文档
模型详情
属性 |
详情 |
输入 |
模型接受文本和图像作为输入。 |
输出 |
模型生成文本。 |
模型架构 |
这是一个视觉语言模型,它基于 Command R7B 多语言语言模型,并使用 Aya Expanse配方 进行进一步的后训练。通过多模态适配器将其与 SigLIP2 - patch14 - 384 视觉编码器配对,以实现视觉语言理解。 |
图像处理 |
我们使用 169个视觉标记 对分辨率为 364x364像素 的图像块进行编码。任意大小的输入图像会根据宽高比映射到最近的支持分辨率。Aya Vision最多使用12个输入图像块和一个缩略图(调整为364x364)(共2197个图像标记)。 |
支持语言 |
该模型在23种语言上进行了训练:英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语、中文(简体和繁体)、俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印尼语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。 |
上下文长度 |
Aya Vision 8B支持16K的上下文长度。 |
更多关于模型训练的详细信息,请查看 我们的博客文章。
评估
我们使用 Aya Vision Benchmark 和 m - WildVision 对Aya Vision 8B与 Pangea 7B、Llama - 3.2 11B Vision、Molmo - D 7B、Qwen2.5 - VL 7B、Pixtral 12B 和 Gemini Flash 1.5 8B 进行了评估。胜率使用claude - 3 - 7 - sonnet - 20250219作为评判模型确定,因为与其他模型相比,它具有更优越的评判性能。
我们还使用 m - ArenaHard 对Aya Vision 8B在仅文本输入情况下的性能与上述模型进行了评估,这是一项具有挑战性的开放式生成评估,使用gpt - 4o - 2024 - 11 - 20作为评判模型,以胜率进行衡量。

模型卡片联系方式
如果对本模型卡片中的细节有错误反馈或额外问题,请联系 labs@cohere.com。
使用条款
我们希望通过向全球研究人员发布这个高性能的80亿参数视觉语言模型的权重,使基于社区的研究工作更加容易开展。
该模型受 CC - BY - NC 许可证约束,同时需要遵守 Cohere Lab的可接受使用政策。
📄 许可证
本模型采用 CC - BY - NC 许可证,同时需要遵守 Cohere Lab的可接受使用政策。