aya-vision-8bオープンソースの多言語ビジュアル言語モデル - 23の言語の視覚言語タスクを無料でサポート

ホーム

Aya Vision 8b

CohereLabsによって開発

Aya Vision 8Bはオープンウェイトの80億パラメータ多言語視覚言語モデルで、23言語の視覚と言語タスクをサポートします。

画像生成テキスト

Transformers

複数言語対応#多言語視覚理解 #画像テキスト生成 #OCR強化

ダウンロード数 29.94k

リリース時間 : 3/2/2025

モデル概要

OCR、画像説明、視覚推論、要約、質問応答、コードなど多様な視覚言語アプリケーション向けに最適化された多言語モデル。

モデル特徴

多言語サポート

23言語の視覚と言語タスク処理をサポート

効率的な視覚処理

169個の視覚トークンで364x364ピクセル画像ブロックをエンコードし、最大2197個の画像トークンをサポート

長文コンテキストサポート

16Kのコンテキスト長をサポート

オープンウェイト

研究用途向けに80億パラメータ版をオープンウェイトで提供

モデル能力

画像テキスト認識(OCR)

画像説明生成

視覚推論

多言語テキスト生成

画像質問応答

マルチモーダル要約

使用事例

多言語アプリケーション

多言語画像説明

画像に対して異なる言語で説明テキストを生成

23言語の正確な説明をサポート

クロスランゲージ視覚質問応答

画像内容について異なる言語で質問

正確に理解し対応言語で回答

ドキュメント処理

多言語OCR

画像中の多言語テキストを認識

23言語のテキストを高精度で認識

🚀 Cohere Labs Aya Vision 8B

Cohere Labs Aya Vision 8Bは、OCR、キャプショニング、視覚推論、要約、質問応答、コードなど、さまざまなビジョン言語のユースケースに最適化された高度な機能を備えた、80億パラメータのモデルのオープンウェイト研究リリースです。このモデルは、ビジョンと言語の分野で23言語で優れた性能を発揮するように学習された多言語モデルです。

このモデルカードは、Aya Visionモデルの80億パラメータバージョンに対応しています。また、320億パラメータのバージョンもリリースしており、こちらで見ることができます。

🚀 クイックスタート

モデルの概要

開発元: Cohere Labs
問い合わせ先: Cohere Labs
ライセンス: CC-BY-NC 。また、Cohere Labの許容使用ポリシーにも準拠する必要があります。
モデル名: c4ai-aya-vision-8b
モデルサイズ: 80億パラメータ
コンテキスト長: 16K

試してみる

ウェイトをダウンロードする前に、Cohereプレイグラウンドまたは専用のHugging Face Space でAya Visionチャットを試すことができます。

WhatsApp統合

人気のメッセージングサービスであるWhatsAppを通じてAya Visionと会話することもできます。このリンクを使用して、Aya VisionとのWhatsAppチャットボックスを開きます。

マシンにWhatsAppがインストールされていない場合は、インストールする必要があります。また、携帯電話にWhatsAppがインストールされている場合は、画面の指示に従って携帯電話とWhatsApp Webをリンクすることができます。最後に、モデルとチャットするためのテキストウィンドウが表示されます。WhatsApp統合の詳細については、こちらを参照してください。

サンプルノートブック

さまざまなユースケースでAya Visionを使用する方法を理解するために、以下のノートブックをチェックすることもできます。

✨ 主な機能

Cohere Labs Aya Vision 8Bは、高度なビジョン言語機能を備えた多言語モデルです。以下のようなユースケースに最適化されています。

OCR（光学式文字認識）
キャプショニング（画像の説明生成）
視覚推論（画像に基づく推論）
要約（文章の要約生成）
質問応答（画像や文章に関する質問に答える）
コード生成など

📦 インストール

transformersライブラリをソースリポジトリからインストールします。これには、このモデルに必要な変更が含まれています。

# pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'

💻 使用例

基本的な使用法

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "CohereLabs/aya-vision-8b"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.float16
)

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
        {"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
    ]},
    ]

inputs = processor.apply_chat_template(
    messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)

gen_tokens = model.generate(
    **inputs, 
    max_new_tokens=300, 
    do_sample=True, 
    temperature=0.3,
)

print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))

高度な使用法

transformersのpipeline抽象化を使用して、モデルを直接使用することもできます。

from transformers import pipeline

pipe = pipeline(model="CohereLabs/aya-vision-8b", task="image-text-to-text", device_map="auto")

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
        {"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
    ]},
    ]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)

print(outputs)

📚 ドキュメント

モデルの詳細

属性	详情
入力	モデルは入力テキストと画像を受け取ります。
出力	モデルはテキストを生成します。
モデルアーキテクチャ	これはビジョン言語モデルであり、Command R7Bに基づく多言語言語モデルを使用し、Aya Expanseレシピでさらに事後学習され、SigLIP2-patch14-384ビジョンエンコーダとマルチモーダルアダプターを介してビジョン言語理解のために結合されています。
画像処理	解像度が364x364ピクセルの画像タイルをエンコードするために、169個のビジュアルトークンを使用します。任意のサイズの入力画像は、アスペクト比に基づいて最も近いサポートされる解像度にマッピングされます。Aya Visionは最大12個の入力タイルとサムネイル（364x364にリサイズ）を使用します（2197個の画像トークン）。
対応言語	モデルは、英語、フランス語、スペイン語、イタリア語、ドイツ語、ポルトガル語、日本語、韓国語、アラビア語、中国語（簡体字と繁体字）、ロシア語、ポーランド語、トルコ語、ベトナム語、オランダ語、チェコ語、インドネシア語、ウクライナ語、ルーマニア語、ギリシャ語、ヒンディー語、ヘブライ語、ペルシャ語の23言語で学習されています。
コンテキスト長	Aya Vision 8Bは、16Kのコンテキスト長をサポートしています。

モデルの学習方法の詳細については、ブログ記事を参照してください。

評価

Aya Vision 8Bを、Pangea 7B、Llama-3.2 11B Vision、Molmo-D 7B、Qwen2.5-VL 7B、Pixtral 12B、Gemini Flash 1.5 8Bと比較して評価しました。評価には、Aya Vision Benchmarkとm-WildVisionを使用しました。勝率は、他のモデルと比較して優れた判断性能を持つclaude-3-7-sonnet-20250219をジャッジとして使用して決定されました。

また、テキストのみの入力に対するAya Vision 8Bの性能も、同じモデルと比較して評価しました。評価には、m-ArenaHardという難しいオープンエンド生成評価を使用し、勝率はgpt-4o-2024-11-20をジャッジとして使用して測定されました。