🚀 Cohere Labs Aya Vision 8B
Cohere Labs Aya Vision 8Bは、OCR、キャプショニング、視覚推論、要約、質問応答、コードなど、さまざまなビジョン言語のユースケースに最適化された高度な機能を備えた、80億パラメータのモデルのオープンウェイト研究リリースです。
このモデルは、ビジョンと言語の分野で23言語で優れた性能を発揮するように学習された多言語モデルです。
このモデルカードは、Aya Visionモデルの80億パラメータバージョンに対応しています。また、320億パラメータのバージョンもリリースしており、こちらで見ることができます。
🚀 クイックスタート
モデルの概要
試してみる
ウェイトをダウンロードする前に、Cohereプレイグラウンド または専用のHugging Face Space でAya Visionチャットを試すことができます。
WhatsApp統合
人気のメッセージングサービスであるWhatsAppを通じてAya Visionと会話することもできます。このリンク を使用して、Aya VisionとのWhatsAppチャットボックスを開きます。
マシンにWhatsAppがインストールされていない場合は、インストールする必要があります。また、携帯電話にWhatsAppがインストールされている場合は、画面の指示に従って携帯電話とWhatsApp Webをリンクすることができます。最後に、モデルとチャットするためのテキストウィンドウが表示されます。WhatsApp統合の詳細については、こちら を参照してください。
サンプルノートブック
さまざまなユースケースでAya Visionを使用する方法を理解するために、以下のノートブック をチェックすることもできます。
✨ 主な機能
Cohere Labs Aya Vision 8Bは、高度なビジョン言語機能を備えた多言語モデルです。以下のようなユースケースに最適化されています。
- OCR(光学式文字認識)
- キャプショニング(画像の説明生成)
- 視覚推論(画像に基づく推論)
- 要約(文章の要約生成)
- 質問応答(画像や文章に関する質問に答える)
- コード生成など
📦 インストール
transformers
ライブラリをソースリポジトリからインストールします。これには、このモデルに必要な変更が含まれています。
💻 使用例
基本的な使用法
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "CohereLabs/aya-vision-8b"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
{"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
]},
]
inputs = processor.apply_chat_template(
messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)
gen_tokens = model.generate(
**inputs,
max_new_tokens=300,
do_sample=True,
temperature=0.3,
)
print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
高度な使用法
transformers
のpipeline
抽象化を使用して、モデルを直接使用することもできます。
from transformers import pipeline
pipe = pipeline(model="CohereLabs/aya-vision-8b", task="image-text-to-text", device_map="auto")
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
{"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
]},
]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)
print(outputs)
📚 ドキュメント
モデルの詳細
属性 |
详情 |
入力 |
モデルは入力テキストと画像を受け取ります。 |
出力 |
モデルはテキストを生成します。 |
モデルアーキテクチャ |
これはビジョン言語モデルであり、Command R7Bに基づく多言語言語モデルを使用し、Aya Expanseレシピでさらに事後学習され、SigLIP2-patch14-384ビジョンエンコーダとマルチモーダルアダプターを介してビジョン言語理解のために結合されています。 |
画像処理 |
解像度が364x364ピクセルの画像タイルをエンコードするために、169個のビジュアルトークンを使用します。任意のサイズの入力画像は、アスペクト比に基づいて最も近いサポートされる解像度にマッピングされます。Aya Visionは最大12個の入力タイルとサムネイル(364x364にリサイズ)を使用します(2197個の画像トークン)。 |
対応言語 |
モデルは、英語、フランス語、スペイン語、イタリア語、ドイツ語、ポルトガル語、日本語、韓国語、アラビア語、中国語(簡体字と繁体字)、ロシア語、ポーランド語、トルコ語、ベトナム語、オランダ語、チェコ語、インドネシア語、ウクライナ語、ルーマニア語、ギリシャ語、ヒンディー語、ヘブライ語、ペルシャ語の23言語で学習されています。 |
コンテキスト長 |
Aya Vision 8Bは、16Kのコンテキスト長をサポートしています。 |
モデルの学習方法の詳細については、ブログ記事を参照してください。
評価
Aya Vision 8Bを、Pangea 7B、Llama-3.2 11B Vision、Molmo-D 7B、Qwen2.5-VL 7B、Pixtral 12B、Gemini Flash 1.5 8Bと比較して評価しました。評価には、Aya Vision Benchmarkとm-WildVisionを使用しました。勝率は、他のモデルと比較して優れた判断性能を持つclaude-3-7-sonnet-20250219をジャッジとして使用して決定されました。
また、テキストのみの入力に対するAya Vision 8Bの性能も、同じモデルと比較して評価しました。評価には、m-ArenaHardという難しいオープンエンド生成評価を使用し、勝率はgpt-4o-2024-11-20をジャッジとして使用して測定されました。
モデルカードの問い合わせ
このモデルカードの詳細に関するエラーや追加の質問については、labs@cohere.comまでお問い合わせください。
使用条件
このモデルのリリースにより、高性能な80億パラメータのビジョン言語モデルのウェイトを世界中の研究者に公開することで、コミュニティベースの研究活動がよりアクセスしやすくなることを期待しています。
このモデルは、CC-BY-NCに基づいて管理されており、Cohere Labの許容使用ポリシーにも準拠する必要があります。
📄 ライセンス
このモデルは、CC-BY-NCライセンスの下で提供されています。また、Cohere Labの許容使用ポリシーにも準拠する必要があります。