Yi - VL - 6B - hfオープンソース多モーダルビジュアル言語モデル - 中国語と英語の両言語のビジュアル質問応答タスクをサポート

ホーム

Yi VL 6B Hf

BUAADreamerによって開発

Yi-VL-6Bは01-AIによって開発されたマルチモーダル視覚言語モデルで、中国語と英語をサポートし、視覚質問応答などのタスクに適しています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:その他 #マルチモーダル視覚質問応答 #中英二言語対応 #効率的なファインチューニング適応

ダウンロード数 55

リリース時間 : 5/14/2024

モデル概要

Yi-VL-6BはYiシリーズに基づくマルチモーダル視覚言語モデルで、画像とテキストの共同タスク（視覚質問応答、画像キャプション生成など）を処理できます。

モデル特徴

マルチモーダル能力

画像とテキスト入力を同時に処理し、視覚と言語の共同理解を実現します。

効率的なファインチューニングサポート

LLaMA-Factoryツールキットを使用した効率的なファインチューニングを推奨し、下流タスクへの適応を容易にします。

中英二言語対応

中国語と英語の視覚言語タスク処理をネイティブにサポートします。

モデル能力

視覚質問応答

画像理解

マルチモーダル推論

使用事例

教育

視覚質問応答による学習支援

学生が画像を通じて質問し、関連知識の説明を得るのを支援します

コンテンツ理解

画像内容の説明生成

画像に対して自動的にテキスト説明を生成します

🚀 トランスフォーマー

このライブラリは、Yi-VL-6B モデルのHuggingfaceバージョンです。下流タスクの微調整に使用でき、効率的な微調整ツールキットの使用をおすすめします。

🚀 クイックスタート

このモデルは Yi-VL-6B のHuggingfaceバージョンです。下流タスクの微調整に使用でき、効率的な微調整ツールキットの使用をおすすめします。

✨ 主な機能

開発元: 01-AI
言語: 中国語/英語
ライセンス: Yi Series Model License

💻 使用例

基本的な使用法

import requests
from PIL import Image

import torch
from transformers import AutoProcessor, AutoModelForVision2Seq, LlavaConfig
import transformers
from torch import nn

class LlavaMultiModalProjectorYiVL(nn.Module):
    def __init__(self, config: "LlavaConfig"):
        super().__init__()
        self.linear_1 = nn.Linear(config.vision_config.hidden_size, config.text_config.hidden_size, bias=True)
        self.linear_2 = nn.LayerNorm(config.text_config.hidden_size, bias=True)
        self.linear_3 = nn.Linear(config.text_config.hidden_size, config.text_config.hidden_size, bias=True)
        self.linear_4 = nn.LayerNorm(config.text_config.hidden_size, bias=True)
        self.act = nn.GELU()

    def forward(self, image_features):
        hidden_states = self.linear_1(image_features)
        hidden_states = self.linear_2(hidden_states)
        hidden_states = self.act(hidden_states)
        hidden_states = self.linear_3(hidden_states)
        hidden_states = self.linear_4(hidden_states)
        return hidden_states
# Monkey patch of LlavaMultiModalProjector is mandatory
transformers.models.llava.modeling_llava.LlavaMultiModalProjector = LlavaMultiModalProjectorYiVL

model_id = "BUAADreamer/Yi-VL-6B-hf"

messages = [
  { "role": "user", "content": "<image>What's in the picture?" }
]
image_file = "http://images.cocodataset.org/val2017/000000039769.jpg"

model = AutoModelForVision2Seq.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True, 
).to(0)
processor = AutoProcessor.from_pretrained(model_id)

text = [processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)]
images = [Image.open(requests.get(image_file, stream=True).raw)]
inputs = processor(text=text, images=images, return_tensors='pt').to(0, torch.float16)

output = model.generate(**inputs, max_new_tokens=200)
output = processor.batch_decode(output, skip_special_tokens=True)
print(output.split("Assistant:")[-1].strip())

高度な使用法

LLaMA-Factory のCLIコマンドを使用してWebデモを起動することもできます。

llamafactory-cli webchat \
--model_name_or_path BUAADreamer/Yi-VL-6B-hf \
--template yivl \
--visual_inputs

📚 ドキュメント

lmms-eval Evaluation Results

指標	数値
MMMU_val	36.8
CMMMU_val	32.2

📄 ライセンス

このプロジェクトは other ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご