オープンソースのtvl - mini - 0.1モデル - ロシア語で微調整され、マルチモーダルタスクの無料デプロイをサポート

ホーム

Tvl Mini 0.1

2Vasabiによって開発

これはロシア語対応のQwen2-VL-2BモデルにLORA微調整を施したバージョンで、マルチモーダルタスクをサポートします。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ロシア語・英語マルチモーダル #視覚的質問応答最適化 #小規模パラメータ微調整

ダウンロード数 23

リリース時間 : 9/13/2024

モデル概要

このモデルはQwen2-VL-2B-Instructを基にLORA微調整を施したロシア語マルチモーダルモデルで、主にテキスト生成タスクに使用され、視覚的推論、画像説明、視覚的質問応答など様々なマルチモーダルタスクをサポートします。

モデル特徴

多言語サポート

特にロシア語に最適化されつつ、英語能力も保持

マルチモーダル能力

画像とテキストの統合処理をサポートし、視覚的推論や質問応答が可能

効率的な微調整

LORA技術を使用してベースモデルを効率的に微調整

モデル能力

テキスト生成

視覚的推論

画像説明

視覚的質問応答

マルチモーダル対話

使用事例

コンテンツ生成

画像キャプション生成

入力画像に基づいて詳細な文章説明を生成

画像の主要な内容とシーンを正確に説明可能

インテリジェントQA

視覚的質問応答

画像内容に関する様々な質問に回答

画像内容を理解し関連する回答を提供可能

🚀 tvl - mini

このプロジェクトは、Qwen2 - VL - 2Bをロシア語でLORAファインチューニングしたものです。テキスト生成タスクに特化し、マルチモーダルなデータを扱うことができます。

🚀 クイックスタート

あなたは [このノートブック](https://www.kaggle.com/code/artemdzhalilov/tvl - hand - test) を実行するか、以下のコードを実行することができます。

まず、qwen - vl - utilsと開発版のtransformersをインストールします。

pip install qwen-vl-utils
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f

次に、以下のコードを実行します。

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "2Vasabi/tvl-mini-0.1", torch_dtype=torch.bfloat16, device_map="auto"
)

processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://i.ibb.co/d0QL8s6/images.jpg",
            },
            {"type": "text", "text": "Кратко опиши что ты видишь на изображении"},
        ],
    }
]

text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)

inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=1000)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

✨ 主な機能

このモデルは、Qwen2 - VL - 2Bをロシア語でLORAファインチューニングしたもので、マルチモーダルなデータを用いたテキスト生成に特化しています。

📦 インストール

pip install qwen-vl-utils
pip install --no-cache-dir git+https://github.com/huggingface/transformers@19e6e80e10118f855137b90740936c0b11ac397f

📚 ドキュメント

説明

これは、Qwen2 - VL - 2Bをロシア語でLORAファインチューニングしたモデルです。

データ

データセットには以下が含まれます。

GrandMaster - PRO - MAXデータセット (68kサンプル)
視覚推論 (36kサンプル) #学習中
キャプショニング (34kサンプル) #学習中
知識ベースのVQA (35kサンプル) #学習中
VQA (80kサンプル) #学習中
分類 (21kサンプル) #学習中
会話 (11kサンプル) #学習中

ベンチマーク

TODO

📄 ライセンス

このプロジェクトはApache - 2.0ライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご