Turkish-LLaVA-v0.1オープンソースビジュアル言語モデル - 画像とテキストの入力を無料で処理し、トルコ語の命令を実行

ホーム

Turkish LLaVA V0.1

ytu-ce-cosmosによって開発

マルチモーダル視覚指示追従タスク専用に設計されたトルコ語視覚言語モデルで、視覚（画像）とテキスト入力を同時に処理し、トルコ語で提供される指示を理解して実行できます。

画像生成テキスト

Safetensors

その他オープンソースライセンス:MIT #トルコ語視覚質問応答 #マルチモーダル指示追従 #OCR強化

ダウンロード数 86

リリース時間 : 10/31/2024

モデル概要

このモデルはLLaVAアーキテクチャを採用し、トルコ語Llama言語モデルを統合しており、画像とテキスト入力を処理し、視覚推論と指示追従タスクを実行できます。

モデル特徴

マルチモーダル処理能力

視覚（画像）とテキスト入力を同時に処理し、クロスモーダル理解を実現します。

トルコ語サポート

トルコ語に特化して最適化された視覚言語モデルで、トルコ語ユーザーに適しています。

指示追従

ユーザーが提供する視覚およびテキスト指示を理解して実行できます。

OCR強化

書籍カバーの11万回のマルチターン指示データを含むトレーニングにより、OCR関連タスクのパフォーマンスが向上しました。

モデル能力

画像理解

テキスト生成

視覚推論

マルチモーダル対話

指示追従

使用事例

視覚質問応答

画像内容の説明

ユーザーが提供した画像に基づいて、詳細なトルコ語の説明を生成します。

例では、庭で遊ぶ子犬のシーンを成功裏に説明しました。

視覚推論

画像内容に基づいてユーザーの質問に答えます。

教育

書籍カバー識別

書籍のカバーを識別し、関連情報を提供します。

🚀 Llava-CosmosLlama

このモデルは、多モーダルな視覚命令追従タスクに特化したトルコ語の視覚言語モデルです。LLaVA（Large Language and Vision Assistant）アーキテクチャを利用し、ytucosmos/Turkish-Llama-8b-Instruct-v0.1言語モデルを統合しています。画像やテキストなどの入力を処理し、トルコ語で与えられた命令を理解して実行することができます。

🚀 クイックスタート

このモデルは、多モーダルな視覚命令追従タスクを実行するために設計されています。以下の手順に従って、モデルを使用することができます。

✨ 主な機能

トルコ語の視覚言語モデルで、画像とテキストの入力を処理できます。
LLaVAアーキテクチャを利用し、ytucosmos/Turkish-Llama-8b-Instruct-v0.1言語モデルを統合しています。
多モーダルな視覚命令追従タスクに特化しています。

📦 インストール

lmdeployを使用する場合

必要なパッケージをインストールします。

conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy

💻 使用例

基本的な使用法

from lmdeploy import pipeline, ChatTemplateConfig
from lmdeploy.vl import load_image

pipe = pipeline("ytu-ce-cosmos/Turkish-LLaVA-v0.1",
                chat_template_config=ChatTemplateConfig(model_name='llama3'))

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/idefics-im-captioning.jpg"
image = load_image(url)

response = pipe(('Bu resimde öne çıkan ögeler nelerdir?', image))

print(response)

"""
Resimde, çiçeklerle dolu bir bahçede yavru bir köpek ve arka planda bir ağaç yer alıyor.
Köpek, çiçeklerin arasında otururken ve etrafını saran çiçeklerin arasından bakarken görülebiliyor.
Bu sahne, köpeğin bahçede geçirdiği zamanın tadını çıkardığı ve çevresini keşfettiği sakin ve huzurlu bir atmosferi yansıtıyor.
"""

この例で使用されている画像:

📚 ドキュメント

モデルの詳細

このモデルは、LLaVA-CC3M-Pretrain-595K データセットで事前学習され、DeepL Translateを使用してトルコ語に翻訳されました。また、以下のデータセットのサブセットを使用して微調整され、視覚的な推論と理解能力が向上しています。

Stanford GQA
VisualGenome
COCO
書籍の表紙からなる 110Kのマルチターン命令追従データ を使用して、OCRに関するタスクでのモデルの能力を向上させています。

Property	Details
Model Type	トルコ語の視覚言語モデル
Training Data	LLaVA-CC3M-Pretrain-595K、Stanford GQA、VisualGenome、COCO、110K multi-turn instruction following data（書籍の表紙）

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

謝辞

この研究で使用されたコンピューティングリソースは、トルコの国立高性能コンピューティングセンター（UHeM）によって提供されました。
Hugging Faceチームの寛大な支援により、彼らのS3ストレージからモデルをダウンロードすることが可能になりました 🤗

引用

@inproceedings{zeer2024cosmos,
  title={Cosmos-LLaVA: Chatting with the Visual},
  author={Zeer, Ahmed and Dogan, Eren and Erdem, Yusuf and {\.I}nce, Elif and Shbib, Osama and Uzun, M Egemen and Uz, Atahan and Yuce, M Kaan and Kesgin, H Toprak and Amasyali, M Fatih},
  booktitle={2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP)},
  pages={1--7},
  year={2024},
  organization={IEEE}
}