🚀 Llava-CosmosLlama
このモデルは、多モーダルな視覚命令追従タスクに特化したトルコ語の視覚言語モデルです。LLaVA(Large Language and Vision Assistant)アーキテクチャを利用し、ytucosmos/Turkish-Llama-8b-Instruct-v0.1
言語モデルを統合しています。画像やテキストなどの入力を処理し、トルコ語で与えられた命令を理解して実行することができます。
🚀 クイックスタート
このモデルは、多モーダルな視覚命令追従タスクを実行するために設計されています。以下の手順に従って、モデルを使用することができます。
✨ 主な機能
- トルコ語の視覚言語モデルで、画像とテキストの入力を処理できます。
- LLaVAアーキテクチャを利用し、
ytucosmos/Turkish-Llama-8b-Instruct-v0.1
言語モデルを統合しています。
- 多モーダルな視覚命令追従タスクに特化しています。
📦 インストール
lmdeployを使用する場合
- 必要なパッケージをインストールします。
conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy
💻 使用例
基本的な使用法
from lmdeploy import pipeline, ChatTemplateConfig
from lmdeploy.vl import load_image
pipe = pipeline("ytu-ce-cosmos/Turkish-LLaVA-v0.1",
chat_template_config=ChatTemplateConfig(model_name='llama3'))
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/idefics-im-captioning.jpg"
image = load_image(url)
response = pipe(('Bu resimde öne çıkan ögeler nelerdir?', image))
print(response)
"""
Resimde, çiçeklerle dolu bir bahçede yavru bir köpek ve arka planda bir ağaç yer alıyor.
Köpek, çiçeklerin arasında otururken ve etrafını saran çiçeklerin arasından bakarken görülebiliyor.
Bu sahne, köpeğin bahçede geçirdiği zamanın tadını çıkardığı ve çevresini keşfettiği sakin ve huzurlu bir atmosferi yansıtıyor.
"""
この例で使用されている画像:

📚 ドキュメント
モデルの詳細
このモデルは、LLaVA-CC3M-Pretrain-595K データセットで事前学習され、DeepL Translateを使用してトルコ語に翻訳されました。
また、以下のデータセットのサブセットを使用して微調整され、視覚的な推論と理解能力が向上しています。
Property |
Details |
Model Type |
トルコ語の視覚言語モデル |
Training Data |
LLaVA-CC3M-Pretrain-595K、Stanford GQA、VisualGenome、COCO、110K multi-turn instruction following data(書籍の表紙) |
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
謝辞
- この研究で使用されたコンピューティングリソースは、トルコの国立高性能コンピューティングセンター(UHeM)によって提供されました。
- Hugging Faceチームの寛大な支援により、彼らのS3ストレージからモデルをダウンロードすることが可能になりました 🤗
引用
@inproceedings{zeer2024cosmos,
title={Cosmos-LLaVA: Chatting with the Visual},
author={Zeer, Ahmed and Dogan, Eren and Erdem, Yusuf and {\.I}nce, Elif and Shbib, Osama and Uzun, M Egemen and Uz, Atahan and Yuce, M Kaan and Kesgin, H Toprak and Amasyali, M Fatih},
booktitle={2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP)},
pages={1--7},
year={2024},
organization={IEEE}
}
連絡先
COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr