🚀 Llava-CosmosLlama
這是一個土耳其語視覺語言模型,專為多模態視覺指令跟隨任務而設計。它採用了LLaVA(大語言與視覺助手)架構,並集成了ytucosmos/Turkish-Llama-8b-Instruct-v0.1
語言模型。該模型能夠處理視覺(圖像)和文本輸入,使其能夠理解並執行以土耳其語提供的指令。
🚀 快速開始
此模型可處理圖像和文本輸入,理解並執行土耳其語指令。以下是使用示例:
📦 安裝指南
使用lmdeploy
- 安裝依賴:
conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy
💻 使用示例
基礎用法
from lmdeploy import pipeline, ChatTemplateConfig
from lmdeploy.vl import load_image
pipe = pipeline("ytu-ce-cosmos/Turkish-LLaVA-v0.1",
chat_template_config=ChatTemplateConfig(model_name='llama3'))
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/idefics-im-captioning.jpg"
image = load_image(url)
response = pipe(('Bu resimde öne çıkan ögeler nelerdir?', image))
print(response)
"""
Resimde, çiçeklerle dolu bir bahçede yavru bir köpek ve arka planda bir ağaç yer alıyor.
Köpek, çiçeklerin arasında otururken ve etrafını saran çiçeklerin arasından bakarken görülebiliyor.
Bu sahne, köpeğin bahçede geçirdiği zamanın tadını çıkardığı ve çevresini keşfettiği sakin ve huzurlu bir atmosferi yansıtıyor.
"""
示例中使用的圖片:

📚 詳細文檔
模型詳情
該模型在**LLaVA-CC3M-Pretrain-595K** 數據集上進行了預訓練,該數據集使用DeepL翻譯為土耳其語。
為了增強其視覺推理和理解能力,它還使用了以下數據集的子集進行了進一步的微調:
屬性 |
詳情 |
模型類型 |
圖像文本到文本 |
訓練數據 |
在LLaVA - CC3M - Pretrain - 595K數據集上預訓練,使用DeepL將其翻譯為土耳其語;進一步使用斯坦福GQA、視覺基因組、COCO和110K多輪指令跟隨數據(書籍封面)進行微調 |
📄 許可證
本項目採用MIT許可證。
致謝
- 本工作中使用的計算資源由土耳其國家高性能計算中心(UHeM)提供。
- 感謝Hugging Face團隊的慷慨支持,使得能夠從他們的S3存儲中下載模型 🤗
引用
@inproceedings{zeer2024cosmos,
title={Cosmos-LLaVA: Chatting with the Visual},
author={Zeer, Ahmed and Dogan, Eren and Erdem, Yusuf and {\.I}nce, Elif and Shbib, Osama and Uzun, M Egemen and Uz, Atahan and Yuce, M Kaan and Kesgin, H Toprak and Amasyali, M Fatih},
booktitle={2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP)},
pages={1--7},
year={2024},
organization={IEEE}
}
聯繫方式
伊迪茲技術大學計算機工程系COSMOS人工智能研究小組
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr