🚀 Llava-CosmosLlama
这是一个土耳其语视觉语言模型,专为多模态视觉指令跟随任务而设计。它采用了LLaVA(大语言与视觉助手)架构,并集成了ytucosmos/Turkish-Llama-8b-Instruct-v0.1
语言模型。该模型能够处理视觉(图像)和文本输入,使其能够理解并执行以土耳其语提供的指令。
🚀 快速开始
此模型可处理图像和文本输入,理解并执行土耳其语指令。以下是使用示例:
📦 安装指南
使用lmdeploy
- 安装依赖:
conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy
💻 使用示例
基础用法
from lmdeploy import pipeline, ChatTemplateConfig
from lmdeploy.vl import load_image
pipe = pipeline("ytu-ce-cosmos/Turkish-LLaVA-v0.1",
chat_template_config=ChatTemplateConfig(model_name='llama3'))
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/idefics-im-captioning.jpg"
image = load_image(url)
response = pipe(('Bu resimde öne çıkan ögeler nelerdir?', image))
print(response)
"""
Resimde, çiçeklerle dolu bir bahçede yavru bir köpek ve arka planda bir ağaç yer alıyor.
Köpek, çiçeklerin arasında otururken ve etrafını saran çiçeklerin arasından bakarken görülebiliyor.
Bu sahne, köpeğin bahçede geçirdiği zamanın tadını çıkardığı ve çevresini keşfettiği sakin ve huzurlu bir atmosferi yansıtıyor.
"""
示例中使用的图片:

📚 详细文档
模型详情
该模型在**LLaVA-CC3M-Pretrain-595K** 数据集上进行了预训练,该数据集使用DeepL翻译为土耳其语。
为了增强其视觉推理和理解能力,它还使用了以下数据集的子集进行了进一步的微调:
属性 |
详情 |
模型类型 |
图像文本到文本 |
训练数据 |
在LLaVA - CC3M - Pretrain - 595K数据集上预训练,使用DeepL将其翻译为土耳其语;进一步使用斯坦福GQA、视觉基因组、COCO和110K多轮指令跟随数据(书籍封面)进行微调 |
📄 许可证
本项目采用MIT许可证。
致谢
- 本工作中使用的计算资源由土耳其国家高性能计算中心(UHeM)提供。
- 感谢Hugging Face团队的慷慨支持,使得能够从他们的S3存储中下载模型 🤗
引用
@inproceedings{zeer2024cosmos,
title={Cosmos-LLaVA: Chatting with the Visual},
author={Zeer, Ahmed and Dogan, Eren and Erdem, Yusuf and {\.I}nce, Elif and Shbib, Osama and Uzun, M Egemen and Uz, Atahan and Yuce, M Kaan and Kesgin, H Toprak and Amasyali, M Fatih},
booktitle={2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP)},
pages={1--7},
year={2024},
organization={IEEE}
}
联系方式
伊迪兹技术大学计算机工程系COSMOS人工智能研究小组
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr