Turkish-LLaVA-v0.1开源视觉语言模型 - 免费处理图、文输入执行土语指令

首页

Turkish LLaVA V0.1

由 ytu-ce-cosmos 开发

一个专为多模态视觉指令跟随任务设计的土耳其语视觉语言模型，能够同时处理视觉（图像）和文本输入，理解并执行土耳其语提供的指令。

图像生成文本

Safetensors

其他开源协议:MIT #土耳其语视觉问答 #多模态指令跟随 #OCR增强

下载量 86

发布时间 : 10/31/2024

模型简介

该模型采用LLaVA架构，集成了土耳其语Llama语言模型，能够处理图像和文本输入，执行视觉推理和指令跟随任务。

模型特点

多模态处理能力

能够同时处理视觉（图像）和文本输入，实现跨模态理解。

土耳其语支持

专门针对土耳其语优化的视觉语言模型，适合土耳其语用户。

指令跟随

能够理解并执行用户提供的视觉和文本指令。

OCR增强

通过包含书籍封面的11万轮多轮指令数据训练，提升了OCR相关任务表现。

模型能力

图像理解

文本生成

视觉推理

多模态对话

指令跟随

使用案例

视觉问答

图像内容描述

根据用户提供的图像，生成详细的土耳其语描述。

示例中成功描述了小狗在花园中的场景。

视觉推理

基于图像内容回答用户提出的问题。

教育

书籍封面识别

识别书籍封面并提供相关信息。

🚀 Llava-CosmosLlama

这是一个土耳其语视觉语言模型，专为多模态视觉指令跟随任务而设计。它采用了LLaVA（大语言与视觉助手）架构，并集成了ytucosmos/Turkish-Llama-8b-Instruct-v0.1语言模型。该模型能够处理视觉（图像）和文本输入，使其能够理解并执行以土耳其语提供的指令。

🚀 快速开始

此模型可处理图像和文本输入，理解并执行土耳其语指令。以下是使用示例：

📦 安装指南

使用`lmdeploy`

安装依赖：

conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy

💻 使用示例

基础用法

from lmdeploy import pipeline, ChatTemplateConfig
from lmdeploy.vl import load_image

pipe = pipeline("ytu-ce-cosmos/Turkish-LLaVA-v0.1",
                chat_template_config=ChatTemplateConfig(model_name='llama3'))

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/idefics-im-captioning.jpg"
image = load_image(url)

response = pipe(('Bu resimde öne çıkan ögeler nelerdir?', image))

print(response)

"""
Resimde, çiçeklerle dolu bir bahçede yavru bir köpek ve arka planda bir ağaç yer alıyor.
Köpek, çiçeklerin arasında otururken ve etrafını saran çiçeklerin arasından bakarken görülebiliyor.
Bu sahne, köpeğin bahçede geçirdiği zamanın tadını çıkardığı ve çevresini keşfettiği sakin ve huzurlu bir atmosferi yansıtıyor.
"""

示例中使用的图片：

📚 详细文档

模型详情

该模型在**LLaVA-CC3M-Pretrain-595K** 数据集上进行了预训练，该数据集使用DeepL翻译为土耳其语。为了增强其视觉推理和理解能力，它还使用了以下数据集的子集进行了进一步的微调：

斯坦福GQA
视觉基因组
COCO
由书籍封面组成的110K多轮指令跟随数据，以增强模型在OCR相关任务上的能力。

属性	详情
模型类型	图像文本到文本
训练数据	在LLaVA - CC3M - Pretrain - 595K数据集上预训练，使用DeepL将其翻译为土耳其语；进一步使用斯坦福GQA、视觉基因组、COCO和110K多轮指令跟随数据（书籍封面）进行微调

📄 许可证

本项目采用MIT许可证。

致谢

本工作中使用的计算资源由土耳其国家高性能计算中心（UHeM）提供。
感谢Hugging Face团队的慷慨支持，使得能够从他们的S3存储中下载模型 🤗

引用

@inproceedings{zeer2024cosmos,
  title={Cosmos-LLaVA: Chatting with the Visual},
  author={Zeer, Ahmed and Dogan, Eren and Erdem, Yusuf and {\.I}nce, Elif and Shbib, Osama and Uzun, M Egemen and Uz, Atahan and Yuce, M Kaan and Kesgin, H Toprak and Amasyali, M Fatih},
  booktitle={2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP)},
  pages={1--7},
  year={2024},
  organization={IEEE}
}