Turkish-LLaVA-v0.1開源視覺語言模型 - 免費處理圖、文輸入執行土語指令

首頁

Turkish LLaVA V0.1

由ytu-ce-cosmos開發

一個專為多模態視覺指令跟隨任務設計的土耳其語視覺語言模型，能夠同時處理視覺（圖像）和文本輸入，理解並執行土耳其語提供的指令。

圖像生成文本

Safetensors

其他開源協議:MIT #土耳其語視覺問答 #多模態指令跟隨 #OCR增強

下載量 86

發布時間 : 10/31/2024

模型概述

該模型採用LLaVA架構，集成了土耳其語Llama語言模型，能夠處理圖像和文本輸入，執行視覺推理和指令跟隨任務。

模型特點

多模態處理能力

能夠同時處理視覺（圖像）和文本輸入，實現跨模態理解。

土耳其語支持

專門針對土耳其語優化的視覺語言模型，適合土耳其語用戶。

指令跟隨

能夠理解並執行用戶提供的視覺和文本指令。

OCR增強

通過包含書籍封面的11萬輪多輪指令數據訓練，提升了OCR相關任務表現。

模型能力

圖像理解

文本生成

視覺推理

多模態對話

指令跟隨

使用案例

視覺問答

圖像內容描述

根據用戶提供的圖像，生成詳細的土耳其語描述。

示例中成功描述了小狗在花園中的場景。

視覺推理

基於圖像內容回答用戶提出的問題。

教育

書籍封面識別

識別書籍封面並提供相關信息。

🚀 Llava-CosmosLlama

這是一個土耳其語視覺語言模型，專為多模態視覺指令跟隨任務而設計。它採用了LLaVA（大語言與視覺助手）架構，並集成了ytucosmos/Turkish-Llama-8b-Instruct-v0.1語言模型。該模型能夠處理視覺（圖像）和文本輸入，使其能夠理解並執行以土耳其語提供的指令。

🚀 快速開始

此模型可處理圖像和文本輸入，理解並執行土耳其語指令。以下是使用示例：

📦 安裝指南

使用`lmdeploy`

安裝依賴：

conda create -n lmdeploy python=3.8 -y
conda activate lmdeploy
pip install lmdeploy

💻 使用示例

基礎用法

from lmdeploy import pipeline, ChatTemplateConfig
from lmdeploy.vl import load_image

pipe = pipeline("ytu-ce-cosmos/Turkish-LLaVA-v0.1",
                chat_template_config=ChatTemplateConfig(model_name='llama3'))

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/idefics-im-captioning.jpg"
image = load_image(url)

response = pipe(('Bu resimde öne çıkan ögeler nelerdir?', image))

print(response)

"""
Resimde, çiçeklerle dolu bir bahçede yavru bir köpek ve arka planda bir ağaç yer alıyor.
Köpek, çiçeklerin arasında otururken ve etrafını saran çiçeklerin arasından bakarken görülebiliyor.
Bu sahne, köpeğin bahçede geçirdiği zamanın tadını çıkardığı ve çevresini keşfettiği sakin ve huzurlu bir atmosferi yansıtıyor.
"""

示例中使用的圖片：

📚 詳細文檔

模型詳情

該模型在**LLaVA-CC3M-Pretrain-595K** 數據集上進行了預訓練，該數據集使用DeepL翻譯為土耳其語。為了增強其視覺推理和理解能力，它還使用了以下數據集的子集進行了進一步的微調：

斯坦福GQA
視覺基因組
COCO
由書籍封面組成的110K多輪指令跟隨數據，以增強模型在OCR相關任務上的能力。

屬性	詳情
模型類型	圖像文本到文本
訓練數據	在LLaVA - CC3M - Pretrain - 595K數據集上預訓練，使用DeepL將其翻譯為土耳其語；進一步使用斯坦福GQA、視覺基因組、COCO和110K多輪指令跟隨數據（書籍封面）進行微調

📄 許可證

本項目採用MIT許可證。

致謝

本工作中使用的計算資源由土耳其國家高性能計算中心（UHeM）提供。
感謝Hugging Face團隊的慷慨支持，使得能夠從他們的S3存儲中下載模型 🤗

引用

@inproceedings{zeer2024cosmos,
  title={Cosmos-LLaVA: Chatting with the Visual},
  author={Zeer, Ahmed and Dogan, Eren and Erdem, Yusuf and {\.I}nce, Elif and Shbib, Osama and Uzun, M Egemen and Uz, Atahan and Yuce, M Kaan and Kesgin, H Toprak and Amasyali, M Fatih},
  booktitle={2024 8th International Artificial Intelligence and Data Processing Symposium (IDAP)},
  pages={1--7},
  year={2024},
  organization={IEEE}
}