T

Turkish LLaVA V0.1

由ytu-ce-cosmos開發
一個專為多模態視覺指令跟隨任務設計的土耳其語視覺語言模型,能夠同時處理視覺(圖像)和文本輸入,理解並執行土耳其語提供的指令。
下載量 86
發布時間 : 10/31/2024

模型概述

該模型採用LLaVA架構,集成了土耳其語Llama語言模型,能夠處理圖像和文本輸入,執行視覺推理和指令跟隨任務。

模型特點

多模態處理能力
能夠同時處理視覺(圖像)和文本輸入,實現跨模態理解。
土耳其語支持
專門針對土耳其語優化的視覺語言模型,適合土耳其語用戶。
指令跟隨
能夠理解並執行用戶提供的視覺和文本指令。
OCR增強
通過包含書籍封面的11萬輪多輪指令數據訓練,提升了OCR相關任務表現。

模型能力

圖像理解
文本生成
視覺推理
多模態對話
指令跟隨

使用案例

視覺問答
圖像內容描述
根據用戶提供的圖像,生成詳細的土耳其語描述。
示例中成功描述了小狗在花園中的場景。
視覺推理
基於圖像內容回答用戶提出的問題。
教育
書籍封面識別
識別書籍封面並提供相關信息。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase