Chitrarth開源多語言視覺語言模型 - 連接圖像與語言，支持印度多種語言

首頁

Chitrarth

由krutrim-ai-labs開發

Chitrarth是一個多語言視覺語言模型，旨在連接視覺與語言，特別關注印度多種語言的支持。

圖像生成文本

Safetensors

支持多種語言開源協議:其他 #多語言圖像理解 #印度本土語言支持 #視覺語言橋樑

下載量 410

發布時間 : 2/2/2025

模型概述

該模型專注於圖像文本到文本的任務，支持多種印度語言，旨在為十億人提供視覺與語言之間的橋樑。

模型特點

多語言支持

支持11種印度主要語言，包括印地語、孟加拉語、泰米爾語等。

視覺語言連接

專注於將視覺信息轉換為文本，架起視覺與語言之間的橋樑。

社區驅動

採用krutrim社區許可協議，鼓勵社區參與和貢獻。

模型能力

圖像文本識別

多語言文本生成

視覺內容理解

使用案例

多語言內容生成

多語言圖像描述

為圖像生成多種印度語言的描述文本。

無障礙服務

視覺輔助

為視障人士提供圖像內容的語言描述。

🚀 奇塔拉思（Chitrarth）：為十億人架起視覺與語言的橋樑

奇塔拉思（Chitrarth）是一款多語言視覺語言模型，它將先進的多語言大語言模型（LLM）與視覺模塊相結合。該模型主要基於多語言圖像 - 文本數據進行訓練，旨在支持包括印地語、孟加拉語、泰盧固語、泰米爾語、馬拉地語、古吉拉特語、卡納達語、馬拉雅拉姆語、奧里亞語和阿薩姆語在內的10種重要印度語言，以及英語。

🚀 快速開始

若要通過網頁界面訪問該模型，可訪問奇塔拉思在線。

推理代碼示例

git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth

cd Chitrarth 
pip install -e .

python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "

✨ 主要特性

模型類型：以Krutrim - 1作為基礎大語言模型（LLM），SigLIP作為視覺編碼器，並配備2層多層感知器（MLP）。
支持語言：支持10種印度語言（印地語、孟加拉語、泰盧固語、泰米爾語、馬拉地語、古吉拉特語、卡納達語、馬拉雅拉姆語、奧里亞語和阿薩姆語）以及英語。
用途：通用視覺語言模型。

💻 使用示例

基礎用法

# 克隆倉庫
git clone https://github.com/ola-krutrim/Chitrarth.git
# 創建並激活虛擬環境
conda create --name chitrarth python=3.10
conda activate chitrarth
# 進入項目目錄並安裝依賴
cd Chitrarth 
pip install -e .
# 運行推理腳本
python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "

📚 詳細文檔

評估結果

該模型在不同學術多模態任務中與最先進的視覺語言模型（VLMs）進行了性能對比。在不同基準測試中，奇塔拉思（Chitrarth）始終優於IDEFICS 2（7B）和PALO 7B，同時在文本視覺問答（TextVQA）和Vizwiz任務中也具有競爭力。

我們推出了 巴拉特基準（BharatBench），這是一套專為 10種資源相對匱乏的印度語言 在 3項任務 上設計的綜合評估基準套件。奇塔拉思（Chitrarth）在巴拉特基準評估框架上的表現為該領域的未來研究奠定了堅實基礎。該模型的獨特之處在於它能夠處理所有包含的語言。

以下是奇塔拉思（Chitrarth）在巴拉特基準的三項評估任務（教皇評估（POPE）、LLaVA - 基準（LLaVA - Bench） 和 多模態評估（MMVet））上的性能結果：

語言	教皇評估（POPE）	LLaVA - 基準（LLaVA - Bench）	多模態評估（MMVet）
泰盧固語	79.9	54.8	43.76
印地語	78.68	51.5	38.85
孟加拉語	83.24	53.7	33.24
馬拉雅拉姆語	85.29	55.5	25.36
卡納達語	85.52	58.1	46.19
阿薩姆語	55.59	59.1	37.29
泰米爾語	83.28	58.3	34.31
馬拉地語	79.17	52.8	40.96
古吉拉特語	84.75	55.9	39.03
奧里亞語	82.03	62.8	19.67
英語	87.63	67.9	30.49

📄 許可證

本代碼倉庫和模型權重遵循克魯特里姆社區許可證（Krutrim Community License）。

📚 引用

@inproceedings{
  khan2024chitrarth,
  title={Chitrarth: Bridging Vision and Language for a Billion People},
  author={Shaharukh Khan, Ayush Tarun, Abhinav Ravi, Ali Faraz, Praveen Kumar Pokala, Anagha Bhangare, Raja Kolla, Chandra Khatri, Shubham Agarwal},
  booktitle={NeurIPS Multimodal Algorithmic Reasoning},
  year={2024},
}