🚀 奇塔拉思(Chitrarth):為十億人架起視覺與語言的橋樑
奇塔拉思(Chitrarth)是一款多語言視覺語言模型,它將先進的多語言大語言模型(LLM)與視覺模塊相結合。該模型主要基於多語言圖像 - 文本數據進行訓練,旨在支持包括印地語、孟加拉語、泰盧固語、泰米爾語、馬拉地語、古吉拉特語、卡納達語、馬拉雅拉姆語、奧里亞語和阿薩姆語在內的10種重要印度語言,以及英語。
🚀 快速開始
若要通過網頁界面訪問該模型,可訪問 奇塔拉思在線。
推理代碼示例
git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth
cd Chitrarth
pip install -e .
python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "
✨ 主要特性
- 模型類型:以Krutrim - 1作為基礎大語言模型(LLM),SigLIP作為視覺編碼器,並配備2層多層感知器(MLP)。
- 支持語言:支持10種印度語言(印地語、孟加拉語、泰盧固語、泰米爾語、馬拉地語、古吉拉特語、卡納達語、馬拉雅拉姆語、奧里亞語和阿薩姆語)以及英語。
- 用途:通用視覺語言模型。

💻 使用示例
基礎用法
git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth
cd Chitrarth
pip install -e .
python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "
📚 詳細文檔
評估結果

該模型在不同學術多模態任務中與最先進的視覺語言模型(VLMs)進行了性能對比。在不同基準測試中,奇塔拉思(Chitrarth)始終優於IDEFICS 2(7B)和PALO 7B,同時在文本視覺問答(TextVQA)和Vizwiz任務中也具有競爭力。
我們推出了 巴拉特基準(BharatBench),這是一套專為 10種資源相對匱乏的印度語言 在 3項任務 上設計的綜合評估基準套件。奇塔拉思(Chitrarth)在巴拉特基準評估框架上的表現為該領域的未來研究奠定了堅實基礎。該模型的獨特之處在於它能夠處理所有包含的語言。
以下是奇塔拉思(Chitrarth)在巴拉特基準的三項評估任務(教皇評估(POPE)、LLaVA - 基準(LLaVA - Bench) 和 多模態評估(MMVet))上的性能結果:
語言 |
教皇評估(POPE) |
LLaVA - 基準(LLaVA - Bench) |
多模態評估(MMVet) |
泰盧固語 |
79.9 |
54.8 |
43.76 |
印地語 |
78.68 |
51.5 |
38.85 |
孟加拉語 |
83.24 |
53.7 |
33.24 |
馬拉雅拉姆語 |
85.29 |
55.5 |
25.36 |
卡納達語 |
85.52 |
58.1 |
46.19 |
阿薩姆語 |
55.59 |
59.1 |
37.29 |
泰米爾語 |
83.28 |
58.3 |
34.31 |
馬拉地語 |
79.17 |
52.8 |
40.96 |
古吉拉特語 |
84.75 |
55.9 |
39.03 |
奧里亞語 |
82.03 |
62.8 |
19.67 |
英語 |
87.63 |
67.9 |
30.49 |
📄 許可證
本代碼倉庫和模型權重遵循 克魯特里姆社區許可證(Krutrim Community License)。
📚 引用
@inproceedings{
khan2024chitrarth,
title={Chitrarth: Bridging Vision and Language for a Billion People},
author={Shaharukh Khan, Ayush Tarun, Abhinav Ravi, Ali Faraz, Praveen Kumar Pokala, Anagha Bhangare, Raja Kolla, Chandra Khatri, Shubham Agarwal},
booktitle={NeurIPS Multimodal Algorithmic Reasoning},
year={2024},
}
🤝 聯繫我們
歡迎大家貢獻代碼!如果您有任何改進建議或想法,請隨時在GitHub上提交拉取請求。
🙏 致謝
奇塔拉思(Chitrarth)的開發參考了以下項目的代碼:Transformers 和 LLaVA - 1.5。感謝他們的傑出工作!