🚀 チトラルト: 10億人のためのビジョンと言語を架ける橋
チトラルト(Chitra: 画像; Artha: 意味)は、最先端の多言語大規模言語モデル(LLM)とビジョンモジュールを統合した多言語の視覚言語モデルです。このモデルは主に多言語の画像テキストデータで学習されており、ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オリヤー語、アッサム語、英語を含む10の主要なインドの言語で動作するように設計されています。
論文リンク👁️

🚀 クイックスタート
チトラルトは、最先端の多言語大規模言語モデル(LLM)とビジョンモジュールを統合した多言語の視覚言語モデルです。このモデルは主に多言語の画像テキストデータで学習されており、複数のインドの言語と英語で動作します。
✨ 主な機能
- モデル:Krutrim - 1をベースのLLMとして使用し、SigLIPを2層のMLPを持つビジュアルエンコーダーとして使用
- サポート言語:ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オリヤー語、アッサム語、英語の10のインドの言語
- 用途:汎用の視覚言語モデル

📦 インストール
git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth
cd Chitrarth
pip install -e .
💻 使用例
基本的な使用法
python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "
📚 ドキュメント
APIプラットフォーム
Chitrarth Onlineにアクセスして、ウェブインターフェースからモデルにアクセスできます。
評価結果

様々な学術的なマルチモーダルタスクにおける最先端の視覚言語モデルとの性能比較です。当モデルは、様々なベンチマークでIDEFICS 2 (7B) とPALO 7Bを常に上回り、TextVQAとVizwizでも競争力を保っています。
我々は、3つのタスクにわたる10の資源が少ないインドの言語用に設計された包括的な評価ベンチマークセットであるBharatBenchを導入しました。チトラルトのBharatBench評価フレームワークでの性能は、この分野の将来の研究に強力なベースラインを設定します。当モデルは、含まれるすべての言語を扱う能力が独特です。
以下は、BharatBenchの3つの評価タスク(POPE、LLaVA - Bench、MMVet)におけるチトラルトの性能結果です。
言語 |
POPE |
LLaVA - Bench |
MMVet |
テルグ語 |
79.9 |
54.8 |
43.76 |
ヒンディー語 |
78.68 |
51.5 |
38.85 |
ベンガル語 |
83.24 |
53.7 |
33.24 |
マラヤーラム語 |
85.29 |
55.5 |
25.36 |
カンナダ語 |
85.52 |
58.1 |
46.19 |
アッサム語 |
55.59 |
59.1 |
37.29 |
タミル語 |
83.28 |
58.3 |
34.31 |
マラーティー語 |
79.17 |
52.8 |
40.96 |
グジャラート語 |
84.75 |
55.9 |
39.03 |
オリヤー語 |
82.03 |
62.8 |
19.67 |
英語 |
87.63 |
67.9 |
30.49 |
📄 ライセンス
このコードリポジトリとモデルの重みは、Krutrim Community Licenseの下でライセンスされています。
引用
@inproceedings{
khan2024chitrarth,
title={Chitrarth: Bridging Vision and Language for a Billion People},
author={Shaharukh Khan, Ayush Tarun, Abhinav Ravi, Ali Faraz, Praveen Kumar Pokala, Anagha Bhangare, Raja Kolla, Chandra Khatri, Shubham Agarwal},
booktitle={NeurIPS Multimodal Algorithmic Reasoning},
year={2024},
}
連絡先
貢献は大歓迎です!改善点や提案があれば、GitHubでプルリクエストを送信してください。
謝辞
チトラルトは、以下のプロジェクトのコードを参考に構築されています。Transformers、およびLLaVA - 1.5。素晴らしい仕事をしてくれた皆さんに感謝します!