Chitrarthオープンソース多言語ビジュアル言語モデル - 画像と言語をつなぎ、インドの多くの言語をサポート

Home

Chitrarth

Developed by krutrim-ai-labs

Chitrarthは多言語視覚言語モデルで、視覚と言語を結びつけることを目的としており、特にインドの多様な言語のサポートに重点を置いています。

画像生成テキスト

Safetensors

Supports Multiple LanguagesOpen Source License:Other #多言語画像理解 #インドの現地言語サポート #視覚と言語の架け橋

Downloads 410

Release Time : 2/2/2025

Model Overview

このモデルは画像テキストからテキストへのタスクに特化しており、複数のインド言語をサポートし、10億人に視覚と言語の間の架け橋を提供することを目的としています。

Model Features

多言語サポート

ヒンディー語、ベンガル語、タミル語など、11の主要なインド言語をサポートしています。

視覚と言語の接続

視覚情報をテキストに変換することに焦点を当て、視覚と言語の間の架け橋を築きます。

コミュニティ駆動

krutrimコミュニティライセンスを採用し、コミュニティの参加と貢献を奨励しています。

Model Capabilities

画像テキスト認識

多言語テキスト生成

視覚コンテンツ理解

Use Cases

多言語コンテンツ生成

多言語画像説明

画像に対して複数のインド言語で説明テキストを生成します。

アクセシビリティサービス

視覚サポート

視覚障害者向けに画像内容の言語説明を提供します。

🚀 チトラルト: 10億人のためのビジョンと言語を架ける橋

チトラルト（Chitra: 画像; Artha: 意味）は、最先端の多言語大規模言語モデル（LLM）とビジョンモジュールを統合した多言語の視覚言語モデルです。このモデルは主に多言語の画像テキストデータで学習されており、ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オリヤー語、アッサム語、英語を含む10の主要なインドの言語で動作するように設計されています。

論文リンク👁️

🚀 クイックスタート

チトラルトは、最先端の多言語大規模言語モデル（LLM）とビジョンモジュールを統合した多言語の視覚言語モデルです。このモデルは主に多言語の画像テキストデータで学習されており、複数のインドの言語と英語で動作します。

✨ 主な機能

モデル：Krutrim - 1をベースのLLMとして使用し、SigLIPを2層のMLPを持つビジュアルエンコーダーとして使用
サポート言語：ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オリヤー語、アッサム語、英語の10のインドの言語
用途：汎用の視覚言語モデル

model

📦 インストール

git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth

cd Chitrarth 
pip install -e .

💻 使用例

基本的な使用法

python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "

📚 ドキュメント

APIプラットフォーム

Chitrarth Onlineにアクセスして、ウェブインターフェースからモデルにアクセスできます。

評価結果

model

様々な学術的なマルチモーダルタスクにおける最先端の視覚言語モデルとの性能比較です。当モデルは、様々なベンチマークでIDEFICS 2 (7B) とPALO 7Bを常に上回り、TextVQAとVizwizでも競争力を保っています。

我々は、3つのタスクにわたる10の資源が少ないインドの言語用に設計された包括的な評価ベンチマークセットであるBharatBenchを導入しました。チトラルトのBharatBench評価フレームワークでの性能は、この分野の将来の研究に強力なベースラインを設定します。当モデルは、含まれるすべての言語を扱う能力が独特です。

以下は、BharatBenchの3つの評価タスク（POPE、LLaVA - Bench、MMVet）におけるチトラルトの性能結果です。

言語	POPE	LLaVA - Bench	MMVet
テルグ語	79.9	54.8	43.76
ヒンディー語	78.68	51.5	38.85
ベンガル語	83.24	53.7	33.24
マラヤーラム語	85.29	55.5	25.36
カンナダ語	85.52	58.1	46.19
アッサム語	55.59	59.1	37.29
タミル語	83.28	58.3	34.31
マラーティー語	79.17	52.8	40.96
グジャラート語	84.75	55.9	39.03
オリヤー語	82.03	62.8	19.67
英語	87.63	67.9	30.49

📄 ライセンス

このコードリポジトリとモデルの重みは、Krutrim Community Licenseの下でライセンスされています。

引用

@inproceedings{
  khan2024chitrarth,
  title={Chitrarth: Bridging Vision and Language for a Billion People},
  author={Shaharukh Khan, Ayush Tarun, Abhinav Ravi, Ali Faraz, Praveen Kumar Pokala, Anagha Bhangare, Raja Kolla, Chandra Khatri, Shubham Agarwal},
  booktitle={NeurIPS Multimodal Algorithmic Reasoning},
  year={2024},
}