Sarvam - 1オープンソース言語モデル - インドの言語に特化して最適化され、10種類のインド語で優れた性能を発揮

ホーム

Sarvam 1

sarvamaiによって開発

Sarvam-1はインド言語に最適化された20億パラメータの言語モデルで、10のインド言語で優れた性能を発揮します。

大規模言語モデル

Transformers

複数言語対応#インド言語最適化 #効率的な多言語生成 #低リソース効率的推論

ダウンロード数 3,386

リリース時間 : 10/23/2024

モデル概要

Sarvam-1は20億パラメータを持つ言語モデルで、インド言語に特化して設計されており、10のインド言語と英語をサポートし、インド言語タスクでトップクラスの性能を示します。

モデル特徴

多言語最適化

10のインド言語向けに設計され、主要なインド言語と英語をサポート

効率的なトークン処理

サポート言語全てで1.4-2.1の生育率を達成し、既存の多言語モデルより2-4倍効率的

高品質トレーニングデータ

約4兆トークンの精選コーパスでトレーニングされ、そのうち2兆トークンは高品質なインド言語データ

高速推論

インド言語タスクで同等以上の性能を維持しつつ、大規模モデルより4-6倍高速な推論を実現

モデル能力

テキスト生成

多言語処理

テキスト補完

使用事例

言語処理

言語間翻訳

インド言語間の翻訳タスクをサポート

Flores英印翻訳：39.83 chrF++

言語間要約

異なるインド言語でテキスト要約を生成

20.48 chrF++

質問応答システム

多言語質問応答システムを構築

25.27 F1

🚀 Sarvam-1

Sarvam-1は、インドの言語に特化して最適化された20億パラメータの言語モデルです。Gemma-2-2BやLlama-3.2-3Bなどの人気モデルと比較して、10種類のインド言語（bn、gu、hi、kn、ml、mr、or、pa、ta、te）でクラス最高の性能を発揮します。また、Llama-3.1-8Bなどのはるかに大規模なモデルともこれらの言語で競争力を持っています。詳細は、リリースブログをご覧ください。

このモデルは、HGX H100システムを使用したYotta Shakti Cloud上で、NVIDIA NeMo™ Frameworkを用いて学習されました。

⚠️ 重要提示

これはテキスト生成モデルです。下流タスクでファインチューニングすることを想定しており、チャットモデルや命令追従モデルとして直接使用することはできません。

✨ 主な機能

10種類のインド言語に最適化：英語とともに主要なインド言語をサポートするように設計されています。
卓越したトークン効率：サポートされるすべての言語で1.4 - 2.1のトークン生成率を達成し、既存の多言語モデルよりも2 - 4倍効率的です。
高品質の学習データ：約4兆トークンの精選コーパスで学習され、そのうち2兆は高品質のインド言語トークンです。
効率的な推論：大規模モデルと同等以上の性能を維持しながら、推論速度が4 - 6倍速いです。

📚 ドキュメント

モデルアーキテクチャ

プロパティ	詳細
隠れ層のサイズ	2048
中間層のサイズ	11,008
アテンションヘッドの数	16
隠れ層の数	28
キーバリューヘッドの数	8
最大位置埋め込み	8,192
活性化関数	SwiGLU
位置埋め込み	Rotary (RoPE) with theta=10,000
学習	グループ化クエリアテンションとbfloat16混合精度

性能

翻訳学術ベンチマーク（ゼロショット）

MMLU: 44.44
ARC-Challenge: 58.50
TriviaQA: 90.62
BoolQ: 80.68

IndicGenBench（ワンショット）

Flores英語からインド語への翻訳: 39.83 chrF++
CrossSum: 20.48 chrF++
XORQA: 25.27 F1
XQUAD: 41.58 F1

学習詳細

学習インフラストラクチャ: YottaのShaktiクラスター
ハードウェア: 1,024 GPU
学習期間: 5日
フレームワーク: NVIDIA NeMo

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load model and tokenizer
model = AutoModelForCausalLM.from_pretrained("sarvamai/sarvam-1")
tokenizer = AutoTokenizer.from_pretrained("sarvamai/sarvam-1")

# Example usage
text = "कर्नाटक की राजधानी है:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=5)
result = tokenizer.decode(outputs[0])