🚀 Ganga-2-1bモデルカード
Ganga-2-1bは、命令に基づいて微調整されたモデルです。このモデルは、単言語のヒンディー語データセットを使用して訓練され、Project Unityプロジェクトの一部です。私たちは、インドのヒンディー語圏を流れる最長の川に敬意を表して、Gangaという名前を提案しました。
(これは、インドの学術研究機関が公開した初の事前学習済みヒンディー語モデルです!)
免責事項:このモデルはテキスト補完用で、下流タスクの微調整に使用することを目的としています。チャットや命令追従モデルとして直接使用するには適していません。

🚀 クイックスタート
以下のコードを使用して、このモデルを始めることができます。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LingoIITGN/ganga-2-1b")
model = AutoModelForCausalLM.from_pretrained("LingoIITGN/ganga-2-1b", device_map="auto")
input_text = 'Translate it into Hindi "Innovation is the key to solving complex problems in the modern world."'
input_ids = tokenizer.encode("<bos><user>" + input_text + "<assistant>",
return_tensors="pt").to("cuda")
outputs = model.generate(input_ids, max_new_tokens=100,
do_sample=False)
print(tokenizer.decode(outputs[0]))
✨ 主な機能
Project Unityは、インドの主要言語を網羅する包括的なリソースを作成することで、インドの言語の多様性と豊かさに対処することを目指しています。私たちは、インドの言語のテキストの理解と生成において最先端の性能を実現することに取り組んでいます。
この目標を達成するために、私たちはインドの単言語地域の言語でモデルを訓練しています。最初のリリースバージョンはGanga-1Bモデルで、このモデルは、ニュース記事、ウェブドキュメント、書籍、政府刊行物、教育資料、ソーシャルメディアの会話(品質フィルタリング済み)など、大量の公共のウェブクローリングされたヒンディー語データで訓練されています。さらに、このデータセットはインドの母国語話者によってさらに選別され、高品質が保証されています。
注目すべきは、Ganga-2-1Bモデルは、パラメータ規模が最大70億の既存のインドの言語をサポートするオープンソースモデルを上回る性能を発揮します。
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LingoIITGN/ganga-2-1b")
model = AutoModelForCausalLM.from_pretrained("LingoIITGN/ganga-2-1b", device_map="auto")
input_text = 'Translate it into Hindi "Innovation is the key to solving complex problems in the modern world."'
input_ids = tokenizer.encode("<bos><user>" + input_text + "<assistant>",
return_tensors="pt").to("cuda")
outputs = model.generate(input_ids, max_new_tokens=100,
do_sample=False)
print(tokenizer.decode(outputs[0]))
🔧 技術詳細
技術仕様
- 精度:BFloat16
- コンテキスト長:2,048
- 学習率:4e-4
- オプティマイザ:AdamW
- 学習率スケジューラ:Cosine
モデルアーキテクチャと目標
Ganga-2-1bは、以下の仕様を持つデコーダ専用のTransformerモデルです。
- 層数:16
- アテンションヘッド数:32
- 埋め込み次元:2,048
- 語彙サイズ:32,768
- スライディングウィンドウ:1024
- 中間次元:7,168
📚 ドキュメント
評価結果
トークナイザ結果
モデル |
豊富度 |
Ganga-2-1b |
1.12 |
Pragna-1b |
1.58 |
Bloom-1b1 |
1.27 |
Bloom-1b7 |
1.27 |
Gemma-2b |
1.89 |
Bloom-3b |
1.27 |
Airavata-7b |
1.69 |
Sarvam-2b |
1.38 |
指標
モデル |
PPLSangrahaデータセット |
Ganga-2-1b |
8.09 |
Ganga-1b |
15.82 |
Pragna-1b |
9.37 |
Bloom-1b1 |
17.49 |
Bloom-1b7 |
14.28 |
Gemma-2b |
31.01 |
Bloom-3b |
12.82 |
OpenHathi-7B |
25.73 |
Airavata-7b |
38.24 |
Sarvam-2b |
10.31 |
📄 ライセンス
⚠️ 重要提示
⚠️ 重要な注意事項
このモデルは研究用のプレビュー版で、反復的に更新されています。そのため、限られたセキュリティ対策しか提供されていません。また、不快な内容を生成する可能性があります。このモデルを、違法、有害、暴力的、人種差別的、または性関連の目的に使用することは厳禁です。
📞 モデルカードの連絡先
Lingo Research Group at IIT Gandhinagar, India
メール:lingo@iitgn.ac.in