🚀 Ganga-2-1b模型卡片
Ganga-2-1b是一個經過指令微調的模型,它基於單語的印地語數據集進行訓練,是Project Unity項目的一部分。我們提出Ganga這個名字,是為了向流經印度印地語地區的最長河流致敬。
(這是印度任何學術研究實驗室推出的首個預訓練印地語模型!)
免責聲明:這是一個文本補全模型,旨在用於下游任務的微調。它不適合直接用作聊天或指令跟隨模型。

🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LingoIITGN/ganga-2-1b")
model = AutoModelForCausalLM.from_pretrained("LingoIITGN/ganga-2-1b", device_map="auto")
input_text = 'Translate it into Hindi "Innovation is the key to solving complex problems in the modern world."'
input_ids = tokenizer.encode("<bos><user>" + input_text + "<assistant>",
return_tensors="pt").to("cuda")
outputs = model.generate(input_ids, max_new_tokens=100,
do_sample=False)
print(tokenizer.decode(outputs[0]))
✨ 主要特性
Project Unity旨在通過創建涵蓋印度主要語言的綜合資源,來應對印度語言的多樣性和豐富性。我們致力於在理解和生成印度語言文本方面實現最先進的性能。
為了實現這一目標,我們在印度的單語地區語言上訓練模型。我們的首個發佈版本是Ganga-1B模型,該模型在大量公共領域網絡抓取的印地語數據上進行訓練,這些數據包括新聞文章、網頁文檔、書籍、政府出版物、教育材料和社交媒體對話(經過質量過濾)。此外,該數據集還由印度母語人士進一步篩選,以確保高質量。
值得注意的是,Ganga-2-1B模型在性能上優於現有的支持印度語言的開源模型,即使這些模型的參數規模高達70億。
📦 安裝指南
暫未提供相關安裝步驟內容。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LingoIITGN/ganga-2-1b")
model = AutoModelForCausalLM.from_pretrained("LingoIITGN/ganga-2-1b", device_map="auto")
input_text = 'Translate it into Hindi "Innovation is the key to solving complex problems in the modern world."'
input_ids = tokenizer.encode("<bos><user>" + input_text + "<assistant>",
return_tensors="pt").to("cuda")
outputs = model.generate(input_ids, max_new_tokens=100,
do_sample=False)
print(tokenizer.decode(outputs[0]))
🔧 技術細節
技術規格
- 精度:BFloat16
- 上下文長度:2,048
- 學習率:4e-4
- 優化器:AdamW
- 學習率調度器:Cosine
模型架構和目標
Ganga-2-1b是一個僅解碼器的Transformer模型,具有以下規格:
- 層數:16
- 注意力頭數:32
- 嵌入維度:2,048
- 詞彙表大小:32,768
- 滑動窗口:1024
- 中間維度:7,168
📚 詳細文檔
評估結果
分詞器結果
模型 |
豐富度 |
Ganga-2-1b |
1.12 |
Pragna-1b |
1.58 |
Bloom-1b1 |
1.27 |
Bloom-1b7 |
1.27 |
Gemma-2b |
1.89 |
Bloom-3b |
1.27 |
Airavata-7b |
1.69 |
Sarvam-2b |
1.38 |
指標
模型 |
PPLSangraha數據集 |
Ganga-2-1b |
8.09 |
Ganga-1b |
15.82 |
Pragna-1b |
9.37 |
Bloom-1b1 |
17.49 |
Bloom-1b7 |
14.28 |
Gemma-2b |
31.01 |
Bloom-3b |
12.82 |
OpenHathi-7B |
25.73 |
Airavata-7b |
38.24 |
Sarvam-2b |
10.31 |
📄 許可證
⚠️ 重要提示
⚠️ 重要提示
本模型是一個研究預覽版,正在進行迭代更新,因此僅提供有限的安全措施。此外,它可能會生成冒犯性內容。嚴禁將該模型用於任何非法、有害、暴力、種族主義或性相關的目的。
📞 模型卡片聯繫信息
Lingo Research Group at IIT Gandhinagar, India
郵箱:lingo@iitgn.ac.in