🚀 Ganga-2-1b模型卡片
Ganga-2-1b是一个经过指令微调的模型,它基于单语的印地语数据集进行训练,是Project Unity项目的一部分。我们提出Ganga这个名字,是为了向流经印度印地语地区的最长河流致敬。
(这是印度任何学术研究实验室推出的首个预训练印地语模型!)
免责声明:这是一个文本补全模型,旨在用于下游任务的微调。它不适合直接用作聊天或指令跟随模型。

🚀 快速开始
使用以下代码开始使用该模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LingoIITGN/ganga-2-1b")
model = AutoModelForCausalLM.from_pretrained("LingoIITGN/ganga-2-1b", device_map="auto")
input_text = 'Translate it into Hindi "Innovation is the key to solving complex problems in the modern world."'
input_ids = tokenizer.encode("<bos><user>" + input_text + "<assistant>",
return_tensors="pt").to("cuda")
outputs = model.generate(input_ids, max_new_tokens=100,
do_sample=False)
print(tokenizer.decode(outputs[0]))
✨ 主要特性
Project Unity旨在通过创建涵盖印度主要语言的综合资源,来应对印度语言的多样性和丰富性。我们致力于在理解和生成印度语言文本方面实现最先进的性能。
为了实现这一目标,我们在印度的单语地区语言上训练模型。我们的首个发布版本是Ganga-1B模型,该模型在大量公共领域网络抓取的印地语数据上进行训练,这些数据包括新闻文章、网页文档、书籍、政府出版物、教育材料和社交媒体对话(经过质量过滤)。此外,该数据集还由印度母语人士进一步筛选,以确保高质量。
值得注意的是,Ganga-2-1B模型在性能上优于现有的支持印度语言的开源模型,即使这些模型的参数规模高达70亿。
📦 安装指南
暂未提供相关安装步骤内容。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LingoIITGN/ganga-2-1b")
model = AutoModelForCausalLM.from_pretrained("LingoIITGN/ganga-2-1b", device_map="auto")
input_text = 'Translate it into Hindi "Innovation is the key to solving complex problems in the modern world."'
input_ids = tokenizer.encode("<bos><user>" + input_text + "<assistant>",
return_tensors="pt").to("cuda")
outputs = model.generate(input_ids, max_new_tokens=100,
do_sample=False)
print(tokenizer.decode(outputs[0]))
🔧 技术细节
技术规格
- 精度:BFloat16
- 上下文长度:2,048
- 学习率:4e-4
- 优化器:AdamW
- 学习率调度器:Cosine
模型架构和目标
Ganga-2-1b是一个仅解码器的Transformer模型,具有以下规格:
- 层数:16
- 注意力头数:32
- 嵌入维度:2,048
- 词汇表大小:32,768
- 滑动窗口:1024
- 中间维度:7,168
📚 详细文档
评估结果
分词器结果
模型 |
丰富度 |
Ganga-2-1b |
1.12 |
Pragna-1b |
1.58 |
Bloom-1b1 |
1.27 |
Bloom-1b7 |
1.27 |
Gemma-2b |
1.89 |
Bloom-3b |
1.27 |
Airavata-7b |
1.69 |
Sarvam-2b |
1.38 |
指标
模型 |
PPLSangraha数据集 |
Ganga-2-1b |
8.09 |
Ganga-1b |
15.82 |
Pragna-1b |
9.37 |
Bloom-1b1 |
17.49 |
Bloom-1b7 |
14.28 |
Gemma-2b |
31.01 |
Bloom-3b |
12.82 |
OpenHathi-7B |
25.73 |
Airavata-7b |
38.24 |
Sarvam-2b |
10.31 |
📄 许可证
⚠️ 重要提示
⚠️ 重要提示
本模型是一个研究预览版,正在进行迭代更新,因此仅提供有限的安全措施。此外,它可能会生成冒犯性内容。严禁将该模型用于任何非法、有害、暴力、种族主义或性相关的目的。
📞 模型卡片联系信息
Lingo Research Group at IIT Gandhinagar, India
邮箱:lingo@iitgn.ac.in