🚀 孟加拉语大语言模型TituLLMs
本项目基于meta-llama/Llama-3.2-1B架构持续预训练,在大量孟加拉语数据集上微调,旨在提升模型生成高质量孟加拉语文本的能力,在孟加拉语理解评估基准和文本生成任务中表现出色。
🚀 快速开始
使用transformers库
从transformers >= 4.43.0版本开始,你可以使用Transformers的pipeline抽象或借助Auto类的generate()函数进行对话推理。
确保通过以下命令更新你的transformers库:
pip install --upgrade transformers
以下是使用示例代码:
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-1b-v1.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
✨ 主要特性
- 基于Llama 3.2架构持续预训练,在孟加拉语数据集上微调,提升孟加拉语处理能力。
- 支持孟加拉语(主要)和英语(次要)两种语言。
- 使用Grouped-Query Attention (GQA) 提升推理可扩展性。
📦 安装指南
使用前请确保更新transformers库:
pip install --upgrade transformers
💻 使用示例
基础用法
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-1b-v1.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
📚 详细文档
模型信息
模型架构
Llama 3.2是一个具有优化Transformer架构的自回归语言模型。
属性 |
详情 |
模型类型 |
Llama 3.2自回归语言模型 |
训练数据 |
Hishab整理的孟加拉语文本语料库 |
参数数量 |
1B (1.23B) |
输入模态 |
单语文本(孟加拉语) |
输出模态 |
单语文本(孟加拉语) |
上下文长度 |
4096 |
GQA |
是 |
共享嵌入 |
是 |
标记数量 |
85亿个标记 |
知识截止日期 |
无 |
支持语言
主要支持孟加拉语,次要支持英语。
模型发布日期
2024年10月24日
状态
这是一个基于离线数据集训练的静态模型,未来可能会发布新版本以提升模型能力。
许可证
我们使用与Llama 3.2类似的许可证。Llama 3.2的使用受Llama 3.2社区许可证(自定义商业许可协议)的约束。
更多信息可在论文TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking和项目页面中查看。
硬件和软件
训练因素
我们使用llama-factory训练库、云GPU集群和生产基础设施进行预训练。微调、标注和评估也在云基础设施上进行。
训练数据
概述
我们从各种来源收集了大量孟加拉语原始文本数据集,包括网页文档、书籍、翻译文本、音译文本、转录文本、代码混合文本、对话和开源原始数据等。数据集经过不同过滤标准的清理和过滤,以确保数据质量。目前收集的数据大小约为268GB,从中按实际数据大小比例分离出33GB数据。总训练标记数为85亿个标记。
数据来源总结
- 网页文档:提取、清理和过滤的Common Crawl数据。
- 书籍:提取、清理和过滤的书籍数据。
- 转录文本:使用内部孟加拉语ASR模型转录的孟加拉语音频数据。
- 翻译数据:使用训练的英语 - 孟加拉语翻译LLM模型生成的翻译数据。
- 代码混合数据:使用训练的英语 - 孟加拉语代码混合LLM模型生成的代码混合数据。
- 音译数据:使用训练的孟加拉语 - 英语音译LLM模型生成的音译数据。
- 合成数据:使用孟加拉语LLM模型生成的合成数据。
- 其他:抓取的部分选定网站数据、开源数据和其他数据源。
基准测试
评估数据集
我们在孟加拉语和英语基准数据集上对预训练模型进行了评估。尽管模型是在孟加拉语数据上训练的,但也在英语基准数据集上评估了其英语能力。评估数据集如下:
孟加拉语基准数据集
- Bangla MMLU:Hishab从各种来源整理的私有多项选择题数据集。
- CommonsenseQa Bangla:CommonsenseQA数据集的孟加拉语翻译版本,使用名为Expressive Semantic Translation (EST) 的新方法进行翻译,该方法结合了谷歌机器翻译和基于LLM的重写修改。
- OpenbookQA Bangla:OpenbookQA数据集的孟加拉语翻译版本,使用Expressive Semantic Translation (EST) 方法进行翻译。
- Piqa Bangla:Piqa数据集的孟加拉语翻译版本,使用Expressive Semantic Translation (EST) 方法进行翻译。
- BoolQ Bangla:该数据集包含15,942个示例,每个条目由三元组(问题、段落、答案)组成。问题是自然产生的,在无提示和无约束的环境中生成。输入段落来自孟加拉语维基百科、Banglapedia和新闻文章,并使用GPT - 4生成相应的是/否问题和答案。
英语基准数据集
- MMLU:一个由来自各个知识领域的多项选择题组成的大规模多任务测试。
- CommonseQa:一个新的多项选择题问答数据集,需要不同类型的常识知识来预测正确答案。
- OpenbookQA:旨在促进高级问答研究,探索对主题(以开放书籍形式总结的显著事实,也包含在数据集中)和表达语言的更深入理解。
- Piqa:PIQA数据集专注于物理常识推理,挑战AI处理需要实际知识和非常规解决方案的日常情况。受instructables.com启发,旨在增强AI对物理交互的理解和推理能力。
- BoolQ:一个用于是/否问题的问答数据集,包含15942个示例。问题自然产生,在无提示和无约束的环境中生成。每个示例是一个三元组(问题、段落、答案),页面标题作为可选的额外上下文。文本对分类设置与现有的自然语言推理任务类似。
评估结果
孟加拉语基准数据集评估
模型 |
提示次数 |
Bangla MMLU |
BoolQ BN |
Commonsense QA BN |
OpenBook QA BN |
PIQA BN |
llama-3.2-1b |
0-shot |
0.29 |
0.55 |
0.22 |
0.33 |
0.53 |
|
5-shot |
0.28 |
- |
0.23 |
0.31 |
0.54 |
hishab/titulm-llama-3.2-1b-v1.1 |
0-shot |
0.28 |
0.54 |
0.28 |
0.31 |
0.56 |
|
5-shot |
0.28 |
- |
0.31 |
0.34 |
0.57 |
- llama-3.2-1b在0-shot设置下的Bangla MMLU、BoolQ BN和OpenBook QA BN中表现更好,分别达到最高分0.29、0.55和0.33。
- hishab/titulm-llama-3.2-1b-v1.1在0-shot和5-shot设置下的Commonsense QA BN和PIQA BN中表现更优,5-shot最高得分分别为0.31和0.57。
英语基准数据集评估
模型 |
提示次数 |
MMLU |
BoolQ |
Commonsense QA |
OpenBook QA |
PIQA |
llama-3.2-1b |
0-shot |
0.38 |
0.64 |
0.47 |
0.37 |
0.75 |
|
5-shot |
0.309 |
0.662 |
0.317 |
0.396 |
0.759 |
titulm-llama-3.2-1b-v1.1 |
0-shot |
0.26 |
0.62 |
0.34 |
0.35 |
0.73 |
|
5-shot |
0.26 |
0.62 |
0.25 |
0.39 |
0.74 |
- llama-3.2-1b在所有任务中占据主导地位,在0-shot和5-shot设置下的MMLU、BoolQ、Commonsense QA、OpenBook QA和PIQA中均取得最高分,5-shot的PIQA得分达到0.759。
- hishab/titulm-llama-3.2-1b-v1.1表现具有竞争力,特别是在0-shot设置下的Commonsense QA中,但在大多数任务中总体落后于llama-3.2-1b。
预期用途
- 孟加拉语文本生成
- 孟加拉语语言理解任务
- 孟加拉语指令微调任务
🔧 技术细节
本模型基于Llama 3.2架构,通过持续预训练和在孟加拉语数据集上的微调,提升了对孟加拉语的处理能力。使用Grouped-Query Attention (GQA) 技术提升推理可扩展性。训练过程中使用了多种数据来源和过滤方法,以确保数据质量和模型性能。
📄 许可证
我们使用与Llama 3.2类似的许可证。Llama 3.2的使用受Llama 3.2社区许可证(自定义商业许可协议)的约束。
📚 引用
@misc{nahin2025titullmsfamilybanglallms,
title={TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking},
author={Shahriar Kabir Nahin and Rabindra Nath Nandi and Sagor Sarker and Quazi Sarwar Muhtaseem and Md Kowsher and Apu Chandraw Shill and Md Ibrahim and Mehadi Hasan Menon and Tareq Al Muntasir and Firoj Alam},
year={2025},
eprint={2502.11187},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.11187},
}