🚀 孟加拉語大語言模型TituLLMs
本項目基於meta-llama/Llama-3.2-1B架構持續預訓練,在大量孟加拉語數據集上微調,旨在提升模型生成高質量孟加拉語文本的能力,在孟加拉語理解評估基準和文本生成任務中表現出色。
🚀 快速開始
使用transformers庫
從transformers >= 4.43.0版本開始,你可以使用Transformers的pipeline抽象或藉助Auto類的generate()函數進行對話推理。
確保通過以下命令更新你的transformers庫:
pip install --upgrade transformers
以下是使用示例代碼:
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-1b-v1.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
✨ 主要特性
- 基於Llama 3.2架構持續預訓練,在孟加拉語數據集上微調,提升孟加拉語處理能力。
- 支持孟加拉語(主要)和英語(次要)兩種語言。
- 使用Grouped-Query Attention (GQA) 提升推理可擴展性。
📦 安裝指南
使用前請確保更新transformers庫:
pip install --upgrade transformers
💻 使用示例
基礎用法
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-1b-v1.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
📚 詳細文檔
模型信息
模型架構
Llama 3.2是一個具有優化Transformer架構的自迴歸語言模型。
屬性 |
詳情 |
模型類型 |
Llama 3.2自迴歸語言模型 |
訓練數據 |
Hishab整理的孟加拉語文本語料庫 |
參數數量 |
1B (1.23B) |
輸入模態 |
單語文本(孟加拉語) |
輸出模態 |
單語文本(孟加拉語) |
上下文長度 |
4096 |
GQA |
是 |
共享嵌入 |
是 |
標記數量 |
85億個標記 |
知識截止日期 |
無 |
支持語言
主要支持孟加拉語,次要支持英語。
模型發佈日期
2024年10月24日
狀態
這是一個基於離線數據集訓練的靜態模型,未來可能會發布新版本以提升模型能力。
許可證
我們使用與Llama 3.2類似的許可證。Llama 3.2的使用受Llama 3.2社區許可證(自定義商業許可協議)的約束。
更多信息可在論文TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking和項目頁面中查看。
硬件和軟件
訓練因素
我們使用llama-factory訓練庫、雲GPU集群和生產基礎設施進行預訓練。微調、標註和評估也在雲基礎設施上進行。
訓練數據
概述
我們從各種來源收集了大量孟加拉語原始文本數據集,包括網頁文檔、書籍、翻譯文本、音譯文本、轉錄文本、代碼混合文本、對話和開源原始數據等。數據集經過不同過濾標準的清理和過濾,以確保數據質量。目前收集的數據大小約為268GB,從中按實際數據大小比例分離出33GB數據。總訓練標記數為85億個標記。
數據來源總結
- 網頁文檔:提取、清理和過濾的Common Crawl數據。
- 書籍:提取、清理和過濾的書籍數據。
- 轉錄文本:使用內部孟加拉語ASR模型轉錄的孟加拉語音頻數據。
- 翻譯數據:使用訓練的英語 - 孟加拉語翻譯LLM模型生成的翻譯數據。
- 代碼混合數據:使用訓練的英語 - 孟加拉語代碼混合LLM模型生成的代碼混合數據。
- 音譯數據:使用訓練的孟加拉語 - 英語音譯LLM模型生成的音譯數據。
- 合成數據:使用孟加拉語LLM模型生成的合成數據。
- 其他:抓取的部分選定網站數據、開源數據和其他數據源。
基準測試
評估數據集
我們在孟加拉語和英語基準數據集上對預訓練模型進行了評估。儘管模型是在孟加拉語數據上訓練的,但也在英語基準數據集上評估了其英語能力。評估數據集如下:
孟加拉語基準數據集
- Bangla MMLU:Hishab從各種來源整理的私有多項選擇題數據集。
- CommonsenseQa Bangla:CommonsenseQA數據集的孟加拉語翻譯版本,使用名為Expressive Semantic Translation (EST) 的新方法進行翻譯,該方法結合了谷歌機器翻譯和基於LLM的重寫修改。
- OpenbookQA Bangla:OpenbookQA數據集的孟加拉語翻譯版本,使用Expressive Semantic Translation (EST) 方法進行翻譯。
- Piqa Bangla:Piqa數據集的孟加拉語翻譯版本,使用Expressive Semantic Translation (EST) 方法進行翻譯。
- BoolQ Bangla:該數據集包含15,942個示例,每個條目由三元組(問題、段落、答案)組成。問題是自然產生的,在無提示和無約束的環境中生成。輸入段落來自孟加拉語維基百科、Banglapedia和新聞文章,並使用GPT - 4生成相應的是/否問題和答案。
英語基準數據集
- MMLU:一個由來自各個知識領域的多項選擇題組成的大規模多任務測試。
- CommonseQa:一個新的多項選擇題問答數據集,需要不同類型的常識知識來預測正確答案。
- OpenbookQA:旨在促進高級問答研究,探索對主題(以開放書籍形式總結的顯著事實,也包含在數據集中)和表達語言的更深入理解。
- Piqa:PIQA數據集專注於物理常識推理,挑戰AI處理需要實際知識和非常規解決方案的日常情況。受instructables.com啟發,旨在增強AI對物理交互的理解和推理能力。
- BoolQ:一個用於是/否問題的問答數據集,包含15942個示例。問題自然產生,在無提示和無約束的環境中生成。每個示例是一個三元組(問題、段落、答案),頁面標題作為可選的額外上下文。文本對分類設置與現有的自然語言推理任務類似。
評估結果
孟加拉語基準數據集評估
模型 |
提示次數 |
Bangla MMLU |
BoolQ BN |
Commonsense QA BN |
OpenBook QA BN |
PIQA BN |
llama-3.2-1b |
0-shot |
0.29 |
0.55 |
0.22 |
0.33 |
0.53 |
|
5-shot |
0.28 |
- |
0.23 |
0.31 |
0.54 |
hishab/titulm-llama-3.2-1b-v1.1 |
0-shot |
0.28 |
0.54 |
0.28 |
0.31 |
0.56 |
|
5-shot |
0.28 |
- |
0.31 |
0.34 |
0.57 |
- llama-3.2-1b在0-shot設置下的Bangla MMLU、BoolQ BN和OpenBook QA BN中表現更好,分別達到最高分0.29、0.55和0.33。
- hishab/titulm-llama-3.2-1b-v1.1在0-shot和5-shot設置下的Commonsense QA BN和PIQA BN中表現更優,5-shot最高得分分別為0.31和0.57。
英語基準數據集評估
模型 |
提示次數 |
MMLU |
BoolQ |
Commonsense QA |
OpenBook QA |
PIQA |
llama-3.2-1b |
0-shot |
0.38 |
0.64 |
0.47 |
0.37 |
0.75 |
|
5-shot |
0.309 |
0.662 |
0.317 |
0.396 |
0.759 |
titulm-llama-3.2-1b-v1.1 |
0-shot |
0.26 |
0.62 |
0.34 |
0.35 |
0.73 |
|
5-shot |
0.26 |
0.62 |
0.25 |
0.39 |
0.74 |
- llama-3.2-1b在所有任務中佔據主導地位,在0-shot和5-shot設置下的MMLU、BoolQ、Commonsense QA、OpenBook QA和PIQA中均取得最高分,5-shot的PIQA得分達到0.759。
- hishab/titulm-llama-3.2-1b-v1.1表現具有競爭力,特別是在0-shot設置下的Commonsense QA中,但在大多數任務中總體落後於llama-3.2-1b。
預期用途
- 孟加拉語文本生成
- 孟加拉語語言理解任務
- 孟加拉語指令微調任務
🔧 技術細節
本模型基於Llama 3.2架構,通過持續預訓練和在孟加拉語數據集上的微調,提升了對孟加拉語的處理能力。使用Grouped-Query Attention (GQA) 技術提升推理可擴展性。訓練過程中使用了多種數據來源和過濾方法,以確保數據質量和模型性能。
📄 許可證
我們使用與Llama 3.2類似的許可證。Llama 3.2的使用受Llama 3.2社區許可證(自定義商業許可協議)的約束。
📚 引用
@misc{nahin2025titullmsfamilybanglallms,
title={TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking},
author={Shahriar Kabir Nahin and Rabindra Nath Nandi and Sagor Sarker and Quazi Sarwar Muhtaseem and Md Kowsher and Apu Chandraw Shill and Md Ibrahim and Mehadi Hasan Menon and Tareq Al Muntasir and Firoj Alam},
year={2025},
eprint={2502.11187},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.11187},
}