🚀 提圖爾姆-拉瑪3.2-3B模型
本項目基於 meta-llama/Llama-3.2-3B 架構持續預訓練,擴展約42K孟加拉語標記,並在大量孟加拉語數據集上進行微調。旨在增強模型生成高質量孟加拉語文本的能力,在孟加拉語理解評估基準和文本生成任務中表現出色。
🚀 快速開始
使用transformers庫
從transformers >= 4.43.0版本開始,你可以使用Transformers的pipeline抽象或利用Auto類和generate()函數進行對話推理。
請確保通過以下命令更新你的transformers庫:
pip install --upgrade transformers
以下是使用示例代碼:
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-3b-v2.0"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
✨ 主要特性
- 語言支持:主要支持孟加拉語,次要支持英語。
- 模型架構:採用優化的Transformer架構的自迴歸語言模型。
- 訓練數據:收集了約268GB的孟加拉語原始文本數據,涵蓋多種來源。
- 標記擴展:擴展了約42K孟加拉語標記,提升模型對孟加拉語的處理能力。
📦 安裝指南
確保通過以下命令更新你的transformers庫:
pip install --upgrade transformers
💻 使用示例
基礎用法
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-3b-v2.0"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
Llama 3.2是一個自迴歸語言模型,採用優化的Transformer架構。 |
訓練數據 |
Hishab策劃的孟加拉語文本語料庫 |
參數數量 |
3B(3.21B) |
輸入模態 |
單語言文本(孟加拉語) |
輸出模態 |
單語言文本(孟加拉語) |
上下文長度 |
4096 |
GQA |
是 |
共享嵌入 |
是 |
標記數量 |
37B標記 |
知識截止日期 |
無 |
支持語言
主要支持孟加拉語,次要支持英語。
模型發佈日期
2024年10月24日
狀態
這是一個基於離線數據集訓練的靜態模型,未來可能會發布更新版本以提升模型能力。
許可證
我們使用與Llama 3.2類似的許可證。Llama 3.2的使用受 Llama 3.2社區許可證(自定義商業許可協議)的約束。
論文引用
@misc{nahin2025titullmsfamilybanglallms,
title={TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking},
author={Shahriar Kabir Nahin and Rabindra Nath Nandi and Sagor Sarker and Quazi Sarwar Muhtaseem and Md Kowsher and Apu Chandraw Shill and Md Ibrahim and Mehadi Hasan Menon and Tareq Al Muntasir and Firoj Alam},
year={2025},
eprint={2502.11187},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.11187},
}
🔧 技術細節
硬件和軟件
訓練數據
- 概述:從多種來源收集了大量孟加拉語原始文本數據集,包括網頁文檔、書籍、翻譯文本、音譯文本、轉錄文本、代碼混合文本、對話和開源原始數據等。數據集經過不同過濾標準的清洗和過濾,以確保數據質量。收集的數據大小約為268GB,總訓練標記數為37B標記。
- 數據來源總結:
- 網頁文檔:提取、清洗和過濾的通用爬蟲數據
- 書籍:提取、清洗和過濾的書籍數據
- 轉錄文本:使用內部孟加拉語ASR模型轉錄孟加拉語音頻數據
- 翻譯數據:訓練了一個英-孟翻譯大語言模型,並用於將英語數據翻譯成孟加拉語
- 代碼混合數據:訓練了一個英-孟代碼混合大語言模型,並用於生成代碼混合數據
- 音譯數據:訓練了一個孟-英音譯大語言模型,並用於生成音譯數據
- 合成數據:使用孟加拉語大語言模型生成合成數據
- 其他:抓取了一些選定網站的數據,使用了開源數據和其他數據源
標記擴展
使用 Tiktoken 庫在48GB孟加拉語數據集(從主要預訓練數據中採樣)上訓練了一個單獨的孟加拉語分詞器,詞彙量為48k,並分離出42k標記用於添加到預訓練模型中。通過這些標記擴展了模型的詞彙表,並在孟加拉語數據上繼續進行預訓練。標記擴展過程旨在增強模型生成高質量孟加拉語文本的能力。更新後的詞彙量為170K,而原始llama-3.2的詞彙量為128k。
基準測試 - 孟加拉語文本
評估數據集
- 孟加拉語基準數據集:
- Bangla MMLU:Hishab策劃的私有多項選擇題數據集,來自各種來源。
- CommonsenseQa Bangla:CommonsenseQA數據集的孟加拉語翻譯,使用名為“表達性語義翻譯(EST)”的新方法進行翻譯,該方法結合了谷歌機器翻譯和基於大語言模型的重寫修改。
- OpenbookQA Bangla:OpenbookQA數據集的孟加拉語翻譯,使用“表達性語義翻譯(EST)”方法進行翻譯。
- Piqa Bangla:Piqa數據集的孟加拉語翻譯,使用“表達性語義翻譯(EST)”方法進行翻譯。
- BoolQ Bangla:包含15,942個示例,每個條目由三元組(問題、段落、答案)組成。問題自然產生,來自無提示和無約束的設置。輸入段落來自孟加拉語維基百科、孟加拉百科全書和新聞文章,並使用GPT-4生成相應的是/否問題和答案。
- 英語基準數據集:
- MMLU:一個大規模多任務測試,包含來自各個知識領域的多項選擇題。
- CommonseQa:一個新的多項選擇題問答數據集,需要不同類型的常識知識來預測正確答案。
- OpenbookQA:旨在促進高級問答研究,探究對主題(數據集還提供了相關重要事實總結的“開放書籍”)和表達語言的更深入理解。
- Piqa:PIQA數據集專注於物理常識推理,挑戰人工智能處理需要實際知識和非常規解決方案的日常情況。受instructables.com啟發,旨在增強人工智能理解和推理物理交互的能力。
- BoolQ:一個用於是/否問題的問答數據集,包含15942個示例。這些問題自然產生,來自無提示和無約束的設置。每個示例是一個三元組(問題、段落、答案),頁面標題作為可選的額外上下文。文本對分類設置與現有的自然語言推理任務類似。
評估結果
-
孟加拉語基準數據集評估:
| 模型 | 樣本數 | Bangla MMLU | BoolQ BN | Commonsense QA BN | OpenBook QA BN | PIQA BN |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| llama-3.2-3b | 0-shot | 0.36 | 0.55 | 0.26 | 0.31 | 0.56 |
| | 5-shot | 0.38 | - | 0.29 | 0.32 | 0.58 |
| titulm-llama-3.2-3b-v2.0 | 0-shot | 0.26 | 0.57 | 0.27 | 0.32 | 0.58 |
| | 5-shot | 0.24 | 0.59 | 0.33 | 0.34 | 0.60 |
-
英語基準數據集評估:
| 模型 | 樣本數 | MMLU | BoolQ | Commonsense QA | OpenBook QA | PIQA |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| llama-3.2-3b | 0-shot | 0.54 | 0.73 | 0.64 | 0.43 | 0.77 |
| | 5-shot | 0.56 | 0.74 | 0.67 | 0.45 | 0.80 |
| titulm-llama-3.2-3b-v2.0 | 0-shot | 0.24 | 0.49 | 0.20 | 0.22 | 0.57 |
| | 5-shot | 0.26 | 0.59 | 0.20 | 0.24 | 0.57 |
預期用途
- 孟加拉語文本生成
- 孟加拉語語言理解任務
- 孟加拉語指令微調任務
📄 許可證
我們使用與Llama 3.2類似的許可證。Llama 3.2的使用受 Llama 3.2社區許可證(自定義商業許可協議)的約束。