🚀 ベンガル語大規模言語モデルTituLLMs
このプロジェクトは、meta-llama/Llama-3.2-1Bアーキテクチャに基づいて継続的に事前学習を行い、大量のベンガル語データセットで微調整を行っています。目的は、モデルが高品質なベンガル語テキストを生成する能力を向上させることで、ベンガル語理解評価基準とテキスト生成タスクで優れた性能を発揮します。
🚀 クイックスタート
transformersライブラリの使用
transformers >= 4.43.0バージョンから、Transformersのpipeline抽象またはAutoクラスのgenerate()関数を使用して会話推論を行うことができます。
以下のコマンドでtransformersライブラリを更新してください。
pip install --upgrade transformers
以下は使用例のコードです。
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-1b-v1.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
✨ 主な機能
- Llama 3.2アーキテクチャに基づいて継続的に事前学習を行い、ベンガル語データセットで微調整を行うことで、ベンガル語処理能力を向上させます。
- ベンガル語(主)と英語(副)の2つの言語をサポートします。
- Grouped-Query Attention (GQA) を使用して推論の拡張性を向上させます。
📦 インストール
使用する前に、transformersライブラリを更新してください。
pip install --upgrade transformers
💻 使用例
基本的な使用法
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-1b-v1.1"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
📚 ドキュメント
モデル情報
モデルアーキテクチャ
Llama 3.2は、最適化されたTransformerアーキテクチャを持つ自己回帰型言語モデルです。
プロパティ |
詳細 |
モデルタイプ |
Llama 3.2自己回帰型言語モデル |
学習データ |
Hishabが整理したベンガル語テキストコーパス |
パラメータ数 |
1B (1.23B) |
入力モード |
単一言語テキスト(ベンガル語) |
出力モード |
単一言語テキスト(ベンガル語) |
コンテキスト長 |
4096 |
GQA |
はい |
共有埋め込み |
はい |
トークン数 |
85億個のトークン |
知識截止日 |
なし |
サポート言語
主にベンガル語をサポートし、副に英語をサポートします。
モデル公開日
2024年10月24日
状態
これはオフラインデータセットで学習された静的モデルで、将来的にモデル能力を向上させるための新しいバージョンがリリースされる可能性があります。
ライセンス
私たちはLlama 3.2と同様のライセンスを使用しています。Llama 3.2の使用は、Llama 3.2コミュニティライセンス(カスタム商用ライセンス契約)の制約を受けます。
詳細情報は、論文TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarkingとプロジェクトページで確認できます。
ハードウェアとソフトウェア
学習要因
私たちはllama-factory学習ライブラリ、クラウドGPUクラスター、および本番インフラストラクチャを使用して事前学習を行っています。微調整、アノテーション、および評価もクラウドインフラストラクチャ上で行われます。
学習データ
概要
私たちは、ウェブドキュメント、書籍、翻訳テキスト、音訳テキスト、文字起こしテキスト、コード混合テキスト、会話、オープンソースの生データなど、様々なソースから大量のベンガル語生テキストデータセットを収集しました。データセットは、異なるフィルタリング基準でクリーニングおよびフィルタリングされ、データ品質が確保されています。現在収集されているデータのサイズは約268GBで、実際のデータサイズの割合に基づいて33GBのデータが分離されています。総学習トークン数は85億個のトークンです。
データソースの要約
- ウェブドキュメント:抽出、クリーニング、およびフィルタリングされたCommon Crawlデータ。
- 書籍:抽出、クリーニング、およびフィルタリングされた書籍データ。
- 文字起こしテキスト:内部のベンガル語ASRモデルを使用して文字起こしされたベンガル語音声データ。
- 翻訳データ:学習された英語 - ベンガル語翻訳LLMモデルを使用して生成された翻訳データ。
- コード混合データ:学習された英語 - ベンガル語コード混合LLMモデルを使用して生成されたコード混合データ。
- 音訳データ:学習されたベンガル語 - 英語音訳LLMモデルを使用して生成された音訳データ。
- 合成データ:ベンガル語LLMモデルを使用して生成された合成データ。
- その他:一部の選択されたウェブサイトから収集されたデータ、オープンソースデータ、およびその他のデータソース。
ベンチマークテスト
評価データセット
私たちは、ベンガル語と英語のベンチマークデータセットで事前学習モデルを評価しました。モデルはベンガル語データで学習されていますが、英語のベンチマークデータセットでも英語能力を評価しました。評価データセットは以下の通りです。
ベンガル語ベンチマークデータセット
- Bangla MMLU:Hishabが様々なソースから整理した私有の多肢選択問題データセット。
- CommonsenseQa Bangla:CommonsenseQAデータセットのベンガル語翻訳版で、Expressive Semantic Translation (EST) という新しい方法を使用して翻訳されています。この方法は、Googleの機械翻訳とLLMベースの書き換え修正を組み合わせています。
- OpenbookQA Bangla:OpenbookQAデータセットのベンガル語翻訳版で、Expressive Semantic Translation (EST) 方法を使用して翻訳されています。
- Piqa Bangla:Piqaデータセットのベンガル語翻訳版で、Expressive Semantic Translation (EST) 方法を使用して翻訳されています。
- BoolQ Bangla:このデータセットは15,942個の例を含み、各エントリは三元組(質問、段落、回答)で構成されています。質問は自然に生成され、無提示かつ無制約の環境で生成されています。入力段落はベンガル語ウィキペディア、Banglapedia、およびニュース記事から取得され、GPT - 4を使用して対応するはい/いいえの質問と回答が生成されています。
英語ベンチマークデータセット
- MMLU:様々な知識分野の多肢選択問題で構成される大規模なマルチタスクテスト。
- CommonseQa:正解を予測するためにさまざまなタイプの常識知識が必要な新しい多肢選択式の質問応答データセット。
- OpenbookQA:高度な質問応答研究を促進し、主題(データセットにも含まれるオープンブック形式で要約された重要な事実)と表現言語のより深い理解を探求することを目的としています。
- Piqa:PIQAデータセットは物理的な常識推論に焦点を当てており、実際の知識と非定型の解決策が必要な日常の状況をAIが処理できるようにすることを目指しています。instructables.comにインスパイアされて作成され、AIの物理的な相互作用の理解と推論能力を強化することを目的としています。
- BoolQ:はい/いいえの質問に対する応答データセットで、15942個の例を含んでいます。質問は自然に生成され、無提示かつ無制約の環境で生成されています。各例は三元組(質問、段落、回答)で、ページタイトルはオプションの追加コンテキストとして提供されます。テキストペア分類の設定は、既存の自然言語推論タスクと類似しています。
評価結果
ベンガル語ベンチマークデータセット評価
モデル |
プロンプト回数 |
Bangla MMLU |
BoolQ BN |
Commonsense QA BN |
OpenBook QA BN |
PIQA BN |
llama-3.2-1b |
0-shot |
0.29 |
0.55 |
0.22 |
0.33 |
0.53 |
|
5-shot |
0.28 |
- |
0.23 |
0.31 |
0.54 |
hishab/titulm-llama-3.2-1b-v1.1 |
0-shot |
0.28 |
0.54 |
0.28 |
0.31 |
0.56 |
|
5-shot |
0.28 |
- |
0.31 |
0.34 |
0.57 |
- llama-3.2-1bは、0-shot設定でのBangla MMLU、BoolQ BN、およびOpenBook QA BNでそれぞれ最高得点の0.29、0.55、および0.33を達成し、より良い性能を示しました。
- hishab/titulm-llama-3.2-1b-v1.1は、0-shotおよび5-shot設定でのCommonsense QA BNおよびPIQA BNでより優れた性能を発揮し、5-shotでの最高得点はそれぞれ0.31および0.57でした。
英語ベンチマークデータセット評価
モデル |
プロンプト回数 |
MMLU |
BoolQ |
Commonsense QA |
OpenBook QA |
PIQA |
llama-3.2-1b |
0-shot |
0.38 |
0.64 |
0.47 |
0.37 |
0.75 |
|
5-shot |
0.309 |
0.662 |
0.317 |
0.396 |
0.759 |
titulm-llama-3.2-1b-v1.1 |
0-shot |
0.26 |
0.62 |
0.34 |
0.35 |
0.73 |
|
5-shot |
0.26 |
0.62 |
0.25 |
0.39 |
0.74 |
- llama-3.2-1bはすべてのタスクで優位を占め、0-shotおよび5-shot設定でのMMLU、BoolQ、Commonsense QA、OpenBook QA、およびPIQAで最高得点を達成し、5-shotのPIQAでは0.759の得点を獲得しました。
- hishab/titulm-llama-3.2-1b-v1.1は競争力のある性能を示し、特に0-shot設定でのCommonsense QAでは良好な結果を得ましたが、ほとんどのタスクで全体的にllama-3.2-1bに劣っていました。
想定用途
- ベンガル語テキスト生成
- ベンガル語言語理解タスク
- ベンガル語命令微調整タスク
🔧 技術詳細
このモデルはLlama 3.2アーキテクチャに基づいており、継続的な事前学習とベンガル語データセットでの微調整により、ベンガル語の処理能力が向上しています。Grouped-Query Attention (GQA) 技術を使用して推論の拡張性を向上させています。学習過程では、様々なデータソースとフィルタリング方法を使用して、データ品質とモデル性能を確保しています。
📄 ライセンス
私たちはLlama 3.2と同様のライセンスを使用しています。Llama 3.2の使用は、Llama 3.2コミュニティライセンス(カスタム商用ライセンス契約)の制約を受けます。
📚 引用
@misc{nahin2025titullmsfamilybanglallms,
title={TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking},
author={Shahriar Kabir Nahin and Rabindra Nath Nandi and Sagor Sarker and Quazi Sarwar Muhtaseem and Md Kowsher and Apu Chandraw Shill and Md Ibrahim and Mehadi Hasan Menon and Tareq Al Muntasir and Firoj Alam},
year={2025},
eprint={2502.11187},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.11187},
}