🚀 提图尔姆-拉玛3.2-3Bモデル
このプロジェクトは meta-llama/Llama-3.2-3B アーキテクチャに基づいて継続的に事前学習を行い、約42Kのベンガル語トークンを拡張し、大量のベンガル語データセットで微調整を行っています。目的は、モデルが高品質なベンガル語テキストを生成する能力を強化し、ベンガル語理解評価ベンチマークやテキスト生成タスクで優れた性能を発揮することです。
🚀 クイックスタート
transformersライブラリの使用
transformers >= 4.43.0バージョンから、Transformersのpipeline抽象を使用するか、Autoクラスとgenerate()関数を利用して対話推論を行うことができます。
以下のコマンドでtransformersライブラリを更新してください。
pip install --upgrade transformers
以下は使用例のコードです。
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-3b-v2.0"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
✨ 主な機能
- 言語サポート:主にベンガル語をサポートし、英語も副次的にサポートします。
- モデルアーキテクチャ:最適化されたTransformerアーキテクチャを採用した自己回帰型言語モデルです。
- 学習データ:約268GBのベンガル語の生テキストデータを収集し、様々なソースを網羅しています。
- トークン拡張:約42Kのベンガル語トークンを拡張し、モデルのベンガル語処理能力を向上させました。
📦 インストール
以下のコマンドでtransformersライブラリを更新してください。
pip install --upgrade transformers
💻 使用例
基本的な使用法
import torch
from transformers import pipeline
model_id = "hishab/titulm-llama-3.2-3b-v2.0"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
pipe("আমাদের দেশের নাম")
📚 ドキュメント
モデル情報
属性 |
詳細 |
モデルタイプ |
Llama 3.2は最適化されたTransformerアーキテクチャを採用した自己回帰型言語モデルです。 |
学習データ |
Hishabが企画したベンガル語テキストコーパス |
パラメータ数 |
3B(3.21B) |
入力モーダリティ |
単言語テキスト(ベンガル語) |
出力モーダリティ |
単言語テキスト(ベンガル語) |
コンテキスト長 |
4096 |
GQA |
はい |
共有埋め込み |
はい |
トークン数 |
37Bトークン |
知識截止日 |
なし |
サポート言語
主にベンガル語をサポートし、英語も副次的にサポートします。
モデル公開日
2024年10月24日
状態
これはオフラインデータセットで学習した静的モデルで、将来的にモデル能力を向上させる更新バージョンが公開される可能性があります。
ライセンス
私たちはLlama 3.2と同様のライセンスを使用しています。Llama 3.2の使用は Llama 3.2コミュニティライセンス(カスタム商用ライセンス契約)によって制約されています。
論文引用
@misc{nahin2025titullmsfamilybanglallms,
title={TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking},
author={Shahriar Kabir Nahin and Rabindra Nath Nandi and Sagor Sarker and Quazi Sarwar Muhtaseem and Md Kowsher and Apu Chandraw Shill and Md Ibrahim and Mehadi Hasan Menon and Tareq Al Muntasir and Firoj Alam},
year={2025},
eprint={2502.11187},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.11187},
}
🔧 技術詳細
ハードウェアとソフトウェア
- 学習要因:llama-factory 学習ライブラリ、クラウドGPUクラスター、および本番インフラストラクチャを使用して事前学習を行いました。微調整、アノテーション、評価もクラウドインフラストラクチャ上で行われました。
学習データ
- 概要:様々なソースから大量のベンガル語の生テキストデータセットを収集しました。これには、ウェブドキュメント、書籍、翻訳テキスト、音訳テキスト、文字起こしテキスト、コード混合テキスト、対話、オープンソースの生データなどが含まれます。データセットは、異なるフィルタリング基準でクリーニングおよびフィルタリングされ、データ品質が確保されています。収集されたデータのサイズは約268GBで、総学習トークン数は37Bトークンです。
- データソースの要約:
- ウェブドキュメント:抽出、クリーニング、フィルタリングされた一般的なクローラーデータ
- 書籍:抽出、クリーニング、フィルタリングされた書籍データ
- 文字起こしテキスト:内部のベンガル語ASRモデルを使用してベンガル語音声データを文字起こししたもの
- 翻訳データ:英語 - ベンガル語の翻訳大規模言語モデルを学習させ、英語データをベンガル語に翻訳したもの
- コード混合データ:英語 - ベンガル語のコード混合大規模言語モデルを学習させ、コード混合データを生成したもの
- 音訳データ:ベンガル語 - 英語の音訳大規模言語モデルを学習させ、音訳データを生成したもの
- 合成データ:ベンガル語の大規模言語モデルを使用して合成データを生成したもの
- その他:いくつかの選択されたウェブサイトのデータをクロールし、オープンソースデータやその他のデータソースを使用しました。
トークン拡張
Tiktoken ライブラリを使用して、48GBのベンガル語データセット(主な事前学習データからサンプリング)で個別のベンガル語トークナイザーを学習させました。語彙数は48kで、42kのトークンを事前学習モデルに追加するために分離しました。これらのトークンを使用してモデルの語彙を拡張し、ベンガル語データで継続的に事前学習を行いました。トークン拡張プロセスは、モデルが高品質なベンガル語テキストを生成する能力を強化することを目的としています。更新後の語彙数は170Kで、元のllama-3.2の語彙数は128kです。
ベンチマーク - ベンガル語テキスト
評価データセット
- ベンガル語ベンチマークデータセット:
- Bangla MMLU:Hishabが企画したプライベートな選択肢問題データセットで、様々なソースから収集されています。
- CommonsenseQa Bangla:CommonsenseQAデータセットのベンガル語翻訳版で、「表現的意味翻訳(EST)」という新しい方法を使用して翻訳されています。この方法は、Googleの機械翻訳と大規模言語モデルに基づく書き換え修正を組み合わせたものです。
- OpenbookQA Bangla:OpenbookQAデータセットのベンガル語翻訳版で、「表現的意味翻訳(EST)」方法を使用して翻訳されています。
- Piqa Bangla:Piqaデータセットのベンガル語翻訳版で、「表現的意味翻訳(EST)」方法を使用して翻訳されています。
- BoolQ Bangla:15,942個のサンプルを含み、各エントリは三元組(質問、段落、回答)で構成されています。質問は自然に生成され、無提示かつ無制約の設定から得られています。入力段落は、ベンガル語のウィキペディア、ベンガル百科事典、ニュース記事から取得され、GPT - 4を使用して対応するはい/いいえの質問と回答が生成されています。
- 英語ベンチマークデータセット:
- MMLU:様々な知識分野の選択肢問題を含む大規模な多タスクテストです。
- CommonseQa:正解を予測するためにさまざまな種類の常識知識が必要な新しい選択肢問題型の質問応答データセットです。
- OpenbookQA:高度な質問応答研究を促進し、主題(データセットには関連する重要な事実の要約が「オープンブック」として提供されています)と表現言語のより深い理解を探究することを目的としています。
- Piqa:PIQAデータセットは物理的な常識推論に焦点を当てており、実際の知識と非定型的な解決策が必要な日常の状況を処理するAIを挑戦させます。instructables.comにインスパイアされ、AIが物理的な相互作用を理解し推論する能力を強化することを目指しています。
- BoolQ:はい/いいえの質問に対する質問応答データセットで、15942個のサンプルを含んでいます。これらの質問は自然に生成され、無提示かつ無制約の設定から得られています。各サンプルは三元組(質問、段落、回答)で、ページタイトルはオプションの追加コンテキストとして提供されます。テキストペア分類の設定は、既存の自然言語推論タスクと類似しています。
評価結果
-
ベンガル語ベンチマークデータセット評価:
| モデル | サンプル数 | Bangla MMLU | BoolQ BN | Commonsense QA BN | OpenBook QA BN | PIQA BN |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| llama-3.2-3b | 0-shot | 0.36 | 0.55 | 0.26 | 0.31 | 0.56 |
| | 5-shot | 0.38 | - | 0.29 | 0.32 | 0.58 |
| titulm-llama-3.2-3b-v2.0 | 0-shot | 0.26 | 0.57 | 0.27 | 0.32 | 0.58 |
| | 5-shot | 0.24 | 0.59 | 0.33 | 0.34 | 0.60 |
-
英語ベンチマークデータセット評価:
| モデル | サンプル数 | MMLU | BoolQ | Commonsense QA | OpenBook QA | PIQA |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| llama-3.2-3b | 0-shot | 0.54 | 0.73 | 0.64 | 0.43 | 0.77 |
| | 5-shot | 0.56 | 0.74 | 0.67 | 0.45 | 0.80 |
| titulm-llama-3.2-3b-v2.0 | 0-shot | 0.24 | 0.49 | 0.20 | 0.22 | 0.57 |
| | 5-shot | 0.26 | 0.59 | 0.20 | 0.24 | 0.57 |
想定用途
- ベンガル語テキスト生成
- ベンガル語言語理解タスク
- ベンガル語命令微調整タスク
📄 ライセンス
私たちはLlama 3.2と同様のライセンスを使用しています。Llama 3.2の使用は Llama 3.2コミュニティライセンス(カスタム商用ライセンス契約)によって制約されています。