titulm-llama-3.2-1b-v1.1オープンソースモデル - ベンガル語のテキスト生成と理解能力を大幅に向上

ホーム

Titulm Llama 3.2 1b V1.1

hishabによって開発

Llama 3.2アーキテクチャに基づいて継続的に事前学習されたベンガル語大規模言語モデルで、大量のベンガル語データセットで微調整され、ベンガル語のテキスト生成と理解能力が向上しています。

大規模言語モデル

Transformers

その他#ベンガル語生成 #GQA最適化 #多言語対応

ダウンロード数 209

リリース時間 : 10/4/2024

モデル概要

このモデルは、ベンガル語のテキスト生成と理解能力の向上に特化しており、ベンガル語と英語の2つの言語をサポートし、さまざまな自然言語処理タスクに適しています。

モデル特徴

ベンガル語最適化

大量のベンガル語データセットで微調整され、ベンガル語のテキスト生成と理解能力が大幅に向上しています。

多言語対応

主にベンガル語をサポートし、副に英語をサポートし、バイリンガルタスクに適しています。

効率的な推論

Grouped - Query Attention (GQA)技術を使用して推論の拡張性を向上させています。

高品質データ

学習データは厳格にクリーニングとフィルタリングされ、データ品質とモデル性能が保証されています。

モデル能力

ベンガル語テキスト生成

ベンガル語言語理解

英語テキスト生成

英語言語理解

使用事例

自然言語処理

ベンガル語テキスト生成

高品質のベンガル語テキストを生成し、コンテンツ作成、翻訳などのシナリオに適しています。

ベンガル語のベンチマークテストで優れた結果を示します。

ベンガル語質問応答システム

ベンガル語の質問応答システムを構築し、ユーザーの質問に回答します。

BoolQ BNやCommonsense QA BNなどのデータセットで良好な結果を示します。

教育

ベンガル語学習支援

ベンガル語の学習を支援し、文法、語彙などの面でサポートを提供します。

🚀 ベンガル語大規模言語モデルTituLLMs

このプロジェクトは、meta-llama/Llama-3.2-1Bアーキテクチャに基づいて継続的に事前学習を行い、大量のベンガル語データセットで微調整を行っています。目的は、モデルが高品質なベンガル語テキストを生成する能力を向上させることで、ベンガル語理解評価基準とテキスト生成タスクで優れた性能を発揮します。

🚀 クイックスタート

transformersライブラリの使用

transformers >= 4.43.0バージョンから、Transformersのpipeline抽象またはAutoクラスのgenerate()関数を使用して会話推論を行うことができます。

以下のコマンドでtransformersライブラリを更新してください。

pip install --upgrade transformers

以下は使用例のコードです。

import torch
from transformers import pipeline

model_id = "hishab/titulm-llama-3.2-1b-v1.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("আমাদের দেশের নাম")

✨ 主な機能

Llama 3.2アーキテクチャに基づいて継続的に事前学習を行い、ベンガル語データセットで微調整を行うことで、ベンガル語処理能力を向上させます。
ベンガル語（主）と英語（副）の2つの言語をサポートします。
Grouped-Query Attention (GQA) を使用して推論の拡張性を向上させます。

📦 インストール

使用する前に、transformersライブラリを更新してください。

pip install --upgrade transformers

💻 使用例

基本的な使用法

import torch
from transformers import pipeline

model_id = "hishab/titulm-llama-3.2-1b-v1.1"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("আমাদের দেশের নাম")

📚 ドキュメント

モデル情報

モデルアーキテクチャ

Llama 3.2は、最適化されたTransformerアーキテクチャを持つ自己回帰型言語モデルです。

プロパティ	詳細
モデルタイプ	Llama 3.2自己回帰型言語モデル
学習データ	Hishabが整理したベンガル語テキストコーパス
パラメータ数	1B (1.23B)
入力モード	単一言語テキスト（ベンガル語）
出力モード	単一言語テキスト（ベンガル語）
コンテキスト長	4096
GQA	はい
共有埋め込み	はい
トークン数	85億個のトークン
知識截止日	なし

サポート言語

主にベンガル語をサポートし、副に英語をサポートします。

モデル公開日

2024年10月24日

状態

これはオフラインデータセットで学習された静的モデルで、将来的にモデル能力を向上させるための新しいバージョンがリリースされる可能性があります。

ライセンス

私たちはLlama 3.2と同様のライセンスを使用しています。Llama 3.2の使用は、Llama 3.2コミュニティライセンス（カスタム商用ライセンス契約）の制約を受けます。

詳細情報は、論文TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarkingとプロジェクトページで確認できます。

ハードウェアとソフトウェア

学習要因

私たちはllama-factory学習ライブラリ、クラウドGPUクラスター、および本番インフラストラクチャを使用して事前学習を行っています。微調整、アノテーション、および評価もクラウドインフラストラクチャ上で行われます。

学習データ

概要

私たちは、ウェブドキュメント、書籍、翻訳テキスト、音訳テキスト、文字起こしテキスト、コード混合テキスト、会話、オープンソースの生データなど、様々なソースから大量のベンガル語生テキストデータセットを収集しました。データセットは、異なるフィルタリング基準でクリーニングおよびフィルタリングされ、データ品質が確保されています。現在収集されているデータのサイズは約268GBで、実際のデータサイズの割合に基づいて33GBのデータが分離されています。総学習トークン数は85億個のトークンです。

データソースの要約

ウェブドキュメント：抽出、クリーニング、およびフィルタリングされたCommon Crawlデータ。
書籍：抽出、クリーニング、およびフィルタリングされた書籍データ。
文字起こしテキスト：内部のベンガル語ASRモデルを使用して文字起こしされたベンガル語音声データ。
翻訳データ：学習された英語 - ベンガル語翻訳LLMモデルを使用して生成された翻訳データ。
コード混合データ：学習された英語 - ベンガル語コード混合LLMモデルを使用して生成されたコード混合データ。
音訳データ：学習されたベンガル語 - 英語音訳LLMモデルを使用して生成された音訳データ。
合成データ：ベンガル語LLMモデルを使用して生成された合成データ。
その他：一部の選択されたウェブサイトから収集されたデータ、オープンソースデータ、およびその他のデータソース。

ベンチマークテスト

評価データセット

私たちは、ベンガル語と英語のベンチマークデータセットで事前学習モデルを評価しました。モデルはベンガル語データで学習されていますが、英語のベンチマークデータセットでも英語能力を評価しました。評価データセットは以下の通りです。

ベンガル語ベンチマークデータセット

Bangla MMLU：Hishabが様々なソースから整理した私有の多肢選択問題データセット。
CommonsenseQa Bangla：CommonsenseQAデータセットのベンガル語翻訳版で、Expressive Semantic Translation (EST) という新しい方法を使用して翻訳されています。この方法は、Googleの機械翻訳とLLMベースの書き換え修正を組み合わせています。
OpenbookQA Bangla：OpenbookQAデータセットのベンガル語翻訳版で、Expressive Semantic Translation (EST) 方法を使用して翻訳されています。
Piqa Bangla：Piqaデータセットのベンガル語翻訳版で、Expressive Semantic Translation (EST) 方法を使用して翻訳されています。
BoolQ Bangla：このデータセットは15,942個の例を含み、各エントリは三元組（質問、段落、回答）で構成されています。質問は自然に生成され、無提示かつ無制約の環境で生成されています。入力段落はベンガル語ウィキペディア、Banglapedia、およびニュース記事から取得され、GPT - 4を使用して対応するはい/いいえの質問と回答が生成されています。

英語ベンチマークデータセット

MMLU：様々な知識分野の多肢選択問題で構成される大規模なマルチタスクテスト。
CommonseQa：正解を予測するためにさまざまなタイプの常識知識が必要な新しい多肢選択式の質問応答データセット。
OpenbookQA：高度な質問応答研究を促進し、主題（データセットにも含まれるオープンブック形式で要約された重要な事実）と表現言語のより深い理解を探求することを目的としています。
Piqa：PIQAデータセットは物理的な常識推論に焦点を当てており、実際の知識と非定型の解決策が必要な日常の状況をAIが処理できるようにすることを目指しています。instructables.comにインスパイアされて作成され、AIの物理的な相互作用の理解と推論能力を強化することを目的としています。
BoolQ：はい/いいえの質問に対する応答データセットで、15942個の例を含んでいます。質問は自然に生成され、無提示かつ無制約の環境で生成されています。各例は三元組（質問、段落、回答）で、ページタイトルはオプションの追加コンテキストとして提供されます。テキストペア分類の設定は、既存の自然言語推論タスクと類似しています。

評価結果

ベンガル語ベンチマークデータセット評価

モデル	プロンプト回数	Bangla MMLU	BoolQ BN	Commonsense QA BN	OpenBook QA BN	PIQA BN
llama-3.2-1b	0-shot	0.29	0.55	0.22	0.33	0.53
	5-shot	0.28	-	0.23	0.31	0.54
hishab/titulm-llama-3.2-1b-v1.1	0-shot	0.28	0.54	0.28	0.31	0.56
	5-shot	0.28	-	0.31	0.34	0.57

llama-3.2-1bは、0-shot設定でのBangla MMLU、BoolQ BN、およびOpenBook QA BNでそれぞれ最高得点の0.29、0.55、および0.33を達成し、より良い性能を示しました。
hishab/titulm-llama-3.2-1b-v1.1は、0-shotおよび5-shot設定でのCommonsense QA BNおよびPIQA BNでより優れた性能を発揮し、5-shotでの最高得点はそれぞれ0.31および0.57でした。

英語ベンチマークデータセット評価

モデル	プロンプト回数	MMLU	BoolQ	Commonsense QA	OpenBook QA	PIQA
llama-3.2-1b	0-shot	0.38	0.64	0.47	0.37	0.75
	5-shot	0.309	0.662	0.317	0.396	0.759
titulm-llama-3.2-1b-v1.1	0-shot	0.26	0.62	0.34	0.35	0.73
	5-shot	0.26	0.62	0.25	0.39	0.74

llama-3.2-1bはすべてのタスクで優位を占め、0-shotおよび5-shot設定でのMMLU、BoolQ、Commonsense QA、OpenBook QA、およびPIQAで最高得点を達成し、5-shotのPIQAでは0.759の得点を獲得しました。
hishab/titulm-llama-3.2-1b-v1.1は競争力のある性能を示し、特に0-shot設定でのCommonsense QAでは良好な結果を得ましたが、ほとんどのタスクで全体的にllama-3.2-1bに劣っていました。

想定用途

ベンガル語テキスト生成
ベンガル語言語理解タスク
ベンガル語命令微調整タスク

🔧 技術詳細

このモデルはLlama 3.2アーキテクチャに基づいており、継続的な事前学習とベンガル語データセットでの微調整により、ベンガル語の処理能力が向上しています。Grouped-Query Attention (GQA) 技術を使用して推論の拡張性を向上させています。学習過程では、様々なデータソースとフィルタリング方法を使用して、データ品質とモデル性能を確保しています。

📄 ライセンス

📚 引用

@misc{nahin2025titullmsfamilybanglallms,
      title={TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking}, 
      author={Shahriar Kabir Nahin and Rabindra Nath Nandi and Sagor Sarker and Quazi Sarwar Muhtaseem and Md Kowsher and Apu Chandraw Shill and Md Ibrahim and Mehadi Hasan Menon and Tareq Al Muntasir and Firoj Alam},
      year={2025},
      eprint={2502.11187},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.11187}, 
}