AraModernBert - Base - V1.0オープンソースアラビア語言語モデル - アラビア語コンテンツの効率的な処理を支援

ホーム

Aramodernbert Base V1.0

NAMAA-Spaceによって開発

AraModernBertはModernBERTアーキテクチャに基づいて構築された先進的なアラビア語言語モデルで、Transformer設計の革新と100GBのアラビア語テキストの大規模トレーニングを組み合わせています。

大規模言語モデル

Transformers

アラビア語オープンソースライセンス:Apache-2.0 #アラビア語長文処理 #クロストークン化技術 #8192コンテキストウィンドウ

ダウンロード数 660

リリース時間 : 2/1/2025

モデル概要

このモデルはアラビア語理解のために特別に設計されており、テキスト埋め込み、情報検索、テキスト分類など様々なNLPタスクに適しています。

モデル特徴

クロストークン化技術

MLMタスクの埋め込み層初期化を最適化するクロストークン化技術を採用し、モデル性能を向上

長文コンテキストサポート

8,192トークンのコンテキストウィンドウをサポートし、長文処理に適している

専用アラビア語トークナイザー

50,280語彙のカスタムトークナイザーを使用し、アラビア語処理に特化して最適化

交互注意メカニズム

3層ごとにグローバル注意+128トークンローカルウィンドウのハイブリッド注意アーキテクチャ

モデル能力

アラビア語テキスト理解

マスク言語モデリング

意味的テキスト類似度計算

テキスト分類

固有表現認識

使用事例

テキスト分析

意味的テキスト類似度

2つのアラビア語テキストの意味的類似度を計算

STS17: 0.831, STS22: 0.617

テキスト分類

アラビア語テキストを分類

精度94.32%、F1スコア94.31%

情報検索

検索拡張生成(RAG)

アラビア語質問応答システムの検索コンポーネントとして使用

🚀 AraModernBert-base-V1.0

AraModernBertは、ModernBERTアーキテクチャに基づいて構築された高度なアラビア語言語モデルです。このモデルは、最先端のトランスフォーマー設計の革新と、100ギガバイトのアラビア語テキストでの大規模なトレーニングを組み合わせることで、アラビア語理解における大きな進歩を表しています。

🚀 クイックスタート

ここでは、Transformersライブラリを使用してAraModernBertを使う方法を説明します。

基本的な使用法

from transformers import AutoTokenizer, AutoModel

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModel.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")

# Encode text
text = "مرحبا بكم في عالم الذكاء الاصطناعي"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# Get embeddings
embeddings = outputs.last_hidden_state

高度な使用法

マスク付き言語モデリングの例

from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch

tokenizer = AutoTokenizer.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")
model = AutoModelForMaskedLM.from_pretrained("NAMAA-Space/AraModernBert-Base-V1.0")

text = "الذكاء الاصطناعي هو [MASK] المستقبل."
inputs = tokenizer(text, return_tensors="pt")
token_index = torch.where(inputs["input_ids"][0] == tokenizer.mask_token_id)[0]

outputs = model(**inputs)
predictions = outputs.logits
predicted_token_id = torch.argmax(predictions[0, token_index]).item()
predicted_token = tokenizer.decode(predicted_token_id)
print(predicted_token)

✨ 主な機能

AraModernBertは、以下のような幅広いアラビア語NLPタスクに使用できます。

テキスト埋め込みと表現
情報検索
RAG（検索拡張生成）
文書類似度
テキスト分類
感情分析

📦 インストール

このセクションではインストールに関する具体的なコマンドが提供されていないため、スキップします。

📚 ドキュメント

モデルの説明

AraModernBertは、以下のプロセスを通じて開発されました。

カスタムトークナイザーのトレーニング：アラビア語処理に最適化された専用のトークナイザーを構築し、語彙サイズは50,280トークンとしました。
トランストークナイゼーション：トランストークナイゼーション技術を使用して、MLMの埋め込み層を最適に初期化しました（詳細については、こちらの論文を参照）。
大規模なマスク付き言語モデリング：モデルは100ギガバイトのアラビア語テキストでトレーニングされました。

モデルの構成

{
  "hidden_size": 768,
  "intermediate_size": 1152,
  "num_attention_heads": 12,
  "num_hidden_layers": 22,
  "max_position_embeddings": 8192,
  "vocab_size": 50280,
  "global_attn_every_n_layers": 3,
  "local_attention": 128,
  "global_rope_theta": 160000.0,
  "local_rope_theta": 10000.0,
  "architectures": ["ModernBertForMaskedLM"],
  "model_type": "modernbert",
  "cls_token_id": 3,
  "mask_token_id": 6,
  "pad_token_id": 5,
  "sep_token_id": 4,
  "unk_token_id": 2
}

想定される用途と制限

用途

AraModernBertは、以下のような幅広いアラビア語NLPタスクに使用できます。

テキスト埋め込みと表現
情報検索
RAG（検索拡張生成）
文書類似度
テキスト分類
感情分析

制限とバイアス

モデルは現代標準アラビア語に最適化されており、方言アラビア語のバリエーションや古典アラビア語のテキストでは性能が異なる場合があります。
ドメインや専門用語によって性能が異なる場合があります。
ユーザーはトレーニングデータに含まれる潜在的なバイアスに注意する必要があります。

評価結果

image/png

1. 意味的テキスト類似度（STS）

モデルをSTSデータセットでファインチューニングして、意味理解能力を向上させました。

STS17：0.831
STS22：0.617

注：STS最適化モデルは、近日中に別のチェックポイントとしてリリースされます。

2. テキスト分類

AraModernBertを、SANADデータセットを使用した多クラス分類タスクでファインチューニングしました。

全体的な指標

AraModernBert
- 正解率：94.32%
- F1スコア：94.31%
- 精度：94.31%
- 再現率：94.32%

クラスごとの性能（AraModernBert）

クラス	精度	再現率	F1スコア	サポート
0	92.13%	92.43%	92.28%	1,849
1	93.63%	93.70%	93.67%	3,937
2	90.70%	90.70%	90.70%	2,075
3	96.30%	93.81%	95.04%	776
4	96.09%	95.84%	95.96%	1,898
5	89.24%	87.99%	88.61%	641
6	98.55%	99.37%	98.96%	3,005

3. 固有表現認識（NER）

モデルは、アラビア語のNERタスクで優れた性能を達成しました。

正解率：90.39%
精度：0.7357
再現率：0.7442
F1：0.7399

🔧 技術詳細

モデルアーキテクチャ

AraModernBertは、ModernBERTから現代的なアーキテクチャ機能を継承し、トランストークナイゼーションアプローチを追加しています。

22層のトランスフォーマー層：768の隠れ次元
交互注意メカニズム：3層ごとにグローバル注意を使用し、ローカル注意ウィンドウは128トークン
回転位置埋め込み（RoPE）：グローバル（160000.0）とローカル（10000.0）の注意に異なるtheta値を使用
8,192トークンのコンテキストウィンドウ：長い文書の処理に対応
専用語彙：アラビア語に最適化された50,280トークン

技術仕様

属性	詳情
モデルタイプ	modernbert
ベースアーキテクチャ	ModernBERT
パラメータ	~149M（構成に基づく）
コンテキスト長	8,192トークン
語彙サイズ	50,280
隠れサイズ	768
注意ヘッド	12
隠れ層	22
中間サイズ	1152

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📖 引用

このモデルを研究で使用する場合は、以下のように引用してください。

@misc{AraModernBERT2025,
  title={AraModernBERT: Advanced Arabic Language Model Through Trans-Tokenization and ModernBERT architecture},
  author={NAMAA},
  year={2025},
  publisher={Hugging Face},
  howpublished={\url{https://huggingface.co/NAMAA-Space/AraModernBert-Base-V1.0}},
  note={Accessed: 2025-03-02}
}

謝辞

このモデルは、Answer.AIとLightOnによって開発されたModernBERTアーキテクチャを基に構築されています。彼らがエンコーダー専用モデルの分野に貢献したことを認め、独自のトランストークン化アプローチを通じて彼らの仕事をアラビア語に拡張しています。

@misc{modernbert,
      title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference}, 
      author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
      year={2024},
      eprint={2412.13663},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.13663}, 
}

@inproceedings{remy-delobelle2024transtokenization,
    title={Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of {LLM}s for Low-Resource {NLP}},
    author={Remy, Fran{\c{c}}ois and Delobelle, Pieter and Avetisyan, Hayastan and Khabibullina, Alfiya and de Lhoneux, Miryam and Demeester, Thomas},
    booktitle={First Conference on Language Modeling},
    year={2024},
    url={https://openreview.net/forum?id=sBxvoDhvao}
}