A

Aramodernbert Base V1.0

NAMAA-Spaceによって開発
AraModernBertはModernBERTアーキテクチャに基づいて構築された先進的なアラビア語言語モデルで、Transformer設計の革新と100GBのアラビア語テキストの大規模トレーニングを組み合わせています。
ダウンロード数 660
リリース時間 : 2/1/2025

モデル概要

このモデルはアラビア語理解のために特別に設計されており、テキスト埋め込み、情報検索、テキスト分類など様々なNLPタスクに適しています。

モデル特徴

クロストークン化技術
MLMタスクの埋め込み層初期化を最適化するクロストークン化技術を採用し、モデル性能を向上
長文コンテキストサポート
8,192トークンのコンテキストウィンドウをサポートし、長文処理に適している
専用アラビア語トークナイザー
50,280語彙のカスタムトークナイザーを使用し、アラビア語処理に特化して最適化
交互注意メカニズム
3層ごとにグローバル注意+128トークンローカルウィンドウのハイブリッド注意アーキテクチャ

モデル能力

アラビア語テキスト理解
マスク言語モデリング
意味的テキスト類似度計算
テキスト分類
固有表現認識

使用事例

テキスト分析
意味的テキスト類似度
2つのアラビア語テキストの意味的類似度を計算
STS17: 0.831, STS22: 0.617
テキスト分類
アラビア語テキストを分類
精度94.32%、F1スコア94.31%
情報検索
検索拡張生成(RAG)
アラビア語質問応答システムの検索コンポーネントとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase