A

Aramodernbert Base V1.0

由NAMAA-Space開發
AraModernBert是基於ModernBERT架構構建的先進阿拉伯語語言模型,結合了Transformer設計創新與100GB阿拉伯語文本的大規模訓練。
下載量 660
發布時間 : 2/1/2025

模型概述

該模型專為阿拉伯語理解設計,適用於文本嵌入、信息檢索、文本分類等多種NLP任務。

模型特點

跨標記化技術
採用跨標記化技術優化MLM任務的嵌入層初始化,提升模型性能
長上下文支持
支持8,192標記的上下文窗口,適合處理長文本
專用阿拉伯語分詞器
使用50,280詞彙量的定製分詞器,專門優化阿拉伯語處理
交替注意力機制
每3層全局注意力+128標記局部窗口的混合注意力架構

模型能力

阿拉伯語文本理解
掩碼語言建模
語義文本相似度計算
文本分類
命名實體識別

使用案例

文本分析
語義文本相似度
計算兩段阿拉伯語文本的語義相似度
STS17: 0.831, STS22: 0.617
文本分類
對阿拉伯語文本進行分類
準確率94.32%,F1分數94.31%
信息檢索
檢索增強生成(RAG)
用於阿拉伯語問答系統的檢索組件
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase