🚀 SA-BERT-V1:沙特方言詞嵌入模型
SA-BERT-V1 是一款專門為沙特方言設計的詞嵌入模型,基於預訓練模型進行微調,能夠有效處理沙特方言相關的語義相似性、聚類、檢索和分類等任務。
📚 詳細文檔
模型信息
屬性 |
詳情 |
微調模型 ID |
Omartificial-Intelligence-Space/SA-BERT-V1 |
許可證 |
Apache 2.0 |
適用範圍 |
沙特方言 |
模型類型 |
句子嵌入(採用均值池化的 BERT 編碼器) |
架構 |
12 層 Transformer,768 維隱藏狀態 |
嵌入大小 |
768 |
預訓練模型 |
UBC-NLP/MARBERTv2 |
微調數據 |
超過 50 萬條涵蓋不同主題和地區變體(希賈茲、內志等)的沙特方言句子 |
支持語言 |
阿拉伯語(沙特方言) |
預期任務 |
語義相似性、聚類、檢索、下游分類 |
模型優勢
SA-BERT-V1 在沙特方言理解方面表現卓越,在 44 個專業類別中,內部與跨類別相似度差距達到 +0.0022,平均餘弦相似度得分達到 0.98,為阿拉伯方言句子嵌入樹立了新的標準。
- 相似度差距:SA-BERT-V1 呈現出正向的內部與跨類別差距和較高的絕對相似度,證明了針對沙特方言進行微調的有效性。
- 內部與跨類別相似度:兩者均接近 0.98,且存在輕微的正向差距(+0.0023),這意味著同一主題的嵌入向量更為接近。
- 性能表現:在沙特方言聚類任務中表現出色,非常適合檢索或分組任務。
評估信息
評估是在一個包含 1280 條沙特方言句子、涵蓋 44 個不同類別的測試集上進行的(例如問候語、天氣、法律與正義等)。數據集由該項目創建併發布,用於評估詞嵌入模型,通過從數據集中採樣類別內和跨類別對來計算以下指標:
- 平均類別內/跨類別餘弦相似度
- 前 5 個最相似/最不相似的對
- 每個類別的平均相似度
測試樣本訪問
沙特方言測試樣本
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModel
MODEL_ID = "Omartificial-Intelligence-Space/SA-BERT-V1"
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID , token= "PASS_READ_TOKEN_HERE")
model = AutoModel.from_pretrained(MODEL_ID , token = "PASS_READ_TOKEN_HERE").to(DEVICE).eval()
def embed_sentence(text: str) -> torch.Tensor:
"""
Tokenizes `text`, feeds it through SA-BERT-V1, and returns
a 768-dimensional mean-pooled sentence embedding.
"""
enc = tokenizer(
text,
truncation=True,
padding="max_length",
max_length=256,
return_tensors="pt"
).to(DEVICE)
with torch.no_grad():
outputs = model(**enc).last_hidden_state
mask = enc["attention_mask"].unsqueeze(-1)
summed = (outputs * mask).sum(dim=1)
counts = mask.sum(dim=1).clamp(min=1e-9)
embedding = summed / counts
return embedding.squeeze(0)
if __name__ == "__main__":
sentences = [
"شتبي من البقالة؟",
"كيف حالك؟",
"وش رايك في الموضوع هذا؟"
]
for s in sentences:
vec = embed_sentence(s)
print(f"Sentence: {s}\nEmbedding shape: {vec.shape}\n")
📄 許可證
本模型採用 Apache 2.0 許可證。
📖 引用
如果您在研究或應用中使用了 MarBERTv2-SA,請引用以下文獻:
@misc{nacar2025SABERTV1,
title={SA-BERT-V1: Fine-Tuned Saudi-Dialect Embeddings},
author={Nacar, Omer & Sibaee, Serry},
year={2025},
publisher={Omartificial-Intelligence-Space},
howpublished={\url{https://huggingface.co/Omartificial-Intelligence-Space/SA-BERT-V1}},
}
@inproceedings{abdul-mageed-etal-2021-arbert,
title = "{ARBERT} {\&} {MARBERT}: Deep Bidirectional Transformers for {A}rabic",
author = "Abdul-Mageed, Muhammad and Elmadany, AbdelRahim and Nagoudi, El Moatez Billah",
booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)",
year = "2021",
publisher = "Association for Computational Linguistics",
pages = "7088--7105",
}