SA-BERT-V1開源沙特方言嵌入模型 - 專為沙特方言打造高質量句子嵌入

首頁

SA BERT V1

由Omartificial-Intelligence-Space開發

SA-BERT-V1是基於MARBERTv2微調的沙特方言嵌入模型，專為處理沙特阿拉伯方言設計，提供高質量的句子嵌入。

文本嵌入

Transformers

阿拉伯語開源協議:Apache-2.0 #沙特方言嵌入 #阿拉伯語語義理解 #高相似度聚類

下載量 31

發布時間 : 5/12/2025

模型概述

SA-BERT-V1是一個針對沙特阿拉伯方言優化的句子嵌入模型，基於UBC-NLP/MARBERTv2預訓練模型微調，適用於語義相似度、聚類、檢索和分類任務。

模型特點

沙特方言優化

專門針對沙特阿拉伯方言進行微調，提升了方言理解和處理能力。

高性能嵌入

在內部與跨類別相似度差距上提升了+0.0022，44個專業類別中平均餘弦分數達到0.98。

多樣數據訓練

使用超過50萬條沙特方言句子進行微調，涵蓋多樣主題和地區變體。

模型能力

語義相似度計算

文本聚類

信息檢索

下游分類任務

使用案例

自然語言處理

沙特方言語義相似度分析

用於計算沙特方言句子之間的語義相似度。

在測試集上達到0.98的平均餘弦相似度。

沙特方言文本聚類

對沙特方言文本進行聚類分析。

在沙特方言聚類任務中表現優異。

信息檢索

沙特方言文檔檢索

用於構建沙特方言的文檔檢索系統。

🚀 SA-BERT-V1：沙特方言詞嵌入模型

SA-BERT-V1 是一款專門為沙特方言設計的詞嵌入模型，基於預訓練模型進行微調，能夠有效處理沙特方言相關的語義相似性、聚類、檢索和分類等任務。

MarBERTv2-SA Logo

📚 詳細文檔

模型信息

屬性	詳情
微調模型 ID	Omartificial-Intelligence-Space/SA-BERT-V1
許可證	Apache 2.0
適用範圍	沙特方言
模型類型	句子嵌入（採用均值池化的 BERT 編碼器）
架構	12 層 Transformer，768 維隱藏狀態
嵌入大小	768
預訓練模型	UBC-NLP/MARBERTv2
微調數據	超過 50 萬條涵蓋不同主題和地區變體（希賈茲、內志等）的沙特方言句子
支持語言	阿拉伯語（沙特方言）
預期任務	語義相似性、聚類、檢索、下游分類

模型優勢

SA-BERT-V1 在沙特方言理解方面表現卓越，在 44 個專業類別中，內部與跨類別相似度差距達到 +0.0022，平均餘弦相似度得分達到 0.98，為阿拉伯方言句子嵌入樹立了新的標準。

相似度差距：SA-BERT-V1 呈現出正向的內部與跨類別差距和較高的絕對相似度，證明了針對沙特方言進行微調的有效性。
內部與跨類別相似度：兩者均接近 0.98，且存在輕微的正向差距（+0.0023），這意味著同一主題的嵌入向量更為接近。
性能表現：在沙特方言聚類任務中表現出色，非常適合檢索或分組任務。

評估信息

評估是在一個包含 1280 條沙特方言句子、涵蓋 44 個不同類別的測試集上進行的（例如問候語、天氣、法律與正義等）。數據集由該項目創建併發布，用於評估詞嵌入模型，通過從數據集中採樣類別內和跨類別對來計算以下指標：

平均類別內/跨類別餘弦相似度
前 5 個最相似/最不相似的對
每個類別的平均相似度

測試樣本訪問

沙特方言測試樣本

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModel

# Configuration
MODEL_ID = "Omartificial-Intelligence-Space/SA-BERT-V1"
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID , token= "PASS_READ_TOKEN_HERE")
model     = AutoModel.from_pretrained(MODEL_ID , token = "PASS_READ_TOKEN_HERE").to(DEVICE).eval()

def embed_sentence(text: str) -> torch.Tensor:
    """
    Tokenizes `text`, feeds it through SA-BERT-V1, and returns
    a 768-dimensional mean-pooled sentence embedding.
    """
    # Encode the text
    enc = tokenizer(
        text,
        truncation=True,
        padding="max_length",
        max_length=256,
        return_tensors="pt"
    ).to(DEVICE)

    # Forward pass
    with torch.no_grad():
        outputs = model(**enc).last_hidden_state  # shape: (1, seq_len, 768)

    # Mean-pooling over valid tokens
    mask = enc["attention_mask"].unsqueeze(-1)           # shape: (1, seq_len, 1)
    summed = (outputs * mask).sum(dim=1)                 # shape: (1, 768)
    counts = mask.sum(dim=1).clamp(min=1e-9)              # shape: (1, 1)
    embedding = summed / counts                          # shape: (1, 768)

    return embedding.squeeze(0)  # shape: (768,)

# Example usage
if __name__ == "__main__":
    sentences = [
        "شتبي من البقالة؟",
        "كيف حالك؟",
        "وش رايك في الموضوع هذا؟"
    ]
    for s in sentences:
        vec = embed_sentence(s)
        print(f"Sentence: {s}\nEmbedding shape: {vec.shape}\n")

📄 許可證

本模型採用 Apache 2.0 許可證。

📖 引用

如果您在研究或應用中使用了 MarBERTv2-SA，請引用以下文獻：

@misc{nacar2025SABERTV1,
  title={SA-BERT-V1: Fine-Tuned Saudi-Dialect Embeddings},
  author={Nacar, Omer & Sibaee, Serry},
  year={2025},
  publisher={Omartificial-Intelligence-Space},
  howpublished={\url{https://huggingface.co/Omartificial-Intelligence-Space/SA-BERT-V1}},
}

@inproceedings{abdul-mageed-etal-2021-arbert,
    title = "{ARBERT} {\&} {MARBERT}: Deep Bidirectional Transformers for {A}rabic",
    author = "Abdul-Mageed, Muhammad and Elmadany, AbdelRahim and Nagoudi, El Moatez Billah",
    booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)",
    year = "2021",
    publisher = "Association for Computational Linguistics",
    pages = "7088--7105",
}