multi-dialect-bert-base-arabic開源模型 - 免費支持阿拉伯語多種方言識別

首頁

Multi Dialect Bert Base Arabic

由bashar-talafha開發

基於Arabic-BERT初始化並在1000萬條阿拉伯語推文上訓練的多方言BERT模型，支持阿拉伯語多種方言識別

大型語言模型阿拉伯語#阿拉伯語方言識別 #多方言BERT #社交媒體文本處理

下載量 357

發布時間 : 3/2/2022

模型概述

該模型是針對阿拉伯語多種方言開發的BERT模型，特別適用於國家級別方言識別任務。基於Arabic-BERT權重初始化，並在NADI阿拉伯語方言識別任務的未標註數據上進行了訓練。

模型特點

多方言支持

專門針對阿拉伯語多種方言訓練，能有效識別不同地區的阿拉伯語方言

基於大規模推文數據

在1000萬條未標註阿拉伯語推文數據上訓練，具有強大的語言理解能力

遷移學習應用

基於Arabic-BERT權重初始化，充分利用預訓練模型的優勢

模型能力

阿拉伯語文本理解

方言識別

掩碼語言建模

文本分類

使用案例

語言研究

阿拉伯語方言分析

識別文本中使用的阿拉伯語具體方言

能準確識別來自不同阿拉伯國家的方言

社交媒體分析

推文來源地預測

根據推文內容預測發佈者的地理位置

通過方言特徵判斷用戶可能來自的國家或地區

🚀 多方言阿拉伯語BERT模型

本項目是多方言阿拉伯語BERT模型的代碼倉庫，由 Mawdoo3-AI 開發。該模型旨在解決阿拉伯語不同方言的處理問題，為阿拉伯語的自然語言處理任務提供更強大的支持。

Background reference: http://www.qfi.org/wp-content/uploads/2018/02/Qfi_Infographic_Mother-Language_Final.pdf

🚀 快速開始

本模型的權重可以使用HuggingFace的transformers庫進行加載。

基礎用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bashar-talafha/multi-dialect-bert-base-arabic")
model = AutoModel.from_pretrained("bashar-talafha/multi-dialect-bert-base-arabic")

高級用法

使用pipeline的示例：

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="bashar-talafha/multi-dialect-bert-base-arabic ",
    tokenizer="bashar-talafha/multi-dialect-bert-base-arabic "
)

fill_mask(" سافر الرحالة من مطار [MASK] ")

[{'sequence': '[CLS] سافر الرحالة من مطار الكويت [SEP]', 'score': 0.08296813815832138, 'token': 3226},
 {'sequence': '[CLS] سافر الرحالة من مطار دبي [SEP]', 'score': 0.05123933032155037, 'token': 4747},
 {'sequence': '[CLS] سافر الرحالة من مطار مسقط [SEP]', 'score': 0.046838656067848206, 'token': 13205},
 {'sequence': '[CLS] سافر الرحالة من مطار القاهرة [SEP]', 'score': 0.03234650194644928, 'token': 4003},
 {'sequence': '[CLS] سافر الرحالة من مطار الرياض [SEP]', 'score': 0.02606341242790222, 'token': 2200}]

✨ 主要特性

本模型並非從頭開始訓練多方言阿拉伯語BERT模型，而是使用 Arabic-BERT 初始化模型的權重，並在 The Nuanced Arabic Dialect Identification (NADI) shared task 的1000萬條未標記阿拉伯語推文數據上進行訓練。

📚 詳細文檔

如需更多信息，請查看原始倉庫。

📄 許可證

引用本工作

@misc{talafha2020multidialect,
    title={Multi-Dialect Arabic BERT for Country-Level Dialect Identification},
    author={Bashar Talafha and Mohammad Ali and Muhy Eddin Za'ter and Haitham Seelawi and Ibraheem Tuffaha and Mostafa Samir and Wael Farhan and Hussein T. Al-Natsheh},
    year={2020},
    eprint={2007.05612},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}