multi-dialect-bert-base-arabicオープンソースモデル - アラビア語の複数の方言識別を無料でサポート

ホーム

Multi Dialect Bert Base Arabic

bashar-talafhaによって開発

Arabic-BERTを初期化し、1000万件のアラビア語ツイートで学習した多方言BERTモデルで、アラビア語の複数の方言識別をサポートします。

大規模言語モデルアラビア語#アラビア語方言識別 #多方言BERT #ソーシャルメディアテキスト処理

ダウンロード数 357

リリース時間 : 3/2/2022

モデル概要

このモデルはアラビア語の複数の方言に対して開発されたBERTモデルで、特に国家レベルの方言識別タスクに適しています。Arabic-BERTの重みで初期化され、NADIアラビア語方言識別タスクの未ラベル付きデータで学習されました。

モデル特徴

多方言サポート

アラビア語の複数の方言に特化して学習され、異なる地域のアラビア語方言を効果的に識別できます。

大規模ツイートデータに基づく

1000万件の未ラベル付きアラビア語ツイートデータで学習され、強力な言語理解能力を持っています。

転移学習の応用

Arabic-BERTの重みで初期化され、事前学習モデルの利点を十分に活用しています。

モデル能力

アラビア語テキスト理解

方言識別

マスク言語モデリング

テキスト分類

使用事例

言語研究

アラビア語方言分析

テキストで使用されているアラビア語の具体的な方言を識別します。

異なるアラビア国家の方言を正確に識別できます。

ソーシャルメディア分析

ツイートの発信地予測

ツイート内容に基づいて発信者の地理位置を予測します。

方言の特徴を通じてユーザーが所属する可能性のある国家または地域を判断できます。

🚀 多方言アラビア語BERTモデル

このプロジェクトは、多方言アラビア語BERTモデルのコードリポジトリで、Mawdoo3-AI によって開発されました。このモデルは、アラビア語の異なる方言の処理問題を解決し、アラビア語の自然言語処理タスクにより強力なサポートを提供することを目的としています。

Background reference: http://www.qfi.org/wp-content/uploads/2018/02/Qfi_Infographic_Mother-Language_Final.pdf

🚀 クイックスタート

このモデルの重みは、HuggingFaceのtransformersライブラリを使用してロードすることができます。

基本的な使用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bashar-talafha/multi-dialect-bert-base-arabic")
model = AutoModel.from_pretrained("bashar-talafha/multi-dialect-bert-base-arabic")

高度な使用法

pipelineを使用する例：

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="bashar-talafha/multi-dialect-bert-base-arabic ",
    tokenizer="bashar-talafha/multi-dialect-bert-base-arabic "
)

fill_mask(" سافر الرحالة من مطار [MASK] ")

[{'sequence': '[CLS] سافر الرحالة من مطار الكويت [SEP]', 'score': 0.08296813815832138, 'token': 3226},
 {'sequence': '[CLS] سافر الرحالة من مطار دبي [SEP]', 'score': 0.05123933032155037, 'token': 4747},
 {'sequence': '[CLS] سافر الرحالة من مطار مسقط [SEP]', 'score': 0.046838656067848206, 'token': 13205},
 {'sequence': '[CLS] سافر الرحالة من مطار القاهرة [SEP]', 'score': 0.03234650194644928, 'token': 4003},
 {'sequence': '[CLS] سافر الرحالة من مطار الرياض [SEP]', 'score': 0.02606341242790222, 'token': 2200}]

✨ 主な機能

このモデルは、多方言アラビア語BERTモデルをゼロから訓練するのではなく、Arabic-BERT を使用してモデルの重みを初期化し、The Nuanced Arabic Dialect Identification (NADI) shared task の1000万件の未ラベル付きアラビア語ツイートデータで訓練されています。

📚 ドキュメント

詳細な情報については、元のリポジトリを参照してください。

📄 ライセンス

この研究を引用する場合

@misc{talafha2020multidialect,
    title={Multi-Dialect Arabic BERT for Country-Level Dialect Identification},
    author={Bashar Talafha and Mohammad Ali and Muhy Eddin Za'ter and Haitham Seelawi and Ibraheem Tuffaha and Mostafa Samir and Wael Farhan and Hussein T. Al-Natsheh},
    year={2020},
    eprint={2007.05612},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}