bert - medium - arabicオープンソースアラビア語言語モデル - 海量のテキストに基づく訓練でコンテンツの理解と表現を支援

ホーム

Bert Medium Arabic

asafayaによって開発

約82億語のアラビア語テキストリソースを基に訓練された事前学習済みのアラビア語BERT中型言語モデル

大規模言語モデルアラビア語#アラビア語NLP #ソーシャルメディアコンテンツ分析 #多方言対応

ダウンロード数 66

リリース時間 : 3/2/2022

モデル概要

このモデルは事前学習済みのアラビア語BERT中型言語モデルで、主に自然言語処理タスク、例えばテキスト分類、固有表現認識などに使用されます。

モデル特徴

多ソース訓練データ

OSCARアラビア語版やウィキペディアなどの多ソースのアラビア語テキストリソースを基に訓練され、合計約95GBです。

方言対応

現代標準アラビア語だけでなく、一部の方言アラビア語も含まれています。

最適化訓練

訓練パラメータの調整：総ステップ数300万（バッチサイズ=128）で、オリジナルのBERTの100万ステップ（バッチサイズ=256）ではなくなりました。

モデル能力

テキスト分類

固有表現認識

テキスト生成

言語理解

使用事例

ソーシャルメディア分析

侮辱的な発言の識別

ソーシャルメディア上の侮辱的な発言を識別するために使用されます。

SemEval - 2020タスク12で良好な結果を示しました。

自然言語処理

テキスト分類

アラビア語テキストの分類タスクに使用されます。

固有表現認識

アラビア語テキスト中の固有表現を識別するために使用されます。

🚀 アラビア語BERTミディアムモデル

アラビア語用に事前学習されたBERTミディアム言語モデルです。

このモデルをあなたの研究で使用する場合は、この論文を引用してください。

@inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

📚 ドキュメント

事前学習コーパス

arabic-bert-mediumモデルは、約82億語のデータで事前学習されました。

OSCAR のアラビア語版 - Common Crawl からフィルタリング
最新のアラビア語 Wikipedia ダンプ

その他のアラビア語リソースも含め、合計で約95GBのテキストデータを使用しています。

学習データに関する注意事項

最終版のコーパスには、一部の非アラビア語の単語が含まれています。これらは、NERなどの一部のタスクに影響を与える可能性があるため、文から削除していません。
前処理として非アラビア語の文字は小文字に変換されますが、アラビア語には大文字と小文字の区別がないため、モデルには大文字小文字区別の有無に関するバージョンはありません。
コーパスと語彙セットは、現代標準アラビア語に限定されておらず、一部の方言アラビア語も含まれています。

事前学習の詳細

このモデルは、Google BERTのGitHub リポジトリを使用して、TFRC から無料で提供された単一のTPU v3-8で学習されました。
事前学習の手順は、BERTの学習設定に一部変更を加えています。バッチサイズ128で300万ステップの学習を行い、元の設定のバッチサイズ256で100万ステップの学習とは異なります。

事前学習済みモデルの読み込み

torch または tensorflow とHuggingfaceのライブラリ transformers をインストールすることで、このモデルを使用できます。以下のように初期化することで直接使用することができます。

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")