arabic_xlm_xnliオープンソースモデル - 無料でデプロイしてアラビア語のゼロサンプルテキスト分類を実現

ホーム

Arabic Xlm Xnli

moritによって開発

XLM-Roberta-baseモデルを基に、アラビア語Twitterコーパスで継続事前学習を行い、XNLIアラビア語データセットでファインチューニングされた、ゼロショットテキスト分類用モデルです。

テキスト分類

Transformers

アラビア語オープンソースライセンス:MIT #アラビア語ゼロショット分類 #多言語ツイッター事前学習 #ヘイトスピーチ検出

ダウンロード数 268

リリース時間 : 1/6/2023

モデル概要

このモデルはアラビア語のゼロショットテキスト分類に特化しており、特にヘイトスピーチ検出分野に適しています。ベースモデルは100言語をサポートしているため、他の言語でも一定の効果が期待できます。

モデル特徴

多言語サポート

ベースモデルは100言語で事前学習されており、アラビア語に特化していますが、他の言語でも一定の効果があります。

Twitterデータ最適化

モデルはTwitterの大規模コーパスで継続事前学習されており、ソーシャルメディアのテキスト分析に特に適しています。

ゼロショット分類能力

特定ドメインの訓練データがなくても分類タスクを実行可能で、迅速なアプリケーション展開に最適です。

モデル能力

ゼロショットテキスト分類

多言語テキスト理解

ヘイトスピーチ検出

使用事例

コンテンツモデレーション

アラビア語ヘイトスピーチ検出

ソーシャルメディア上のアラビア語ヘイトスピーチコンテンツを自動識別

テキスト分類

ゼロショット感情分析

訓練なしでアラビア語テキストの感情分類が可能

🚀 XLM-ROBERTA-BASE-XNLI-AR

このモデルは、多言語のTwitterの大規模コーパスで事前学習を続けたXLM-Roberta-baseモデルを利用しています。このモデルは、Tweet Evalフレームワークに導入されたのと同様の戦略に従って開発されました。さらに、XNLIトレーニングデータセットのアラビア語部分で微調整されています。

🚀 クイックスタート

このモデルは、ヘイトスピーチ検出の分野でゼロショットテキスト分類を行うために開発されました。アラビア語のデータで微調整されているため、アラビア語に特化しています。ただし、ベースモデルは100種類の言語で事前学習されているため、他の言語でも一定の有効性を示しています。詳細な言語リストは、XLM Roberta論文を参照してください。

ゼロショット分類パイプラインでの使用

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="morit/arabic_xlm_xnli")

✨ 主な機能

ゼロショットテキスト分類を行うことができます。
アラビア語のヘイトスピーチ検出に特化しています。
ベースモデルが100種類の言語で事前学習されているため、他の言語でも一定の有効性を示します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="morit/arabic_xlm_xnli")

高度な使用法

このREADMEには高度な使用法のコード例が記載されていないため、このサブセクションは省略されます。

📚 ドキュメント

モデルの説明

想定される使用方法

トレーニング

このモデルは、100種類の言語のセットで事前学習され、元の論文で説明されているように、1億9800万件の多言語ツイートでさらにトレーニングされました。さらに、MNLIデータセットの機械翻訳版であるXNLIデータセットのアラビア語のトレーニングセットでトレーニングされました。XNLIトレーニングセットの5エポックでトレーニングされ、各エポックの終了時にXNLI評価データセットで評価され、最も性能の高いモデルが選択されました。

Training Charts from wandb

学習率: 2e-5
バッチサイズ: 32
最大シーケンス長: 128

GPU（NVIDIA GeForce RTX 3090）を使用して、トレーニング時間は1時間47分でした。

評価

最も性能の高いモデルは、XNLIテストセットで評価され、比較可能な結果が得られました。

predict_accuracy = 74.19 %

🔧 技術詳細

トレーニングに関しては、このモデルは、100種類の言語のセットで事前学習され、元の論文で説明されているように、1億9800万件の多言語ツイートでさらにトレーニングされました。さらに、MNLIデータセットの機械翻訳版であるXNLIデータセットのアラビア語のトレーニングセットでトレーニングされました。XNLIトレーニングセットの5エポックでトレーニングされ、各エポックの終了時にXNLI評価データセットで評価され、最も性能の高いモデルが選択されました。

📄 ライセンス

このモデルは、MITライセンスの下で提供されています。

属性	详情
モデルタイプ	XLM-ROBERTA-BASE-XNLI-AR
トレーニングデータ	100種類の言語のセット、1億9800万件の多言語ツイート、XNLIデータセットのアラビア語部分