bert-base-arabic-camelbert-da-poetryオープンソースモデル - 方言アラビア語の詩歌分類を高精度で行う

ホーム

Bert Base Arabic Camelbert Da Poetry

CAMeL-Labによって開発

CAMeLBERT方言アラビア語モデルを基に微調整された詩歌分類モデルで、APCDデータセットを使用して訓練されました。

テキスト分類

Transformers

アラビア語オープンソースライセンス:Apache-2.0 #アラビア詩の分類 #方言アラビア語の処理 #双行詩体の識別

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

アラビア語の詩歌分類に使用されるBERTモデルで、詩歌のスタイルタイプを識別できます。

モデル特徴

方言アラビア語の最適化

方言アラビア語(DA)専用の事前学習モデルを基に微調整され、アラビア詩をより良く理解できます。

詩歌スタイルの識別

異なるスタイルのアラビア詩、例えば簡約体と流暢体を正確に区別できます。

双行詩の処理

[SEP]タグで接続された双行詩の入力を処理するように特別に設計されています。

モデル能力

アラビア語テキスト分類

詩歌スタイルの識別

双行詩の分析

使用事例

文学分析

古典詩歌の分類

アラビア古典詩歌のスタイルを分類します。

APCDデータセットで優れた性能を発揮します。

教育応用

アラビア文学教育における詩歌分析を支援します。

🚀 CAMeLBERT-DA 詩分類モデル

CAMeLBERT-DA 詩分類モデルは、CAMeLBERT 方言アラビア語 (DA) モデルをファインチューニングして構築された詩分類モデルです。ファインチューニングには、APCD データセットを使用しました。私たちのファインチューニング手順と使用したハイパーパラメータは、論文 "The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models" で確認できます。ファインチューニングコードはこちらで見つけることができます。

🚀 クイックスタート

想定される用途

CAMeLBERT-DA 詩分類モデルは、transformers パイプラインの一部として使用できます。このモデルは、近く CAMeL Tools でも利用可能になります。

使い方

transformers パイプラインでモデルを使用するには、以下のようにします。

>>> from transformers import pipeline
>>> poetry = pipeline('text-classification', model='CAMeL-Lab/bert-base-arabic-camelbert-da-poetry')
>>> # 各詩句が2つの部分から構成される詩句のリスト。
>>> verses = [
        ['الخيل والليل والبيداء تعرفني' ,'والسيف والرمح والقرطاس والقلم'],
        ['قم للمعلم وفه التبجيلا' ,'كاد المعلم ان يكون رسولا']
    ]
>>> # [SEP] トークンを使用して各詩句の半分を連結する関数。
>>> join_verse = lambda half: ' [SEP] '.join(half)
>>> # これをリスト内のすべての詩句に適用する。
>>> verses = [join_verse(verse) for verse in verses]
>>> poetry(sentences)
[{'label': 'البسيط', 'score': 0.9874765276908875},
 {'label': 'السلسلة', 'score': 0.6877778172492981}]

注意: 当社のモデルをダウンロードするには、transformers>=3.5.0 が必要です。そうでない場合は、手動でモデルをダウンロードすることができます。

📚 ドキュメント

引用

@inproceedings{inoue-etal-2021-interplay,
    title = "The Interplay of Variant, Size, and Task Type in {A}rabic Pre-trained Language Models",
    author = "Inoue, Go  and
      Alhafni, Bashar  and
      Baimukan, Nurpeiis  and
      Bouamor, Houda  and
      Habash, Nizar",
    booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
    month = apr,
    year = "2021",
    address = "Kyiv, Ukraine (Online)",
    publisher = "Association for Computational Linguistics",
    abstract = "In this paper, we explore the effects of language variants, data sizes, and fine-tuning task types in Arabic pre-trained language models. To do so, we build three pre-trained language models across three variants of Arabic: Modern Standard Arabic (MSA), dialectal Arabic, and classical Arabic, in addition to a fourth language model which is pre-trained on a mix of the three. We also examine the importance of pre-training data size by building additional models that are pre-trained on a scaled-down set of the MSA variant. We compare our different models to each other, as well as to eight publicly available models by fine-tuning them on five NLP tasks spanning 12 datasets. Our results suggest that the variant proximity of pre-training data to fine-tuning data is more important than the pre-training data size. We exploit this insight in defining an optimized system selection model for the studied tasks.",
}