🚀 ScandiNLI - スカンジナビア諸言語用の自然言語推論モデル
このモデルは、デンマーク語、ノルウェー語(ボクマール)、スウェーデン語の自然言語推論に特化した、NbAiLab/nb-bert-base の微調整バージョンです。
スカンジナビアの自然言語推論(NLI)用に、サイズの異なる3つのモデルをリリースしています。
large-v2モデルのデモは、このHugging Face Space で確認できます。是非チェックしてみてください!
各モデルの性能とモデルサイズについては、以下の「性能」セクションで確認できます。
🚀 クイックスタート
このモデルは、以下のようにスクリプトで使用できます。
>>> from transformers import pipeline
>>> classifier = pipeline(
... "zero-shot-classification",
... model="alexandrainst/scandi-nli-base",
... )
>>> classifier(
... "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
... candidate_labels=['sundhed', 'politik', 'sport', 'religion'],
... hypothesis_template="Dette eksempel handler om {}",
... )
{'sequence': "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
'labels': ['sport', 'religion', 'sundhed', 'politik'],
'scores': [0.724335789680481,
0.1176532730460167,
0.08848614990711212,
0.06952482461929321]}
✨ 主な機能
サポート言語
- デンマーク語(da)
- ノルウェー語(no、nb)
- スウェーデン語(sv)
パイプラインタグ
データセット
ウィジェット例
- デンマーク語の例
- テキスト: "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'"
- 候補ラベル: sundhed, politik, sport, religion
- ノルウェー語の例
- テキスト: "Regjeringen i Russland hevder Norge fører en politikk som vil føre til opptrapping i Arktis og «den endelige ødeleggelsen av russisk-norske relasjoner»."
- 候補ラベル: helse, politikk, sport, religion
- スウェーデン語の例
- テキスト: "Så luras kroppens immunförsvar att bota cancer"
- 候補ラベル: hälsa, politik, sport, religion
推論パラメータ
- hypothesis_template: "Dette eksempel handler om {}"
ベースモデル
📚 ドキュメント
性能評価
モデルの性能は、デンマーク語、スウェーデン語、ノルウェー語(ボクマール)でそれぞれ評価しています。すべてのケースで、マシュー相関係数(MCC)、マクロ平均F1スコア、および正解率を報告しています。
スカンジナビア諸言語の評価
スカンジナビア諸言語のスコアは、デンマーク語、スウェーデン語、ノルウェー語のスコアの平均です。詳細は以下のセクションで確認できます。
デンマーク語の評価
デンマーク語の性能評価には、DanFEVERデータセット のテスト分割を使用しています。テスト分割は、このgist を使用して生成されています。
スウェーデン語の評価
スウェーデン語の性能評価には、MultiNLI データセットの機械翻訳版のテスト分割を使用しています。ゴールドスタンダードのデータセットで評価していないことは理想的ではないことを認識していますが、残念ながらスウェーデン語のNLIデータセットは知られていません。
ノルウェー語の評価
ノルウェー語の性能評価には、MultiNLI データセットの機械翻訳版のテスト分割を使用しています。ゴールドスタンダードのデータセットで評価していないことは理想的ではないことを認識していますが、残念ながらノルウェー語のNLIデータセットは知られていません。
学習手順
このモデルは、DanFEVER、MultiNLI と CommitmentBank の3つの言語への機械翻訳版、および FEVER と Adversarial NLI のスウェーデン語への機械翻訳版から構成されるデータセットで微調整されています。
DanFEVERの学習分割は、このgist を使用して生成されています。学習中は、3つの言語が均等にサンプリングされ、DanFEVER の検証分割と、スウェーデン語とノルウェー語(ボクマール)の MultiNLI の機械翻訳版の検証分割で検証されます。
ScandiNLIモデルの学習に使用されたコードは、Githubリポジトリ で確認できます。完全な学習ログは、このWeights and Biasesレポート で確認できます。
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 2e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 4242
- gradient_accumulation_steps: 2
- total_train_batch_size: 32
- optimizer: Adam (betas=(0.9, 0.999), epsilon=1e-08)
- lr_scheduler_type: linear
- lr_scheduler_warmup_steps: 500
- max_steps: 50,000
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。