scandi - nli - baseオープンソース自然言語推論モデル、デンマーク語、ノルウェー語、スウェーデン語の三言語の推論を無料でサポート

ホーム

Scandi Nli Base

alexandrainstによって開発

NbAiLab/nb - bert - baseを微調整した自然言語推論モデルで、デンマーク語、ノルウェー語（ブークモール）、スウェーデン語に対応しています。

テキスト分類

Transformers

その他オープンソースライセンス:Apache-2.0 #スカンジナビア多言語 #ゼロショット分類 #自然言語推論

ダウンロード数 19

リリース時間 : 11/28/2022

モデル概要

これはスカンジナビア言語に特化した自然言語推論モデルで、ゼロショット分類タスクに使用でき、デンマーク語、ノルウェー語（ブークモール）、スウェーデン語に対応しています。

モデル特徴

多言語対応

スカンジナビア言語（デンマーク語、ノルウェー語（ブークモール）、スウェーデン語）に特化して最適化されています。

ゼロショット分類能力

特定のタスクでの訓練を必要とせずに分類タスクを実行できます。

シリーズモデルの選択肢

小型から大型まで様々な規模のモデルバージョンを提供し、さまざまなニーズに対応します。

モデル能力

ゼロショットテキスト分類

多言語自然言語推論

スカンジナビア言語処理

使用事例

ニュース分類

スポーツニュース分類

スポーツ関連のニュース内容を自動識別します。

スポーツカテゴリでの正解率72.4%

政治ニュース分類

政治関連のニュース内容を識別します。

政治カテゴリでの正解率69.5%

医療テキスト分析

医療研究分類

医療健康関連の研究内容を識別します。

健康カテゴリでの正解率88.5%

🚀 ScandiNLI - スカンジナビア諸言語用の自然言語推論モデル

このモデルは、デンマーク語、ノルウェー語（ボクマール）、スウェーデン語の自然言語推論に特化した、NbAiLab/nb-bert-base の微調整バージョンです。

スカンジナビアの自然言語推論（NLI）用に、サイズの異なる3つのモデルをリリースしています。

large-v2モデルのデモは、このHugging Face Space で確認できます。是非チェックしてみてください！

各モデルの性能とモデルサイズについては、以下の「性能」セクションで確認できます。

🚀 クイックスタート

このモデルは、以下のようにスクリプトで使用できます。

>>> from transformers import pipeline
>>> classifier = pipeline(
...     "zero-shot-classification",
...     model="alexandrainst/scandi-nli-base",
... )
>>> classifier(
...     "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
...     candidate_labels=['sundhed', 'politik', 'sport', 'religion'],
...     hypothesis_template="Dette eksempel handler om {}",
... )
{'sequence': "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
 'labels': ['sport', 'religion', 'sundhed', 'politik'],
 'scores': [0.724335789680481,
  0.1176532730460167,
  0.08848614990711212,
  0.06952482461929321]}

✨ 主な機能

サポート言語

デンマーク語（da）
ノルウェー語（no、nb）
スウェーデン語（sv）

パイプラインタグ

zero-shot-classification

データセット

ウィジェット例

デンマーク語の例
- テキスト: "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'"
- 候補ラベル: sundhed, politik, sport, religion
ノルウェー語の例
- テキスト: "Regjeringen i Russland hevder Norge fører en politikk som vil føre til opptrapping i Arktis og «den endelige ødeleggelsen av russisk-norske relasjoner»."
- 候補ラベル: helse, politikk, sport, religion
スウェーデン語の例
- テキスト: "Så luras kroppens immunförsvar att bota cancer"
- 候補ラベル: hälsa, politik, sport, religion

推論パラメータ

hypothesis_template: "Dette eksempel handler om {}"

ベースモデル

NbAiLab/nb-bert-base

📚 ドキュメント

性能評価

モデルの性能は、デンマーク語、スウェーデン語、ノルウェー語（ボクマール）でそれぞれ評価しています。すべてのケースで、マシュー相関係数（MCC）、マクロ平均F1スコア、および正解率を報告しています。

スカンジナビア諸言語の評価

スカンジナビア諸言語のスコアは、デンマーク語、スウェーデン語、ノルウェー語のスコアの平均です。詳細は以下のセクションで確認できます。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	75.42%	75.41%	84.95%	354M
`alexandrainst/scandi-nli-large`	73.70%	74.44%	83.91%	354M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	69.01%	71.99%	80.66%	279M
`alexandrainst/scandi-nli-base`（このモデル）	67.42%	71.54%	80.09%	178M
`joeddav/xlm-roberta-large-xnli`	64.17%	70.80%	77.29%	560M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	63.94%	70.41%	77.23%	279M
`NbAiLab/nb-bert-base-mnli`	61.71%	68.36%	76.08%	178M
`alexandrainst/scandi-nli-small`	56.02%	65.30%	73.56%	22M

デンマーク語の評価

デンマーク語の性能評価には、DanFEVERデータセットのテスト分割を使用しています。テスト分割は、このgist を使用して生成されています。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	75.65%	59.23%	87.89%	354M
`alexandrainst/scandi-nli-large`	73.80%	58.41%	86.98%	354M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	68.37%	57.10%	83.25%	279M
`alexandrainst/scandi-nli-base`（このモデル）	62.44%	55.00%	80.42%	178M
`NbAiLab/nb-bert-base-mnli`	56.92%	53.25%	76.39%	178M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	52.79%	52.00%	72.35%	279M
`joeddav/xlm-roberta-large-xnli`	49.18%	50.31%	69.73%	560M
`alexandrainst/scandi-nli-small`	47.28%	48.88%	73.46%	22M

スウェーデン語の評価

スウェーデン語の性能評価には、MultiNLI データセットの機械翻訳版のテスト分割を使用しています。ゴールドスタンダードのデータセットで評価していないことは理想的ではないことを認識していますが、残念ながらスウェーデン語のNLIデータセットは知られていません。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	79.02%	85.99%	85.99%	354M
`alexandrainst/scandi-nli-large`	76.69%	84.47%	84.38%	354M
`joeddav/xlm-roberta-large-xnli`	75.35%	83.42%	83.55%	560M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	73.84%	82.46%	82.58%	279M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	73.32%	82.15%	82.08%	279M
`alexandrainst/scandi-nli-base`（このモデル）	72.29%	81.37%	81.51%	178M
`NbAiLab/nb-bert-base-mnli`	64.69%	76.40%	76.47%	178M
`alexandrainst/scandi-nli-small`	62.35%	74.79%	74.93%	22M

ノルウェー語の評価

ノルウェー語の性能評価には、MultiNLI データセットの機械翻訳版のテスト分割を使用しています。ゴールドスタンダードのデータセットで評価していないことは理想的ではないことを認識していますが、残念ながらノルウェー語のNLIデータセットは知られていません。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	71.59%	81.00%	80.96%	354M
`alexandrainst/scandi-nli-large`	70.61%	80.43%	80.36%	354M
`joeddav/xlm-roberta-large-xnli`	67.99%	78.68%	78.60%	560M
`alexandrainst/scandi-nli-base`（このモデル）	67.53%	78.24%	78.33%	178M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	65.33%	76.73%	76.65%	279M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	65.18%	76.76%	76.77%	279M
`NbAiLab/nb-bert-base-mnli`	63.51%	75.42%	75.39%	178M
`alexandrainst/scandi-nli-small`	58.42%	72.22%	72.30%	22M