scandi - nli - smallオープンソースNLIモデル - デンマーク語、ノルウェー語、スウェーデン語の意味推論アプリケーションをサポート

ホーム

Scandi Nli Small

alexandrainstによって開発

jonfd/electra-small-nordicをファインチューニングしたスカンジナビア言語NLIモデル、デンマーク語、ノルウェー語、スウェーデン語をサポート

テキスト分類

Transformers

その他オープンソースライセンス:Apache-2.0 #北欧多言語NLI #ゼロショット分類 #小パラメータ最適化

ダウンロード数 28

リリース時間 : 11/28/2022

モデル概要

このモデルはデンマーク語、ブークモール（ノルウェー語）、スウェーデン語の自然言語推論タスクに使用され、特にゼロショット分類シナリオに適しています。

モデル特徴

多言語サポート

スカンジナビア言語（デンマーク語、ノルウェー語、スウェーデン語）に特化して最適化

軽量モデル

わずか22Mパラメータでリソース制約環境に適しています

ゼロショット分類能力

特定ドメインのトレーニングなしで分類タスクを実行可能

モデル能力

ゼロショットテキスト分類

多言語自然言語推論

クロスリンガルトランスファーラーニング

使用事例

ニュース分類

スポーツニュース分類

スポーツ関連ニュースコンテンツを自動識別

スポーツカテゴリーで良好なパフォーマンス

政治ニュース分類

政治関連ニュースコンテンツを識別

政治カテゴリーで良好なパフォーマンス

コンテンツモデレーション

多言語コンテンツ分類

スカンジナビア言語コンテンツを分類・モデレーション

🚀 ScandiNLI - スカンジナビア諸語向け自然言語推論モデル

このモデルは、デンマーク語、ノルウェー語（ボクマール）、スウェーデン語における自然言語推論のために、jonfd/electra-small-nordic をファインチューニングしたバージョンです。

スカンジナビアの自然言語推論（NLI）用に、異なるサイズの3つのモデルをリリースしています。

large-v2モデルのデモは、このHugging Face Space で確認できます。是非チェックしてみてください！

各モデルの性能とモデルサイズについては、以下の「性能」セクションで確認できます。

🚀 クイックスタート

このモデルは、以下のようにスクリプト内で使用できます。

基本的な使用法

>>> from transformers import pipeline
>>> classifier = pipeline(
...     "zero-shot-classification",
...     model="alexandrainst/scandi-nli-small",
... )
>>> classifier(
...     "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
...     candidate_labels=['sundhed', 'politik', 'sport', 'religion'],
...     hypothesis_template="Dette eksempel handler om {}",
... )
{'sequence': "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
 'labels': ['religion', 'sport', 'politik', 'sundhed'],
 'scores': [0.4504755437374115,
  0.20737220346927643,
  0.1976872682571411,
  0.14446501433849335]}

✨ 主な機能

デンマーク語、ノルウェー語（ボクマール）、スウェーデン語に対応した自然言語推論モデルです。
異なるサイズのモデルを提供しており、用途に応じて選択できます。

📚 ドキュメント

性能

モデルの性能は、デンマーク語、スウェーデン語、ノルウェー語（ボクマール）でそれぞれ評価しています。全ての場合で、マシュー相関係数（MCC）、マクロ平均F1スコア、および正解率を報告しています。

スカンジナビア諸語の評価

スカンジナビア諸語のスコアは、デンマーク語、スウェーデン語、ノルウェー語のスコアの平均です。詳細は以下のセクションを参照してください。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	75.42%	75.41%	84.95%	354M
`alexandrainst/scandi-nli-large`	73.70%	74.44%	83.91%	354M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	69.01%	71.99%	80.66%	279M
`alexandrainst/scandi-nli-base`	67.42%	71.54%	80.09%	178M
`joeddav/xlm-roberta-large-xnli`	64.17%	70.80%	77.29%	560M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	63.94%	70.41%	77.23%	279M
`NbAiLab/nb-bert-base-mnli`	61.71%	68.36%	76.08%	178M
`alexandrainst/scandi-nli-small` (このモデル)	56.02%	65.30%	73.56%	22M

デンマーク語の評価

モデルのデンマーク語性能の評価には、DanFEVERデータセットのテスト分割を使用しています。テスト分割は、このgist を使用して生成されています。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	75.65%	59.23%	87.89%	354M
`alexandrainst/scandi-nli-large`	73.80%	58.41%	86.98%	354M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	68.37%	57.10%	83.25%	279M
`alexandrainst/scandi-nli-base`	62.44%	55.00%	80.42%	178M
`NbAiLab/nb-bert-base-mnli`	56.92%	53.25%	76.39%	178M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	52.79%	52.00%	72.35%	279M
`joeddav/xlm-roberta-large-xnli`	49.18%	50.31%	69.73%	560M
`alexandrainst/scandi-nli-small` (このモデル)	47.28%	48.88%	73.46%	22M

スウェーデン語の評価

モデルのスウェーデン語性能の評価には、MultiNLI データセットの機械翻訳バージョンのテスト分割を使用しています。ゴールドスタンダードのデータセットで評価していないことは理想的ではないことを認識していますが、残念ながらスウェーデン語のNLIデータセットは知られていません。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	79.02%	85.99%	85.99%	354M
`alexandrainst/scandi-nli-large`	76.69%	84.47%	84.38%	354M
`joeddav/xlm-roberta-large-xnli`	75.35%	83.42%	83.55%	560M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	73.84%	82.46%	82.58%	279M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	73.32%	82.15%	82.08%	279M
`alexandrainst/scandi-nli-base`	72.29%	81.37%	81.51%	178M
`NbAiLab/nb-bert-base-mnli`	64.69%	76.40%	76.47%	178M
`alexandrainst/scandi-nli-small` (このモデル)	62.35%	74.79%	74.93%	22M

ノルウェー語の評価

モデルのノルウェー語性能の評価には、MultiNLI データセットの機械翻訳バージョンのテスト分割を使用しています。ゴールドスタンダードのデータセットで評価していないことは理想的ではないことを認識していますが、残念ながらノルウェー語のNLIデータセットは知られていません。

モデル	MCC	Macro-F1	正解率	パラメータ数
`alexandrainst/scandi-nli-large-v2`	71.59%	81.00%	80.96%	354M
`alexandrainst/scandi-nli-large`	70.61%	80.43%	80.36%	354M
`joeddav/xlm-roberta-large-xnli`	67.99%	78.68%	78.60%	560M
`alexandrainst/scandi-nli-base`	67.53%	78.24%	78.33%	178M
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	65.33%	76.73%	76.65%	279M
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	65.18%	76.76%	76.77%	279M
`NbAiLab/nb-bert-base-mnli`	63.51%	75.42%	75.39%	178M
`alexandrainst/scandi-nli-small` (このモデル)	58.42%	72.22%	72.30%	22M