scandi - nli - base開源自然語言推理模型，免費支持丹挪瑞三種語言推理

首頁

Scandi Nli Base

由alexandrainst開發

基於NbAiLab/nb-bert-base微調的自然語言推理模型，支持丹麥語、挪威博克馬爾語和瑞典語

文本分類

Transformers

其他開源協議:Apache-2.0 #斯堪的納維亞多語言 #零樣本分類 #自然語言推理

下載量 19

發布時間 : 11/28/2022

模型概述

這是一個專門針對斯堪的納維亞語言的自然語言推理模型，可用於零樣本分類任務，支持丹麥語、挪威博克馬爾語和瑞典語。

模型特點

多語言支持

專門針對斯堪的納維亞語言(丹麥語、挪威博克馬爾語和瑞典語)優化

零樣本分類能力

無需特定任務訓練即可進行分類任務

系列模型選擇

提供從小型到大型不同規模的模型版本以滿足不同需求

模型能力

零樣本文本分類

多語言自然語言推理

斯堪的納維亞語言處理

使用案例

新聞分類

體育新聞分類

自動識別體育相關新聞內容

在體育類別上準確率72.4%

政治新聞分類

識別政治相關新聞內容

在政治類別上準確率69.5%

醫療文本分析

醫療研究分類

識別醫療健康相關研究內容

在健康類別上準確率88.5%

🚀 ScandiNLI - 斯堪的納維亞語言自然語言推理模型

ScandiNLI 是一款針對丹麥語、挪威書面語和瑞典語進行自然語言推理的模型。它基於 NbAiLab/nb - bert - base 微調而來，為斯堪的納維亞語言的自然語言推理任務提供了強大支持。我們發佈了三種不同規模的斯堪的納維亞自然語言推理（NLI）模型，以滿足不同場景的需求。

🚀 快速開始

你可以在腳本中按如下方式使用該模型：

基礎用法

>>> from transformers import pipeline
>>> classifier = pipeline(
...     "zero-shot-classification",
...     model="alexandrainst/scandi-nli-base",
... )
>>> classifier(
...     "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
...     candidate_labels=['sundhed', 'politik', 'sport', 'religion'],
...     hypothesis_template="Dette eksempel handler om {}",
... )
{'sequence': "Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'",
 'labels': ['sport', 'religion', 'sundhed', 'politik'],
 'scores': [0.724335789680481,
  0.1176532730460167,
  0.08848614990711212,
  0.06952482461929321]}

✨ 主要特性

多語言支持：支持丹麥語、挪威書面語和瑞典語三種斯堪的納維亞語言的自然語言推理。
多模型選擇：提供了不同規模的模型，包括 alexandrainst/scandi - nli - large - v2、alexandrainst/scandi - nli - large、alexandrainst/scandi - nli - base 和 alexandrainst/scandi - nli - small，可根據實際需求選擇。

📚 詳細文檔

性能表現

我們分別對丹麥語、瑞典語和挪威書面語的模型進行了評估，報告了馬修斯相關係數（MCC）、宏平均 F1 分數以及準確率。

斯堪的納維亞綜合評估

斯堪的納維亞綜合分數是丹麥語、瑞典語和挪威語分數的平均值。

模型	MCC	宏平均 F1 分數	準確率	參數數量
`alexandrainst/scandi-nli-large-v2`	75.42%	75.41%	84.95%	3.54 億
`alexandrainst/scandi-nli-large`	73.70%	74.44%	83.91%	3.54 億
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	69.01%	71.99%	80.66%	2.79 億
`alexandrainst/scandi-nli-base`（本模型）	67.42%	71.54%	80.09%	1.78 億
`joeddav/xlm-roberta-large-xnli`	64.17%	70.80%	77.29%	5.6 億
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	63.94%	70.41%	77.23%	2.79 億
`NbAiLab/nb-bert-base-mnli`	61.71%	68.36%	76.08%	1.78 億
`alexandrainst/scandi-nli-small`	56.02%	65.30%	73.56%	2200 萬

丹麥語評估

我們使用 DanFEVER 數據集的測試集來評估模型在丹麥語上的性能。測試集使用此代碼片段生成。

模型	MCC	宏平均 F1 分數	準確率	參數數量
`alexandrainst/scandi-nli-large-v2`	75.65%	59.23%	87.89%	3.54 億
`alexandrainst/scandi-nli-large`	73.80%	58.41%	86.98%	3.54 億
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	68.37%	57.10%	83.25%	2.79 億
`alexandrainst/scandi-nli-base`（本模型）	62.44%	55.00%	80.42%	1.78 億
`NbAiLab/nb-bert-base-mnli`	56.92%	53.25%	76.39%	1.78 億
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	52.79%	52.00%	72.35%	2.79 億
`joeddav/xlm-roberta-large-xnli`	49.18%	50.31%	69.73%	5.6 億
`alexandrainst/scandi-nli-small`	47.28%	48.88%	73.46%	2200 萬

瑞典語評估

我們使用 MultiNLI 數據集機器翻譯版本的測試集來評估模型在瑞典語上的性能。我們承認在非黃金標準數據集上進行評估並不理想，但目前沒有已知的瑞典語 NLI 數據集。

模型	MCC	宏平均 F1 分數	準確率	參數數量
`alexandrainst/scandi-nli-large-v2`	79.02%	85.99%	85.99%	3.54 億
`alexandrainst/scandi-nli-large`	76.69%	84.47%	84.38%	3.54 億
`joeddav/xlm-roberta-large-xnli`	75.35%	83.42%	83.55%	5.6 億
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	73.84%	82.46%	82.58%	2.79 億
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	73.32%	82.15%	82.08%	2.79 億
`alexandrainst/scandi-nli-base`（本模型）	72.29%	81.37%	81.51%	1.78 億
`NbAiLab/nb-bert-base-mnli`	64.69%	76.40%	76.47%	1.78 億
`alexandrainst/scandi-nli-small`	62.35%	74.79%	74.93%	2200 萬

挪威語評估

我們使用 MultiNLI 數據集機器翻譯版本的測試集來評估模型在挪威語上的性能。同樣，我們承認在非黃金標準數據集上進行評估並不理想，但目前沒有已知的挪威語 NLI 數據集。

模型	MCC	宏平均 F1 分數	準確率	參數數量
`alexandrainst/scandi-nli-large-v2`	71.59%	81.00%	80.96%	3.54 億
`alexandrainst/scandi-nli-large`	70.61%	80.43%	80.36%	3.54 億
`joeddav/xlm-roberta-large-xnli`	67.99%	78.68%	78.60%	5.6 億
`alexandrainst/scandi-nli-base`（本模型）	67.53%	78.24%	78.33%	1.78 億
`MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7`	65.33%	76.73%	76.65%	2.79 億
`MoritzLaurer/mDeBERTa-v3-base-mnli-xnli`	65.18%	76.76%	76.77%	2.79 億
`NbAiLab/nb-bert-base-mnli`	63.51%	75.42%	75.39%	1.78 億
`alexandrainst/scandi-nli-small`	58.42%	72.22%	72.30%	2200 萬

訓練過程

該模型在由 DanFEVER 以及 MultiNLI 和 CommitmentBank 的三種語言機器翻譯版本，還有 FEVER 和 Adversarial NLI 的瑞典語機器翻譯版本組成的數據集上進行了微調。

DanFEVER 的訓練集使用此代碼片段生成。在訓練過程中，三種語言被等比例採樣，並在 DanFEVER 的驗證集以及瑞典語和挪威書面語的 MultiNLI 機器翻譯版本的驗證集上進行驗證，驗證集也採用等比例採樣。

你可以查看 Github 倉庫獲取訓練 ScandiNLI 模型的代碼，完整的訓練日誌可在此 Weights and Biases 報告中找到。

訓練超參數

訓練過程中使用了以下超參數：

學習率：2e - 05
訓練批次大小：8
評估批次大小：8
隨機種子：4242
梯度累積步數：2
總訓練批次大小：32
優化器：Adam，β1 = 0.9，β2 = 0.999，ε = 1e - 08
學習率調度器類型：線性
學習率調度器熱身步數：500
最大步數：50000

🔧 技術細節

模型基礎信息

屬性	詳情
模型類型	自然語言推理模型
訓練數據	DanFEVER、MultiNLI、CommitmentBank、FEVER 和 Adversarial NLI 的機器翻譯版本
基礎模型	NbAiLab/nb - bert - base

推理參數

推理時使用的假設模板為：Dette eksempel handler om {}

示例展示

模型提供了不同語言的推理示例：

丹麥語示例：
- 文本：Mexicansk bokser advarer Messi - 'Du skal bede til gud, om at jeg ikke finder dig'
- 候選標籤：sundhed, politik, sport, religion
挪威語示例：
- 文本：Regjeringen i Russland hevder Norge fører en politikk som vil føre til opptrapping i Arktis og «den endelige ødeleggelsen av russisk - norske relasjoner».
- 候選標籤：helse, politikk, sport, religion
瑞典語示例：
- 文本：Så luras kroppens immunförsvar att bota cancer
- 候選標籤：hälsa, politik, sport, religion