🚀 SCIroShot
SCIroShot是一個基於蘊含關係的零樣本文本分類模型,使用來自微軟學術圖譜(MAG)的科學文章自制數據集進行微調。該模型在科學領域實現了SOTA性能,在其他領域也取得了極具競爭力的成果。
🚀 快速開始
SCIroShot是一個基於蘊含關係的零樣本文本分類模型,使用來自微軟學術圖譜(MAG)的科學文章自制數據集進行了微調。所得模型在科學領域實現了SOTA性能,在其他領域也取得了極具競爭力的成果。
from transformers import pipeline
zstc = pipeline("zero-shot-classification", model="BSC-LT/sciroshot")
sentence = "Leo Messi is the best player ever."
candidate_labels = ["politics", "science", "sports", "environment"]
template = "This example is {}"
output = zstc(sentence, candidate_labels, hypothesis_template=template, multi_label=False)
print(output)
print(f'Predicted class: {output["labels"][0]}')
✨ 主要特性
- 基於蘊含關係的零樣本文本分類模型。
- 使用科學文章自制數據集微調,在科學領域達到SOTA性能。
- 在其他領域也有極具競爭力的表現。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
zstc = pipeline("zero-shot-classification", model="BSC-LT/sciroshot")
sentence = "Leo Messi is the best player ever."
candidate_labels = ["politics", "science", "sports", "environment"]
template = "This example is {}"
output = zstc(sentence, candidate_labels, hypothesis_template=template, multi_label=False)
print(output)
print(f'Predicted class: {output["labels"][0]}')
高級用法
文檔未提供高級用法代碼示例,故跳過此部分。
📚 詳細文檔
模型概述
點擊展開
- 模型類型:語言模型
- 架構:RoBERTa-large
- 語言:英語
- 許可證:Apache 2.0
- 任務:零樣本文本分類
- 數據:微軟學術圖譜
- 額外資源:
預期用途
該模型旨在用於英語零樣本文本分類。
侷限性和偏差
未採取措施來估計模型中嵌入的偏差和毒性。
儘管微調數據(具有科學性質)可能看起來無害,但需要注意的是,用於預訓練原始模型的語料庫很可能包含大量來自互聯網的未過濾內容,如RoBERTa-large模型卡片中所述。
訓練
訓練數據
我們的數據基於來自微軟學術圖譜(MAG)的科學領域標註數據。該數據庫由一個異構圖組成,包含來自科學出版物和專利的數十億條記錄,以及作者、機構、期刊、會議及其引用關係等元數據信息。
文檔按照科學概念的六級層次結構進行組織,其中最上面兩層是手動策劃的,以保證較高的準確性。
為了創建訓練語料庫,從MAG中隨機抽取了2000年至2021年期間發表的科學文章,獲取了它們的英文標題和摘要。這產生了超過200萬篇文檔及其相應的研究領域,這些研究領域來自一級MAG分類法(292個可能的類別,如“計算生物學”或“運輸工程”)。
微調數據集是以弱監督的方式構建的,將文本分類數據轉換為蘊含格式。利用科學文本與其在一級MAG分類法中匹配概念之間的關係,我們能夠生成與蘊含標籤對應的前提 - 假設對。相反,我們通過去除文本與其科學概念之間的實際關係,並創建與它們不匹配的虛擬關係來生成中立標籤的對。
訓練過程
上一節中描述的新創建的科學數據集用於在蘊含任務上微調一個具有3.55億參數的RoBERTa模型。為此,模型必須計算輸入的每個文本與所有候選標籤之間的蘊含分數。最終預測將是單標籤分類設置中得分最高的類別,或者是多標籤場景中高於某個閾值的N個類別。
訓練數據中的52個標籤被保留下來,用作完全未見類別的開發集。新穎之處在於,驗證不是在蘊含任務(用作代理)上進行的,而是直接在目標文本分類任務上進行的。這使我們能夠通過早停在合適的時間停止訓練,從而防止模型對訓練任務“過擬合”。這種方法是我們應對在實驗期間憑經驗發現的一種效應的方式,即在某一點之後,儘管模型在訓練任務(RTE)中仍在繼續改進,但在目標任務(ZSTC)中可能會開始變差。僅僅縮短訓練時間就帶來了性能的提升。
有關方法和RTE/ZSTC相關性分析的更多詳細信息,請閱讀論文。
評估
評估數據
模型的性能在一組帶有學科標籤的文本數據集上進行了評估,這些數據集既來自科學領域(更接近訓練數據),也來自通用領域(以評估泛化能力)。
下表概述了每個數據集的示例數量和標籤數量:
數據集 |
標籤數量 |
規模 |
arXiv |
11 |
3,838 |
SciDocs-MeSH |
11 |
16,433 |
SciDocs-MAG |
19 |
17,501 |
Konstanz |
24 |
10,000 |
Elsevier |
26 |
14,738 |
PubMed |
109 |
5,000 |
主題分類 (雅虎問答) |
10 |
60,000 |
情感檢測 (UnifyEmotion) |
10 |
15,689 |
情境框架檢測 (情境類型) |
12 |
3,311 |
有關每個特定數據集的更多詳細信息,請參考論文。
評估結果
以下是論文中報告的官方結果:
科學領域基準測試
模型 |
arXiv |
SciDocs-MesH |
SciDocs-MAG |
Konstanz |
Elsevier |
PubMed |
fb/bart-large-mnli |
33.28 |
66.18🔥 |
51.77 |
54.62 |
28.41 |
31.59🔥 |
SCIroShot |
42.22🔥 |
59.34 |
69.86🔥 |
66.07🔥 |
54.42🔥 |
27.93 |
通用領域基準測試
除主題分類數據集按照(Yin et al., 2019)的符號以準確率進行評估外,上述所有數字均代表按標籤加權的F1值。
額外信息
作者
- SIRIS實驗室,SIRIS學術研究部。
- 語言技術單元,巴塞羅那超級計算中心。
聯繫方式
如需更多信息,請發送電子郵件至 langtech@bsc.es 或 info@sirisacademic.com。
許可證
本作品根據Apache許可證,版本2.0分發。
資金支持
本工作部分由歐盟H2020研究與創新計劃下的2個項目資助:
- INODE(贈款協議編號863410)。
- IntelComp(贈款協議編號101004870)。
引用
@inproceedings{pamies2023weakly,
title={A weakly supervised textual entailment approach to zero-shot text classification},
author={P{\`a}mies, Marc and Llop, Joan and Multari, Francesco and Duran-Silva, Nicolau and Parra-Rojas, C{\'e}sar and Gonz{\'a}lez-Agirre, Aitor and Massucci, Francesco Alessandro and Villegas, Marta},
booktitle={Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics},
pages={286--296},
year={2023}
}
免責聲明
點擊展開
本倉庫中發佈的模型旨在用於通用目的,並根據Apache v2.0許可證提供給第三方。
請記住,該模型可能存在偏差和/或其他不良失真。當第三方使用此模型(或基於它的系統)向其他方部署或提供系統和/或服務,或者成為模型本身的用戶時,他們應該注意,減輕其使用帶來的風險並在任何情況下遵守適用法規,包括有關人工智能使用的法規,是他們的責任。
在任何情況下,模型的所有者和創建者均不對第三方使用所產生的任何結果負責。
🔧 技術細節
SCIroShot模型基於RoBERTa-large架構,通過對科學文章數據的微調,在零樣本文本分類任務中展現出強大性能。其訓練過程結合了弱監督學習和蘊含任務,通過早停策略避免過擬合,提升了模型在目標任務上的表現。評估過程使用了多個科學和通用領域的數據集,全面驗證了模型的性能和泛化能力。
📄 許可證
本工作根據Apache許可證,版本2.0分發。