模型概述
模型特點
模型能力
使用案例
🚀 roberta-large-mnli
roberta-large-mnli 是基於 RoBERTa 大模型在 Multi-Genre Natural Language Inference (MNLI) 語料庫上微調得到的模型。它可以用於零樣本分類任務,為自然語言處理提供了強大的支持。
🚀 快速開始
使用以下代碼開始使用該模型。可以使用零樣本分類管道加載模型,如下所示:
from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
然後可以使用此管道將序列分類到指定的任何類名中。例如:
sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)
✨ 主要特性
- 零樣本分類能力:該微調模型可用於零樣本分類任務,包括零樣本句子對分類和零樣本序列分類。
- Transformer架構:基於Transformer的語言模型,具有強大的語言理解能力。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
高級用法
# 使用此管道將序列分類到指定的任何類名中
sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)
📚 詳細文檔
模型詳情
- 模型描述:roberta-large-mnli 是 RoBERTa 大模型 在 Multi-Genre Natural Language Inference (MNLI) 語料庫上微調得到的模型。該模型是使用掩碼語言建模 (MLM) 目標在英語文本上進行預訓練的模型。
- 開發者:請參閱 GitHub 倉庫 瞭解模型開發者信息。
- 模型類型:基於 Transformer 的語言模型
- 語言:英語
- 許可證:MIT
- 父模型:此模型是 RoBERTa 大模型的微調版本。用戶應參閱 RoBERTa 大模型卡片 以獲取相關信息。
- 更多信息資源:
用途
直接使用
此微調模型可用於零樣本分類任務,包括零樣本句子對分類(請參閱 GitHub 倉庫 獲取示例)和零樣本序列分類。
誤用和超出範圍的使用
該模型不應被用於故意為人們創造敵對或疏遠的環境。此外,該模型並非用於生成事實或真實反映人物或事件的內容,因此使用該模型生成此類內容超出了該模型的能力範圍。
風險、侷限性和偏差
⚠️ 重要提示
讀者應注意,本節包含令人不安、冒犯性的內容,可能會傳播歷史和當前的刻板印象。
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng 等人 (2021) 和 Bender 等人 (2021))。RoBERTa 大模型卡片 指出:“用於此模型的訓練數據包含大量來自互聯網的未過濾內容,遠非中立。”
模型生成的預測可能包括受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。例如:
sequence_to_classify = "The CEO had a strong handshake."
candidate_labels = ['male', 'female']
hypothesis_template = "This text speaks about a {} profession."
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。
訓練
訓練數據
該模型在 Multi-Genre Natural Language Inference (MNLI) 語料庫上進行了微調。有關更多信息,請參閱 MNLI 數據卡片。
如 RoBERTa 大模型卡片 所述:
RoBERTa 模型在五個數據集的組合上進行了預訓練:
- BookCorpus,一個由 11038 本未出版書籍組成的數據集;
- 英文維基百科(不包括列表、表格和標題);
- CC-News,一個包含 6300 萬篇 2016 年 9 月至 2019 年 2 月期間抓取的英文新聞文章的數據集。
- OpenWebText,一個開源的 WebText 數據集的復刻版本,用於訓練 GPT - 2;
- Stories,一個包含經過過濾以匹配 Winograd 模式故事風格的 CommonCrawl 數據子集的數據集。
這些數據集總共包含 160GB 的文本。
有關更多信息,請參閱 bookcorpus 數據卡片 和 wikipedia 數據卡片。
訓練過程
預處理
如 RoBERTa 大模型卡片 所述:
文本使用字節版本的字節對編碼 (BPE) 進行分詞,詞彙量大小為 50000。模型的輸入採用長度為 512 的連續標記片段,這些片段可能跨越多個文檔。新文檔的開頭用
<s>
標記,結尾用</s>
標記。每個句子的掩碼過程細節如下:
- 15% 的標記被掩碼。
- 在 80% 的情況下,被掩碼的標記被
<mask>
替換。- 在 10% 的情況下,被掩碼的標記被一個與它們替換的標記不同的隨機標記替換。
- 在剩下的 10% 的情況下,被掩碼的標記保持不變。
與 BERT 不同,掩碼在預訓練期間是動態進行的(例如,它在每個 epoch 都會改變,而不是固定的)。
預訓練
同樣如 RoBERTa 大模型卡片 所述:
該模型在 1024 個 V100 GPU 上訓練了 500000 步,批次大小為 8000,序列長度為 512。使用的優化器是 Adam,學習率為 4e - 4,\(\beta_{1} = 0.9\),\(\beta_{2} = 0.98\),\(\epsilon = 1e - 6\),權重衰減為 0.01,學習率在 30000 步內進行預熱,之後學習率線性衰減。
評估
以下評估信息摘自相關的 RoBERTa GitHub 倉庫。
測試數據、因素和指標
模型開發者報告稱,該模型在以下任務和數據集上使用所列指標進行了評估:
-
數據集:GLUE (Wang 等人, 2019) 的一部分,即通用語言理解評估基準,這是一個包含 9 個數據集的集合,用於評估自然語言理解系統。具體來說,該模型在 Multi-Genre Natural Language Inference (MNLI) 語料庫上進行了評估。有關更多信息,請參閱 GLUE 數據卡片 或 Wang 等人 (2019)。
- 任務:自然語言推理 (NLI)。Wang 等人 (2019) 將 MNLI 的推理任務描述為:
多體裁自然語言推理語料庫 (Williams 等人, 2018) 是一個眾包的句子對集合,帶有文本蘊含註釋。給定一個前提句子和一個假設句子,任務是預測前提是否蘊含假設(蘊含)、與假設矛盾(矛盾)或兩者都不是(中立)。前提句子來自十個不同的來源,包括轉錄的演講、小說和政府報告。我們使用標準測試集,我們從作者那裡獲得了該測試集的私有標籤,並在匹配(領域內)和不匹配(跨領域)部分進行評估。我們還使用並推薦 [SNLI 語料庫]((Bowman 等人, 2015)](https://arxiv.org/abs/1508.05326) 作為 550000 個輔助訓練數據示例。
- 指標:準確率
-
數據集:XNLI (Conneau 等人, 2018),即 Multi-Genre Natural Language Inference (MNLI) 語料庫擴展到 15 種語言:英語、法語、西班牙語、德語、希臘語、保加利亞語、俄語、土耳其語、阿拉伯語、越南語、泰語、中文、印地語、斯瓦希里語和烏爾都語。有關更多信息,請參閱 XNLI 數據卡片 或 Conneau 等人 (2018)。
- 任務:翻譯測試(例如,使用模型將其他語言的輸入句子翻譯成訓練語言)
- 指標:準確率
結果
GLUE 測試結果(開發集,單模型,單任務微調):MNLI 上為 90.2
XNLI 測試結果:
任務 | 英語 | 法語 | 西班牙語 | 德語 | 希臘語 | 保加利亞語 | 俄語 | 土耳其語 | 阿拉伯語 | 越南語 | 泰語 | 中文 | 印地語 | 斯瓦希里語 | 烏爾都語 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
91.3 | 82.91 | 84.27 | 81.24 | 81.74 | 83.13 | 78.28 | 76.79 | 76.64 | 74.17 | 74.05 | 77.5 | 70.9 | 66.65 | 66.81 |
環境影響
可以使用 Lacoste 等人 (2019) 提出的 機器學習影響計算器 來估算碳排放。我們根據 相關論文 提供了使用的硬件類型和時長。
屬性 | 詳情 |
---|---|
硬件類型 | 1024 個 V100 GPU |
使用時長 | 24 小時(一天) |
雲服務提供商 | 未知 |
計算區域 | 未知 |
碳排放 | 未知 |
技術規格
有關建模架構、目標、計算基礎設施和訓練細節的詳細信息,請參閱 相關論文。
引用信息
@article{liu2019roberta,
title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach},
author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and
Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and
Luke Zettlemoyer and Veselin Stoyanov},
journal={arXiv preprint arXiv:1907.11692},
year = {2019},
}
🔧 技術細節
文檔未提及足夠的技術實現細節,故跳過此章節。
📄 許可證
該模型使用的許可證為 MIT。



