🚀 COVID-Twitter-BERT v2 MNLI
本模型是一個零樣本分類器,適用於因缺乏標註數據而無法針對特定任務微調CT - BERT的場景。它能有效解決在沒有大量標註數據的情況下進行文本分類的難題,為相關研究和應用提供了便捷的解決方案。
🚀 快速開始
本模型提供了便捷的使用方式,你可以通過以下步驟快速體驗其功能。
基礎用法
from transformers import pipeline
classifier = pipeline("zero-shot-classification", model="digitalepidemiologylab/covid-twitter-bert-v2-mnli")
高級用法
sequence_to_classify = 'To stop the pandemic it is important that everyone turns up for their shots.'
candidate_labels = ['health', 'sport', 'vaccine','guns']
hypothesis_template = 'This example is {}.'
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template, multi_class=True)
✨ 主要特性
- 零樣本分類能力:該模型基於Yin等人的技術,能夠在沒有針對特定任務進行微調的情況下,將預訓練的MNLI模型用作零樣本序列分類器。
- 廣泛的適用性:可用於多種文本分類場景,如將COVID - 推文分類為與疫苗相關和與疫苗無關。
- 便捷的使用方式:可以通過Hugging Face管道輕鬆嘗試,無需額外的訓練步驟。
📚 詳細文檔
模型描述
此模型提供了一個零樣本分類器,用於在因缺乏標註數據而無法針對特定任務微調CT - BERT的情況下使用。該技術基於Yin等人的研究,文章介紹了一種非常巧妙的方法,將預訓練的MNLI模型用作零樣本序列分類器。該模型已經在40萬個通用邏輯任務上進行了微調,我們可以通過將分類任務重新表述為一個問題,將其用作零樣本分類器。
例如,假設我們要將COVID - 推文分類為與疫苗相關和與疫苗無關。傳統的方法是收集幾百條預先標註的推文,並將它們分為兩類,然後對模型進行微調。而使用零樣本MNLI分類器,你可以將問題重新表述為“這段文本是關於疫苗的”,並直接用於推理,無需任何訓練。
你可以在我們的GitHub頁面上找到有關該模型的更多信息。
使用說明
請注意,問題的表述方式可能會導致略有不同的結果。收集訓練集並進行微調,很可能會提高準確性。
嘗試此模型的最簡單方法是使用Hugging Face管道。它使用默認的英語模板,在文本前面加上“這個例子是 ”。
訓練過程
該模型在40萬個大規模MNLI任務上進行了微調。
📄 許可證
本項目採用MIT許可證。
🔖 引用信息
@article{muller2020covid,
title={COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter},
author={M{\"u}ller, Martin and Salath{\'e}, Marcel and Kummervold, Per E},
journal={arXiv preprint arXiv:2005.07503},
year={2020}
}
或
Martin Müller, Marcel Salathé, and Per E. Kummervold.
COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter.
arXiv preprint arXiv:2005.07503 (2020).
📋 其他信息
屬性 |
詳情 |
模型類型 |
零樣本分類器 |
訓練數據 |
MNLI數據集 |
標籤 |
Twitter、COVID - 19、文本分類、pytorch、tensorflow、bert |
管道標籤 |
零樣本分類 |
⚠️ 重要提示
問題的表述方式可能會導致略有不同的結果,收集訓練集並進行微調,很可能會提高準確性。
💡 使用建議
嘗試此模型的最簡單方法是使用Hugging Face管道,它使用默認的英語模板,在文本前面加上“這個例子是 ”。