🚀 deberta-v3-base-zeroshot-v1.1-all-33
該模型專為使用Hugging Face管道進行零樣本分類而設計。它可以執行通用的分類任務,即根據給定文本判斷一個假設是“真”還是“非真”(entailment
與 not_entailment
)。此任務格式基於自然語言推理任務(NLI),具有很強的通用性,任何分類任務都可以重新表述為該任務。
🚀 快速開始
簡單的零樣本分類管道
from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "This example is about {}"
classes_verbalized = ["politics", "economy", "entertainment", "environment"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)
自定義假設模板示例
from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "Merkel is the leader of the party: {}"
classes_verbalized = ["CDU", "SPD", "Greens"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)
✨ 主要特性
- 通用分類能力:能夠執行通用的分類任務,基於自然語言推理任務(NLI),可將任何分類任務重新表述為該任務。
- 訓練數據豐富:在33個數據集和387個類別的混合數據上進行訓練,涵蓋多種NLI數據集和分類任務。
- 英文數據訓練:模型僅在英文數據上進行訓練,對於多語言用例,可使用機器翻譯將文本轉換為英文。
📦 安裝指南
為避免運行模型時出現問題,請確保使用 Transformers>=4.13
版本,並安裝 sentencepiece
。可以運行以下命令進行安裝:
pip install transformers[sentencepiece]
或者單獨安裝 sentencepiece
:
pip install sentencepiece
💻 使用示例
基礎用法
from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "This example is about {}"
classes_verbalized = ["politics", "economy", "entertainment", "environment"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)
高級用法
from transformers import pipeline
text = "Angela Merkel is a politician in Germany and leader of the CDU"
hypothesis_template = "Merkel is the leader of the party: {}"
classes_verbalized = ["CDU", "SPD", "Greens"]
zeroshot_classifier = pipeline("zero-shot-classification", model="MoritzLaurer/deberta-v3-base-zeroshot-v1.1-all-33")
output = zeroshot_classifier(text, classes_verbalized, hypothesis_template=hypothesis_template, multi_label=False)
print(output)
📚 詳細文檔
關於模型的訓練方式和使用方法的詳細描述,請參考這篇論文。
訓練數據詳情
模型在混合了33個數據集和387個類別的數據上進行訓練,這些數據已被重新格式化為通用格式:
- 五個NLI數據集:包含約885k條文本,分別為 "mnli"、"anli"、"fever"、"wanli"、"ling"。
- 28個分類任務:重新格式化為通用NLI格式,使用了約51k條清理後的文本以避免過擬合,包括 'amazonpolarity'、'imdb'、'appreviews' 等。
每個數據集的詳細信息可參考:https://github.com/MoritzLaurer/zeroshot-classifier/blob/main/datasets_overview.csv
數據和訓練代碼
數據準備、模型訓練和評估的代碼完全開源,可參考:https://github.com/MoritzLaurer/zeroshot-classifier/tree/main
超參數和其他詳細信息
超參數和其他詳細信息可在Weights & Biases倉庫中查看:https://wandb.ai/moritzlaurer/deberta-v3-base-zeroshot-v1-1-all-33/table?workspace=user-
評估指標
所有數據集均報告了平衡準確率。deberta-v3-base-zeroshot-v1.1-all-33
在所有數據集上進行訓練,每個類別最多使用500條文本以避免過擬合。因此,這些數據集上的指標並非嚴格的零樣本指標,因為模型在訓練過程中已經見過每個任務的一些數據。deberta-v3-base-zeroshot-v1.1-heldout
表示在相應數據集上的零樣本性能。為計算這些零樣本指標,管道運行了28次,每次都將一個數據集排除在訓練之外以模擬零樣本設置。

|
deberta-v3-base-mnli-fever-anli-ling-wanli-binary |
deberta-v3-base-zeroshot-v1.1-heldout |
deberta-v3-base-zeroshot-v1.1-all-33 |
datasets mean (w/o nli) |
62 |
70.7 |
84 |
amazonpolarity (2) |
91.7 |
95.7 |
96 |
imdb (2) |
87.3 |
93.6 |
94.5 |
appreviews (2) |
91.3 |
92.2 |
94.4 |
yelpreviews (2) |
95.1 |
97.4 |
98.3 |
rottentomatoes (2) |
83 |
88.7 |
90.8 |
emotiondair (6) |
46.5 |
42.6 |
74.5 |
emocontext (4) |
58.5 |
57.4 |
81.2 |
empathetic (32) |
31.3 |
37.3 |
52.7 |
financialphrasebank (3) |
78.3 |
68.9 |
91.2 |
banking77 (72) |
18.9 |
46 |
73.7 |
massive (59) |
44 |
56.6 |
78.9 |
wikitoxic_toxicaggreg (2) |
73.7 |
82.5 |
90.5 |
wikitoxic_obscene (2) |
77.3 |
91.6 |
92.6 |
wikitoxic_threat (2) |
83.5 |
95.2 |
96.7 |
wikitoxic_insult (2) |
79.6 |
91 |
91.6 |
wikitoxic_identityhate (2) |
83.9 |
88 |
94.4 |
hateoffensive (3) |
55.2 |
66.1 |
86 |
hatexplain (3) |
44.1 |
57.6 |
76.9 |
biasframes_offensive (2) |
56.8 |
85.4 |
87 |
biasframes_sex (2) |
85.4 |
87 |
91.8 |
biasframes_intent (2) |
56.3 |
85.2 |
87.8 |
agnews (4) |
77.3 |
80 |
90.5 |
yahootopics (10) |
53.6 |
57.7 |
72.8 |
trueteacher (2) |
51.4 |
49.5 |
82.4 |
spam (2) |
51.8 |
50 |
97.2 |
wellformedquery (2) |
49.9 |
52.5 |
77.2 |
manifesto (56) |
5.8 |
18.9 |
39.1 |
capsotu (21) |
25.2 |
64 |
72.5 |
mnli_m (2) |
92.4 |
nan |
92.7 |
mnli_mm (2) |
92.4 |
nan |
92.5 |
fevernli (2) |
89 |
nan |
89.1 |
anli_r1 (2) |
79.4 |
nan |
80 |
anli_r2 (2) |
68.4 |
nan |
68.4 |
anli_r3 (2) |
66.2 |
nan |
68 |
wanli (2) |
81.6 |
nan |
81.8 |
lingnli (2) |
88.4 |
nan |
88.4 |
🔧 技術細節
該模型基於自然語言推理任務(NLI)進行設計,能夠執行通用的分類任務。與其他NLI模型相比,該模型預測兩個類別(entailment
與 not_entailment
),而不是三個類別(entailment/neutral/contradiction)。
假設模板
以下是用於模型微調的假設模板,檢查這些模板可以幫助用戶瞭解模型訓練的假設類型和任務:
wellformedquery
標籤 |
假設 |
not_well_formed |
此示例不是格式良好的谷歌查詢 |
well_formed |
此示例是格式良好的谷歌查詢。 |
biasframes_sex
標籤 |
假設 |
not_sex |
此示例不包含性內容暗示。 |
sex |
此示例包含性內容暗示。 |
biasframes_intent
標籤 |
假設 |
intent |
此示例的意圖是冒犯/不尊重。 |
not_intent |
此示例的意圖不是冒犯/不尊重。 |
biasframes_offensive
標籤 |
假設 |
not_offensive |
此示例不能被視為冒犯、不尊重或有毒。 |
offensive |
此示例可以被視為冒犯、不尊重或有毒。 |
financialphrasebank
標籤 |
假設 |
negative |
從投資者的角度來看,此示例的情緒是負面的。 |
neutral |
從投資者的角度來看,此示例的情緒是中性的。 |
positive |
從投資者的角度來看,此示例的情緒是正面的。 |
rottentomatoes
標籤 |
假設 |
negative |
此示例爛番茄電影評論的情緒是負面的 |
positive |
此示例爛番茄電影評論的情緒是正面的 |
amazonpolarity
標籤 |
假設 |
negative |
此示例亞馬遜產品評論的情緒是負面的 |
positive |
此示例亞馬遜產品評論的情緒是正面的 |
imdb
標籤 |
假設 |
negative |
此示例IMDb電影評論的情緒是負面的 |
positive |
此示例IMDb電影評論的情緒是正面的 |
appreviews
標籤 |
假設 |
negative |
此示例應用評論的情緒是負面的。 |
positive |
此示例應用評論的情緒是正面的。 |
yelpreviews
標籤 |
假設 |
negative |
此示例Yelp評論的情緒是負面的。 |
positive |
此示例Yelp評論的情緒是正面的。 |
wikitoxic_toxicaggregated
標籤 |
假設 |
not_toxicaggregated |
此示例維基百科評論不包含有毒語言。 |
toxicaggregated |
此示例維基百科評論包含有毒語言。 |
wikitoxic_obscene
標籤 |
假設 |
not_obscene |
此示例維基百科評論不包含淫穢語言。 |
obscene |
此示例維基百科評論包含淫穢語言。 |
wikitoxic_threat
標籤 |
假設 |
not_threat |
此示例維基百科評論不包含威脅。 |
threat |
此示例維基百科評論包含威脅。 |
wikitoxic_insult
標籤 |
假設 |
insult |
此示例維基百科評論包含侮辱。 |
not_insult |
此示例維基百科評論不包含侮辱。 |
wikitoxic_identityhate
標籤 |
假設 |
identityhate |
此示例維基百科評論包含身份仇恨。 |
not_identityhate |
此示例維基百科評論不包含身份仇恨。 |
hateoffensive
標籤 |
假設 |
hate_speech |
此示例推文包含仇恨言論。 |
neither |
此示例推文既不包含冒犯性語言也不包含仇恨言論。 |
offensive |
此示例推文包含無仇恨言論的冒犯性語言。 |
hatexplain
標籤 |
假設 |
hate_speech |
此示例來自Twitter或Gab的文本包含仇恨言論。 |
neither |
此示例來自Twitter或Gab的文本既不包含冒犯性語言也不包含仇恨言論。 |
offensive |
此示例來自Twitter或Gab的文本包含無仇恨言論的冒犯性語言。 |
spam
標籤 |
假設 |
not_spam |
此示例短信不是垃圾短信。 |
spam |
此示例短信是垃圾短信。 |
emotiondair
標籤 |
假設 |
anger |
此示例推文表達的情緒是:憤怒 |
fear |
此示例推文表達的情緒是:恐懼 |
joy |
此示例推文表達的情緒是:喜悅 |
love |
此示例推文表達的情緒是:愛 |
sadness |
此示例推文表達的情緒是:悲傷 |
surprise |
此示例推文表達的情緒是:驚訝 |
emocontext
標籤 |
假設 |
angry |
此示例推文表達的情緒是:憤怒 |
happy |
此示例推文表達的情緒是:快樂 |
others |
此示例推文不表達憤怒、悲傷或快樂中的任何一種情緒 |
sad |
此示例推文表達的情緒是:悲傷 |
empathetic
標籤 |
假設 |
afraid |
此示例對話的主要情緒是:害怕 |
angry |
此示例對話的主要情緒是:憤怒 |
annoyed |
此示例對話的主要情緒是:惱火 |
anticipating |
此示例對話的主要情緒是:期待 |
anxious |
此示例對話的主要情緒是:焦慮 |
apprehensive |
此示例對話的主要情緒是:擔憂 |
ashamed |
此示例對話的主要情緒是:羞愧 |
caring |
此示例對話的主要情緒是:關心 |
confident |
此示例對話的主要情緒是:自信 |
content |
此示例對話的主要情緒是:滿足 |
devastated |
此示例對話的主要情緒是:崩潰 |
disappointed |
此示例對話的主要情緒是:失望 |
disgusted |
此示例對話的主要情緒是:厭惡 |
embarrassed |
此示例對話的主要情緒是:尷尬 |
excited |
此示例對話的主要情緒是:興奮 |
faithful |
此示例對話的主要情緒是:忠誠 |
furious |
此示例對話的主要情緒是:狂怒 |
grateful |
此示例對話的主要情緒是:感激 |
guilty |
此示例對話的主要情緒是:內疚 |
hopeful |
此示例對話的主要情緒是:希望 |
impressed |
此示例對話的主要情緒是:印象深刻 |
jealous |
此示例對話的主要情緒是:嫉妒 |
joyful |
此示例對話的主要情緒是:喜悅 |
lonely |
此示例對話的主要情緒是:孤獨 |
nostalgic |
此示例對話的主要情緒是:懷舊 |
prepared |
此示例對話的主要情緒是:準備好 |
proud |
此示例對話的主要情緒是:自豪 |
sad |
此示例對話的主要情緒是:悲傷 |
sentimental |
此示例對話的主要情緒是:多愁善感 |
surprised |
此示例對話的主要情緒是:驚訝 |
terrified |
此示例對話的主要情緒是:恐懼 |
trusting |
此示例對話的主要情緒是:信任 |
agnews
標籤 |
假設 |
Business |
此示例新聞文本是關於商業新聞 |
Sci/Tech |
此示例新聞文本是關於科學和技術 |
Sports |
此示例新聞文本是關於體育 |
World |
此示例新聞文本是關於世界新聞 |
yahootopics
標籤 |
假設 |
Business & Finance |
此示例來自雅虎問答論壇的問題歸類於主題:商業與金融 |
Computers & Internet |
此示例來自雅虎問答論壇的問題歸類於主題:計算機與互聯網 |
Education & Reference |
此示例來自雅虎問答論壇的問題歸類於主題:教育與參考 |
Entertainment & Music |
此示例來自雅虎問答論壇的問題歸類於主題:娛樂與音樂 |
Family & Relationships |
此示例來自雅虎問答論壇的問題歸類於主題:家庭與關係 |
Health |
此示例來自雅虎問答論壇的問題歸類於主題:健康 |
Politics & Government |
此示例來自雅虎問答論壇的問題歸類於主題:政治與政府 |
Science & Mathematics |
此示例來自雅虎問答論壇的問題歸類於主題:科學與數學 |
Society & Culture |
此示例來自雅虎問答論壇的問題歸類於主題:社會與文化 |
Sports |
此示例來自雅虎問答論壇的問題歸類於主題:體育 |
massive
標籤 |
假設 |
alarm_query |
此示例話語是關於鬧鐘的查詢。 |
alarm_remove |
此示例話語的意圖是移除鬧鐘。 |
alarm_set |
此示例話語的意圖是設置鬧鐘。 |
audio_volume_down |
此示例話語的意圖是降低音量。 |
audio_volume_mute |
此示例話語的意圖是靜音音量。 |
audio_volume_other |
此示例話語與音頻音量有關。 |
audio_volume_up |
此示例話語的意圖是調高音頻音量。 |
calendar_query |
此示例話語是關於日曆的查詢。 |
calendar_remove |
此示例話語的意圖是從日曆中移除某些內容。 |
calendar_set |
此示例話語的意圖是在日曆中設置某些內容。 |
cooking_query |
此示例話語是關於烹飪的查詢。 |
cooking_recipe |
此示例話語是關於烹飪食譜。 |
datetime_convert |
此示例話語與日期時間更改或轉換有關。 |
datetime_query |
此示例話語的意圖是進行日期時間查詢。 |
email_addcontact |
此示例話語的意圖是將電子郵件地址添加到聯繫人中。 |
email_query |
此示例話語是關於電子郵件的查詢。 |
email_querycontact |
此示例話語的意圖是查詢聯繫人詳細信息。 |
email_sendemail |
此示例話語的意圖是發送電子郵件。 |
general_greet |
此示例話語是一般問候語。 |
general_joke |
此示例話語的意圖是聽笑話。 |
general_quirky |
nan |
iot_cleaning |
此示例話語的意圖是讓物聯網設備開始清潔。 |
iot_coffee |
此示例話語的意圖是讓物聯網設備製作咖啡。 |
iot_hue_lightchange |
此示例話語的意圖是更改燈光。 |
iot_hue_lightdim |
此示例話語的意圖是調暗燈光。 |
iot_hue_lightoff |
此示例話語與關閉燈光有關。 |
iot_hue_lighton |
此示例話語與打開燈光有關。 |
iot_hue_lightup |
此示例話語的意圖是調亮燈光。 |
iot_wemo_off |
此示例話語的意圖是關閉物聯網設備。 |
iot_wemo_on |
此示例話語的意圖是打開物聯網設備。 |
lists_createoradd |
此示例話語與創建或添加到列表有關。 |
lists_query |
此示例話語是關於列表的查詢。 |
lists_remove |
此示例話語的意圖是移除列表或從列表中移除某些內容。 |
music_dislikeness |
此示例話語的意圖是表示不喜歡音樂。 |
music_likeness |
此示例話語與喜歡音樂有關。 |
music_query |
此示例話語是關於音樂的查詢。 |
music_settings |
此示例話語的意圖是更改音樂設置。 |
news_query |
此示例話語是關於新聞的查詢。 |
play_audiobook |
此示例話語與播放有聲讀物有關。 |
play_game |
此示例話語的意圖是開始玩遊戲。 |
play_music |
此示例話語的意圖是讓物聯網設備播放音樂。 |
play_podcasts |
此示例話語與播放播客有關。 |
play_radio |
此示例話語的意圖是在收音機上播放某些內容。 |
qa_currency |
此示例話語是關於貨幣的。 |
qa_definition |
此示例話語是關於定義的查詢。 |
qa_factoid |
此示例話語是一個事實問題。 |
qa_maths |
此示例話語是關於數學的問題。 |
qa_stock |
此示例話語是關於股票的。 |
recommendation_events |
此示例話語是關於活動推薦的。 |
recommendation_locations |
此示例話語的意圖是接收好地點的推薦。 |
recommendation_movies |
此示例話語是關於電影推薦的。 |
social_post |
此示例話語是關於社交媒體帖子的。 |
social_query |
此示例話語是關於社交網絡的查詢。 |
takeaway_order |
此示例話語的意圖是訂購外賣食品。 |
takeaway_query |
此示例話語是關於外賣食品的。 |
transport_query |
此示例話語是關於交通或旅行的查詢。 |
transport_taxi |
此示例話語的意圖是叫出租車。 |
transport_ticket |
此示例話語是關於交通票務的。 |
transport_traffic |
此示例話語是關於交通或流量的。 |
weather_query |
此示例話語是關於天氣的查詢。 |
banking77
標籤 |
假設 |
Refund_not_showing_up |
此客戶示例消息是關於退款未顯示的問題。 |
activate_my_card |
此銀行客戶示例消息是關於激活卡的問題。 |
age_limit |
此銀行客戶示例消息與年齡限制有關。 |
apple_pay_or_google_pay |
此銀行客戶示例消息是關於蘋果支付或谷歌支付的問題。 |
atm_support |
此銀行客戶示例消息請求ATM支持。 |
automatic_top_up |
此銀行客戶示例消息是關於自動充值的問題。 |
balance_not_updated_after_bank_transfer |
此銀行客戶示例消息是關於銀行轉賬後餘額未更新的問題。 |
balance_not_updated_after_cheque_or_cash_deposit |
此銀行客戶示例消息是關於支票或現金存款後餘額未更新的問題。 |
beneficiary_not_allowed |
此銀行客戶示例消息與受益人不被允許或轉賬失敗有關。 |
cancel_transfer |
此銀行客戶示例消息與取消轉賬有關。 |
card_about_to_expire |
此銀行客戶示例消息與卡即將過期有關。 |
card_acceptance |
此銀行客戶示例消息與卡的接受範圍有關。 |
card_arrival |
此銀行客戶示例消息是關於卡的到達問題。 |
card_delivery_estimate |
此銀行客戶示例消息是關於卡的送達估計或時間問題。 |
card_linking |
nan |
card_not_working |
此銀行客戶示例消息是關於卡無法使用的問題。 |
card_payment_fee_charged |
此銀行客戶示例消息是關於卡支付費用的問題。 |
card_payment_not_recognised |
此銀行客戶示例消息是關於客戶未識別的支付問題。 |
card_payment_wrong_exchange_rate |
此銀行客戶示例消息是關於錯誤匯率的問題。 |
card_swallowed |
此銀行客戶示例消息是關於卡被機器吞卡的問題。 |
cash_withdrawal_charge |
此銀行客戶示例消息是關於現金取款費用的問題。 |
cash_withdrawal_not_recognised |
此銀行客戶示例消息是關於未識別的現金取款問題。 |
change_pin |
此銀行客戶示例消息是關於更改PIN碼的問題。 |
compromised_card |
此銀行客戶示例消息是關於卡被盜用的問題。 |
contactless_not_working |
此銀行客戶示例消息是關於非接觸式支付無法使用的問題。 |
country_support |
此銀行客戶示例消息是關於特定國家支持的問題。 |
declined_card_payment |
此銀行客戶示例消息是關於卡支付被拒絕的問題。 |
declined_cash_withdrawal |
此銀行客戶示例消息是關於現金取款被拒絕的問題。 |
declined_transfer |
此銀行客戶示例消息是關於轉賬被拒絕的問題。 |
direct_debit_payment_not_recognised |
此銀行客戶示例消息是關於未識別的直接借記支付問題。 |
disposable_card_limits |
此銀行客戶示例消息是關於一次性卡的限額問題。 |
edit_personal_details |
此銀行客戶示例消息是關於編輯個人詳細信息的問題。 |
exchange_charge |
此銀行客戶示例消息是關於匯率費用的問題。 |
exchange_rate |
此銀行客戶示例消息是關於匯率的問題。 |
exchange_via_app |
nan |
extra_charge_on_statement |
此銀行客戶示例消息是關於對賬單上額外收費的問題。 |
failed_transfer |
此銀行客戶示例消息是關於轉賬失敗的問題。 |
fiat_currency_support |
此銀行客戶示例消息是關於法定貨幣支持的問題。 |
get_disposable_virtual_card |
此銀行客戶示例消息是關於獲取一次性虛擬卡的問題。 |
get_physical_card |
nan |
getting_spare_card |
此銀行客戶示例消息是關於獲取備用卡的問題。 |
getting_virtual_card |
此銀行客戶示例消息是關於獲取虛擬卡的問題。 |
lost_or_stolen_card |
此銀行客戶示例消息是關於卡丟失或被盜的問題。 |
lost_or_stolen_phone |
此銀行客戶示例消息是關於手機丟失或被盜的問題。 |
order_physical_card |
此銀行客戶示例消息是關於訂購實體卡的問題。 |
passcode_forgotten |
此銀行客戶示例消息是關於忘記密碼的問題。 |
pending_card_payment |
此銀行客戶示例消息是關於待處理的卡支付問題。 |
pending_cash_withdrawal |
此銀行客戶示例消息是關於待處理的現金取款問題。 |
pending_top_up |
此銀行客戶示例消息是關於待處理的充值問題。 |
pending_transfer |
此銀行客戶示例消息是關於待處理的轉賬問題。 |
pin_blocked |
此銀行客戶示例消息是關於PIN碼被鎖定的問題。 |
receiving_money |
此銀行客戶示例消息是關於收款的問題。 |
request_refund |
此銀行客戶示例消息是關於退款請求的問題。 |
reverted_card_payment? |
此銀行客戶示例消息是關於撤銷卡支付的問題。 |
supported_cards_and_currencies |
nan |
terminate_account |
此銀行客戶示例消息是關於終止賬戶的問題。 |
top_up_by_bank_transfer_charge |
nan |
top_up_by_card_charge |
此銀行客戶示例消息是關於通過卡充值的費用問題。 |
top_up_by_cash_or_cheque |
此銀行客戶示例消息是關於通過現金或支票充值的問題。 |
top_up_failed |
此銀行客戶示例消息是關於充值問題或失敗的問題。 |
top_up_limits |
此銀行客戶示例消息是關於充值限制的問題。 |
top_up_reverted |
此銀行客戶示例消息是關於充值問題的問題。 |
topping_up_by_card |
此銀行客戶示例消息是關於通過卡充值的問題。 |
transaction_charged_twice |
此銀行客戶示例消息是關於交易重複收費的問題。 |
transfer_fee_charged |
此銀行客戶示例消息是關於轉賬費用問題的問題。 |
transfer_into_account |
此銀行客戶示例消息是關於轉入客戶自己賬戶的轉賬問題。 |
transfer_not_received_by_recipient |
此銀行客戶示例消息是關於轉賬未被接收方收到的問題。 |
transfer_timing |
此銀行客戶示例消息是關於轉賬時間的問題。 |
unable_to_verify_identity |
此銀行客戶示例消息是關於身份驗證問題的問題。 |
verify_my_identity |
此銀行客戶示例消息是關於身份驗證的問題。 |
verify_source_of_funds |
此銀行客戶示例消息是關於資金來源的問題。 |
verify_top_up |
此銀行客戶示例消息是關於驗證和充值的問題。 |
virtual_card_not_working |
此銀行客戶示例消息是關於虛擬卡無法使用的問題。 |
visa_or_mastercard |
此銀行客戶示例消息是關於銀行卡類型的問題。 |
why_verify_identity |
此銀行客戶示例消息質疑為什麼需要身份驗證。 |
wrong_amount_of_cash_received |
此銀行客戶示例消息是關於收到錯誤現金金額的問題。 |
wrong_exchange_rate_for_cash_withdrawal |
此銀行客戶示例消息是關於現金取款錯誤匯率的問題。 |
trueteacher
標籤 |
假設 |
factually_consistent |
此示例摘要與全文在事實方面一致。 |
factually_inconsistent |
此示例摘要與全文在事實方面不一致。 |
capsotu
標籤 |
假設 |
Agriculture |
此示例來自美國總統演講的文本是關於農業的。 |
Civil Rights |
此示例來自美國總統演講的文本是關於民權、少數群體或公民自由的。 |
Culture |
此示例來自美國總統演講的文本是關於文化政策的。 |
Defense |
此示例來自美國總統演講的文本是關於國防或軍事的。 |
Domestic Commerce |
此示例來自美國總統演講的文本是關於銀行、金融或商業的。 |
Education |
此示例來自美國總統演講的文本是關於教育的。 |
Energy |
此示例來自美國總統演講的文本是關於能源、電力或化石燃料的。 |
Environment |
此示例來自美國總統演講的文本是關於環境、水、廢物或汙染的。 |
Foreign Trade |
此示例來自美國總統演講的文本是關於對外貿易的。 |
Government Operations |
此示例來自美國總統演講的文本是關於政府運營或行政管理的。 |
Health |
此示例來自美國總統演講的文本是關於健康的。 |
Housing |
此示例來自美國總統演講的文本是關於社區發展或住房問題的。 |
Immigration |
此示例來自美國總統演講的文本是關於移民的。 |
International Affairs |
此示例來自美國總統演講的文本是關於國際事務或對外援助的。 |
Labor |
此示例來自美國總統演講的文本是關於就業或勞動的。 |
Law and Crime |
此示例來自美國總統演講的文本是關於法律、犯罪或家庭問題的。 |
Macroeconomics |
此示例來自美國總統演講的文本是關於宏觀經濟學的。 |
Public Lands |
此示例來自美國總統演講的文本是關於公共土地或水資源管理的。 |
Social Welfare |
此示例來自美國總統演講的文本是關於社會福利的。 |
Technology |
此示例來自美國總統演講的文本是關於太空、科學、技術或通信的。 |
Transportation |
此示例來自美國總統演講的文本是關於交通的。 |
manifesto
標籤 |
假設 |
Agriculture and Farmers: Positive |
此示例來自政黨宣言的文本對農業和農民政策持積極態度。 |
Anti-Growth Economy: Positive |
此示例來自政黨宣言的文本支持反增長政治。 |
Anti-Imperialism |
此示例來自政黨宣言的文本反帝國主義,例如反對控制其他國家,支持殖民地更大程度的自治。 |
Centralisation |
此示例來自政黨宣言的文本支持政治集中化。 |
Civic Mindedness: Positive |
此示例來自政黨宣言的文本對國家團結、公民社會或公共精神呼籲持積極態度,或反對反社會態度。 |
Constitutionalism: Negative |
此示例來自政黨宣言的文本對憲政主義持積極態度。 |
Constitutionalism: Positive |
此示例來自政黨宣言的文本對憲政主義和憲法現狀持積極態度。 |
Controlled Economy |
此示例來自政黨宣言的文本支持政府對經濟的直接控制,例如價格控制或最低工資。 |
Corporatism/Mixed Economy |
此示例來自政黨宣言的文本對政府、僱主和工會的同時合作持積極態度。 |
Culture: Positive |
此示例來自政黨宣言的文本支持文化政策或休閒設施,例如博物館、圖書館或公共體育俱樂部。 |
Decentralization |
此示例來自政黨宣言的文本支持權力下放或聯邦制。 |
Democracy |
此示例來自政黨宣言的文本有利地提及民主或民主程序或機構。 |
Economic Goals |
此示例來自政黨宣言的文本是關於經濟目標的寬泛/一般聲明,沒有具體細節。 |
Economic Growth: Positive |
此示例來自政黨宣言的文本支持經濟增長,例如促進更多生產或政府對增長的援助。 |
Economic Orthodoxy |
此示例來自政黨宣言的文本支持經濟正統觀念,例如減少預算赤字、節儉或強勢貨幣。 |
Economic Planning |
此示例來自政黨宣言的文本對政府經濟規劃持積極態度,例如政策計劃或戰略。 |
Education Expansion |
此示例來自政黨宣言的文本是關於需要擴大/改進教育政策。 |
Education Limitation |
此示例來自政黨宣言的文本對國家教育支出持懷疑態度,例如支持學費或私立學校。 |
Environmental Protection |
此示例來自政黨宣言的文本支持環境保護,例如應對氣候變化或“綠色”政策,或保護自然資源或動物權利。 |
Equality: Positive |
此示例來自政黨宣言的文本對平等或社會正義持積極態度,例如保護弱勢群體或公平分配資源。 |
European Community/Union: Negative |
此示例來自政黨宣言的文本負面提及歐盟或歐洲共同體。 |
European Community/Union: Positive |
此示例來自政黨宣言的文本對歐盟或歐洲共同體持積極態度,例如歐盟擴張和一體化。 |
Foreign Special Relationships: Negative |
此示例來自政黨宣言的文本對特定國家持負面態度。 |
Foreign Special Relationships: Positive |
此示例來自政黨宣言的文本對特定國家持積極態度。 |
Free Market Economy |
此示例來自政黨宣言的文本支持自由市場經濟和資本主義。 |
Freedom and Human Rights |
此示例來自政黨宣言的文本支持自由和人權,例如言論自由、集會自由,或反對國家強制,或支持個人主義。 |
Governmental and Administrative Efficiency |
此示例來自政黨宣言的文本支持政府/行政效率,例如通過重組公務員隊伍或改善官僚作風。 |
Incentives: Positive |
此示例來自政黨宣言的文本支持支持企業的供應側經濟政策,例如補貼或稅收減免等激勵措施。 |
Internationalism: Negative |
此示例來自政黨宣言的文本對國際主義持懷疑態度,例如反對國際合作,支持國家主權和單邊主義。 |
Internationalism: Positive |
此示例來自政黨宣言的文本支持與其他國家的國際合作,例如提及需要援助發展中國家,或全球治理。 |
Keynesian Demand Management |
此示例來自政黨宣言的文本支持凱恩斯主義需求管理和需求側經濟政策。 |
Labour Groups: Negative |
此示例來自政黨宣言的文本對勞工團體和工會持負面態度。 |
Labour Groups: Positive |
此示例來自政黨宣言的文本對勞工團體持積極態度,例如支持良好的工作條件、公平工資或工會。 |
Law and Order: Positive |
此示例來自政黨宣言的文本對法律和秩序以及嚴格執法持積極態度。 |
Market Regulation |
此示例來自政黨宣言的文本支持市場監管以實現公平和開放的市場,例如消費者保護、增加競爭或社會市場經濟。 |
Marxist Analysis |
此示例來自政黨宣言的文本對馬克思列寧主義思想持積極態度,或使用特定的馬克思主義術語。 |
Middle Class and Professional Groups |
此示例來自政黨宣言的文本有利地提及中產階級,例如白領群體或服務業。 |
Military: Negative |
此示例來自政黨宣言的文本對軍事持負面態度,例如減少軍事開支或裁軍。 |
Military: Positive |
此示例來自政黨宣言的文本對軍事持積極態度,例如軍事開支、重新武裝或軍事條約義務。 |
Multiculturalism: Negative |
此示例來自政黨宣言的文本對多元文化主義持懷疑態度,或支持文化融合或呼籲社會文化同質化。 |
Multiculturalism: Positive |
此示例來自政黨宣言的文本有利地提及文化多樣性,例如宗教自由或語言遺產。 |
National Way of Life: Negative |
此示例來自政黨宣言的文本不利地提及一個國家的民族和歷史,例如對愛國主義或民族自豪感持懷疑態度。 |
National Way of Life: Positive |
此示例來自政黨宣言的文本對民族生活方式和歷史持積極態度,例如公民自豪感或愛國主義呼籲。 |
Nationalisation |
此示例來自政黨宣言的文本對政府擁有產業或土地持積極態度,或支持經濟國有化。 |
Non-economic Demographic Groups |
此示例來自政黨宣言的文本有利地提及非經濟人口群體,如婦女、學生或特定年齡組。 |
Peace |
此示例來自政黨宣言的文本支持和平和以和平方式解決危機,例如支持談判和結束戰爭。 |
Political Authority |
此示例來自政黨宣言的文本提及演講者的治理能力或其他政黨缺乏此類能力,或有利地提及強大/穩定的政府。 |
Political Corruption |
此示例來自政黨宣言的文本對政治腐敗或濫用政治/官僚權力持負面態度。 |
Protectionism: Negative |
此示例來自政黨宣言的文本反對保護主義,支持自由貿易。 |
Protectionism: Positive |
此示例來自政黨宣言的文本支持保護主義,例如關稅、出口補貼。 |
Technology and Infrastructure: Positive |
此示例來自政黨宣言的文本是關於技術和基礎設施的,例如工業現代化的重要性,或支持公共基礎設施/技術支出。 |
Traditional Morality: Negative |
此示例來自政黨宣言的文本對傳統道德持負面態度,例如反對宗教道德價值觀、支持離婚或墮胎、支持現代家庭或政教分離。 |
Traditional Morality: Positive |
此示例來自政黨宣言的文本支持傳統或宗教價值觀,例如審查不道德行為、支持傳統家庭價值觀或宗教機構。 |
Underprivileged Minority Groups |
此示例來自政黨宣言的文本有利地提及弱勢群體,例如殘疾人、同性戀者或移民。 |
Welfare State Expansion |
此示例來自政黨宣言的文本支持福利國家,例如醫療保健、養老金或社會住房。 |
Welfare State Limitation |
此示例來自政黨宣言的文本支持限制福利國家,例如社會服務或社會保障的公共資金,例如私人護理優先於國家護理。 |
📄 許可證
基礎模型(DeBERTa-v3)根據MIT許可證發佈。模型微調所使用的數據集根據不同的許可證發佈。以下表格提供了用於微調的非NLI數據集的概述、許可證信息、相關論文等詳細信息:https://github.com/MoritzLaurer/zeroshot-classifier/blob/main/datasets_overview.csv
📚 引用
如果您在學術研究中使用此模型,請引用以下文獻:
@misc{laurer_building_2023,
title = {Building {Efficient} {Universal} {Classifiers} with {Natural} {Language} {Inference}},
url = {http://arxiv.org/abs/2312.17543},
doi = {10.48550/arXiv.2312.17543},
abstract = {Generative Large Language Models (LLMs) have become the mainstream choice for fewshot and zeroshot learning thanks to the universality of text generation. Many users, however, do not need the broad capabilities of generative LLMs when they only want to automate a classification task. Smaller BERT-like models can also learn universal tasks, which allow them to do any text classification task without requiring fine-tuning (zeroshot classification) or to learn new tasks with only a few examples (fewshot), while being significantly more efficient than generative LLMs. This paper (1) explains how Natural Language Inference (NLI) can be used as a universal classification task that follows similar principles as instruction fine-tuning of generative LLMs, (2) provides a step-by-step guide with reusable Jupyter notebooks for building a universal classifier, and (3) shares the resulting universal classifier that is trained on 33 datasets with 389 diverse classes. Parts of the code we share has been used to train our older zeroshot classifiers that have been downloaded more than 55 million times via the Hugging Face Hub as of December 2023. Our new classifier improves zeroshot performance by 9.4\%.},
urldate = {2024-01-05},
publisher = {arXiv},
author = {Laurer, Moritz and van Atteveldt, Wouter and Casas, Andreu and Welbers, Kasper},
month = dec,
year = {2023},
note = {arXiv:2312.17543 [cs]},
keywords = {Computer Science - Artificial Intelligence, Computer Science - Computation and Language},
}
🤝 合作與諮詢
如果您有合作想法或問題,請通過 m{dot}laurer{at}vu{dot}nl 聯繫我,或在 LinkedIn 上與我交流。
⚠️ 注意事項
- 版本問題:DeBERTa-v3 於2021年12月6日發佈,較舊版本的HF Transformers可能在運行模型時出現問題(例如分詞器問題)。使用
Transformers>=4.13
可能會解決一些問題。
- 依賴安裝:請確保安裝
sentencepiece
以避免分詞器錯誤,可以運行 pip install transformers[sentencepiece]
或 pip install sentencepiece
進行安裝。
- 數據集問題:
massive
和 banking77
數據集中的一些行包含 nan
,因為某些類別過於模糊/不明確,已從數據中排除。