🚀 DistilBERT基礎模型(無大小寫區分)
DistilBERT基礎模型(無大小寫區分)是在Multi-Genre Natural Language Inference (MNLI) 數據集上針對零樣本分類任務進行微調的模型,可用於文本分類任務。
🚀 快速開始
以下代碼展示瞭如何加載該模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")
model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")
✨ 主要特性
📦 安裝指南
暫未提供安裝相關內容。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")
model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
零樣本分類 |
訓練數據 |
該模型在Multi-Genre Natural Language Inference (MultiNLI) 語料庫上進行預訓練。這是一個眾包收集的包含433k個句子對的數據集,並標註了文本蘊含信息。該語料庫涵蓋了多種口語和書面文本的體裁,並支持獨特的跨體裁泛化評估。 |
語言 |
英語 |
許可證 |
未知 |
父模型 |
有關Distilled - BERT基礎模型的更多信息,請參閱 distilbert base uncased model。 |
用途
此模型可用於文本分類任務。
風險、限制和偏差
⚠️ 重要提示
讀者應注意,本節包含令人不安、冒犯性的內容,可能會傳播歷史和當前的刻板印象。
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng等人 (2021) 和 Bender等人 (2021))。
訓練
訓練數據
該無大小寫區分的DistilBERT模型在Multi-Genre Natural Language Inference (MultiNLI) 語料庫上進行預訓練。這是一個眾包收集的包含433k個句子對的數據集,並標註了文本蘊含信息。該語料庫涵蓋了多種口語和書面文本的體裁,並支持獨特的跨體裁泛化評估。該模型不區分大小寫,即 "english" 和 "English" 對它來說是一樣的。
訓練過程
訓練是在 p3.2xlarge AWS EC2上使用以下超參數完成的:
$ run_glue.py \
--model_name_or_path distilbert-base-uncased \
--task_name mnli \
--do_train \
--do_eval \
--max_seq_length 128 \
--per_device_train_batch_size 16 \
--learning_rate 2e-5 \
--num_train_epochs 5 \
--output_dir /tmp/distilbert-base-uncased_mnli/
評估
評估結果
在下游任務上進行微調時,該模型取得了以下結果:
- 輪數 = 5.0
- 評估準確率 = 0.8206875508543532
- 評估損失 = 0.8706700205802917
- 評估運行時間 = 17.8278
- 每秒評估樣本數 = 551.498
MNLI和MNLI - mm結果:
任務 |
MNLI |
MNLI - mm |
|
82.0 |
82.0 |
環境影響
可以使用 Lacoste等人 (2019) 提出的 機器學習影響計算器 來估算碳排放。我們根據 相關論文 給出了硬件類型。
屬性 |
詳情 |
硬件類型 |
1個NVIDIA Tesla V100 GPU |
使用時長 |
未知 |
雲服務提供商 |
AWS EC2 P3 |
計算區域 |
未知 |
碳排放 |
(功耗 x 時間 x 基於電網位置產生的碳排放量):未知 |
🔧 技術細節
該模型基於DistilBERT架構,在MNLI數據集上進行微調以適應零樣本分類任務。訓練過程在特定的AWS EC2實例上使用特定的超參數完成,以達到較好的性能。評估結果顯示該模型在相關任務上具有一定的準確率。
📄 許可證
許可證信息未知。