🚀 mdeberta-v3-base-squad2 模型
本模型可用於抽取式問答任務,在多語言場景下表現出色。它基於 microsoft/mdeberta-v3-base
進行微調,能有效處理多種語言的問答需求。
🚀 快速開始
本模型可用於抽取式問答任務。它在 SQuAD2.0 數據集上進行了 3 個輪次的微調。
✨ 主要特性
- 多語言支持:支持多種語言,包括但不限於英語、中文、法語、德語等。
- 問答能力:經過微調,可用於抽取式問答任務。
- 基於 DeBERTa-V3:採用
microsoft/mdeberta-v3-base
作為基礎模型。
📦 安裝指南
文檔未提及安裝步驟,可參考 transformers
庫的官方安裝說明。
💻 使用示例
基礎用法
from transformers import pipeline
qa_model = pipeline("question-answering", "timpal0l/mdeberta-v3-base-squad2")
question = "Where do I live?"
context = "My name is Tim and I live in Sweden."
qa_model(question = question, context = context)
📚 詳細文檔
模型評估
以下是在 SQuAD2.0 開發集上的評估結果:
{
"epoch": 3.0,
"eval_HasAns_exact": 79.65587044534414,
"eval_HasAns_f1": 85.91387795001529,
"eval_HasAns_total": 5928,
"eval_NoAns_exact": 82.10260723296888,
"eval_NoAns_f1": 82.10260723296888,
"eval_NoAns_total": 5945,
"eval_best_exact": 80.8809904826076,
"eval_best_exact_thresh": 0.0,
"eval_best_f1": 84.00551406448994,
"eval_best_f1_thresh": 0.0,
"eval_exact": 80.8809904826076,
"eval_f1": 84.00551406449004,
"eval_samples": 12508,
"eval_total": 11873,
"train_loss": 0.7729689576483615,
"train_runtime": 9118.953,
"train_samples": 134891,
"train_samples_per_second": 44.377,
"train_steps_per_second": 0.925
}
模型技術背景
DeBERTa 通過解耦注意力和增強掩碼解碼器改進了 BERT 和 RoBERTa 模型。在 80GB 訓練數據的情況下,DeBERTa 在大多數 NLU 任務上優於 RoBERTa。
在 DeBERTa V3 中,我們使用帶有梯度解耦嵌入共享的 ELECTRA 風格預訓練進一步提高了 DeBERTa 的效率。與 DeBERTa 相比,我們的 V3 版本顯著提高了模型在下游任務上的性能。你可以從我們的 論文 中找到關於新模型的更多技術細節。
請查看 官方倉庫 以獲取更多實現細節和更新。
mDeBERTa 是 DeBERTa 的多語言版本,它使用與 DeBERTa 相同的結構,並使用 CC100 多語言數據進行訓練。mDeBERTa V3 基礎模型有 12 層,隱藏層大小為 768。它有 8600 萬個骨幹參數,詞彙表包含 25 萬個標記,在嵌入層引入了 1.9 億個參數。該模型使用 2.5T 的 CC100 數據進行訓練,與 XLM - R 相同。
🔧 技術細節
- 模型類型:基於
microsoft/mdeberta-v3-base
的微調模型
- 訓練數據:在 SQuAD2.0 數據集上進行 3 個輪次的微調
| 屬性 | 詳情 |
|------|------|
| 模型類型 | 基於
microsoft/mdeberta-v3-base
的微調模型 |
| 訓練數據 | 在 SQuAD2.0 數據集上進行 3 個輪次的微調 |
📄 許可證
本模型使用 MIT 許可證。