🚀 雙語英語 + 德語 SQuAD2.0
我們創建了德語版的SQuAD 2.0(deQuAD 2.0),並將其與 SQuAD2.0 合併,形成了用於問答任務的英德雙語訓練數據。我們使用 bert-base-multilingual-cased 對雙語問答下游任務進行微調。
✨ 主要特性
deQuAD 2.0 詳情
我們將 SQuAD2.0 自動翻譯成德語,隨後聘請專業編輯對翻譯後的文本進行校對,糾正錯誤並再次核對答案,進一步潤色文本並提高標註質量。最終的德語 deQuAD 數據集包含 130k 條訓練樣本和 11k 條測試樣本。
概述
屬性 |
詳情 |
語言模型 |
bert-base-multilingual-cased |
語言 |
德語、英語 |
訓練數據 |
deQuAD2.0 + SQuAD2.0 訓練集 |
評估數據 |
SQuAD2.0 測試集;deQuAD2.0 測試集 |
基礎設施 |
8xV100 GPU |
發佈時間 |
2021 年 7 月 9 日 |
英文 SQuAD2.0 評估結果
HasAns_exact = 85.79622132253711
HasAns_f1 = 90.92004586077663
HasAns_total = 5928
NoAns_exact = 94.76871320437343
NoAns_f1 = 94.76871320437343
NoAns_total = 5945
exact = 90.28889076054915
f1 = 92.84713483219753
total = 11873
德語 deQuAD2.0 評估結果
HasAns_exact = 63.80526406330638
HasAns_f1 = 72.47269140789888
HasAns_total = 5813
NoAns_exact = 82.0291893792861
NoAns_f1 = 82.0291893792861
NoAns_total = 5687
exact = 72.81739130434782
f1 = 77.19858740470603
total = 11500
💻 使用示例
基礎用法
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="deutsche-telekom/bert-multi-english-german-squad2",
tokenizer="deutsche-telekom/bert-multi-english-german-squad2"
)
contexts = ["Die Allianz Arena ist ein Fußballstadion im Norden von München und bietet bei Bundesligaspielen 75.021 Plätze, zusammengesetzt aus 57.343 Sitzplätzen, 13.794 Stehplätzen, 1.374 Logenplätzen, 2.152 Business Seats und 966 Sponsorenplätzen. In der Allianz Arena bestreitet der FC Bayern München seit der Saison 2005/06 seine Heimspiele. Bis zum Saisonende 2017 war die Allianz Arena auch Spielstätte des TSV 1860 München.",
"Harvard is a large, highly residential research university. It operates several arts, cultural, and scientific museums, alongside the Harvard Library, which is the world's largest academic and private library system, comprising 79 individual libraries with over 18 million volumes. "]
questions = ["Wo befindet sich die Allianz Arena?",
"What is the worlds largest academic and private library system?"]
qa_pipeline(context=contexts, question=questions)
輸出示例
[{'score': 0.7290093898773193,
'start': 44,
'end': 62,
'answer': 'Norden von München'},
{'score': 0.7979822754859924,
'start': 134,
'end': 149,
'answer': 'Harvard Library'}]
📄 許可證
本項目遵循 MIT 許可證。版權所有 (c) 2021 Fang Xu, Deutsche Telekom AG