🚀 双语英语 + 德语 SQuAD2.0
我们创建了德语版的SQuAD 2.0(deQuAD 2.0),并将其与 SQuAD2.0 合并,形成了用于问答任务的英德双语训练数据。我们使用 bert-base-multilingual-cased 对双语问答下游任务进行微调。
✨ 主要特性
deQuAD 2.0 详情
我们将 SQuAD2.0 自动翻译成德语,随后聘请专业编辑对翻译后的文本进行校对,纠正错误并再次核对答案,进一步润色文本并提高标注质量。最终的德语 deQuAD 数据集包含 130k 条训练样本和 11k 条测试样本。
概述
属性 |
详情 |
语言模型 |
bert-base-multilingual-cased |
语言 |
德语、英语 |
训练数据 |
deQuAD2.0 + SQuAD2.0 训练集 |
评估数据 |
SQuAD2.0 测试集;deQuAD2.0 测试集 |
基础设施 |
8xV100 GPU |
发布时间 |
2021 年 7 月 9 日 |
英文 SQuAD2.0 评估结果
HasAns_exact = 85.79622132253711
HasAns_f1 = 90.92004586077663
HasAns_total = 5928
NoAns_exact = 94.76871320437343
NoAns_f1 = 94.76871320437343
NoAns_total = 5945
exact = 90.28889076054915
f1 = 92.84713483219753
total = 11873
德语 deQuAD2.0 评估结果
HasAns_exact = 63.80526406330638
HasAns_f1 = 72.47269140789888
HasAns_total = 5813
NoAns_exact = 82.0291893792861
NoAns_f1 = 82.0291893792861
NoAns_total = 5687
exact = 72.81739130434782
f1 = 77.19858740470603
total = 11500
💻 使用示例
基础用法
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="deutsche-telekom/bert-multi-english-german-squad2",
tokenizer="deutsche-telekom/bert-multi-english-german-squad2"
)
contexts = ["Die Allianz Arena ist ein Fußballstadion im Norden von München und bietet bei Bundesligaspielen 75.021 Plätze, zusammengesetzt aus 57.343 Sitzplätzen, 13.794 Stehplätzen, 1.374 Logenplätzen, 2.152 Business Seats und 966 Sponsorenplätzen. In der Allianz Arena bestreitet der FC Bayern München seit der Saison 2005/06 seine Heimspiele. Bis zum Saisonende 2017 war die Allianz Arena auch Spielstätte des TSV 1860 München.",
"Harvard is a large, highly residential research university. It operates several arts, cultural, and scientific museums, alongside the Harvard Library, which is the world's largest academic and private library system, comprising 79 individual libraries with over 18 million volumes. "]
questions = ["Wo befindet sich die Allianz Arena?",
"What is the worlds largest academic and private library system?"]
qa_pipeline(context=contexts, question=questions)
输出示例
[{'score': 0.7290093898773193,
'start': 44,
'end': 62,
'answer': 'Norden von München'},
{'score': 0.7979822754859924,
'start': 134,
'end': 149,
'answer': 'Harvard Library'}]
📄 许可证
本项目遵循 MIT 许可证。版权所有 (c) 2021 Fang Xu, Deutsche Telekom AG