🚀 基于MLQA数据集训练的德语问答模型
本项目是一个基于MLQA数据集训练的德语问答模型。使用deepset.ai的GBERT Large模型进行微调,能够有效处理德语的问答任务,在相关评测中表现出色,并且可以对复杂问题给出较好的回答。
🚀 快速开始
环境安装
!pip install -q transformers
模型推理
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="Sahajtomar/GBERTQnA",
tokenizer="Sahajtomar/GBERTQnA"
)
qa_pipeline({
'context': "Vor einigen Jahren haben Wissenschaftler ein wichtiges Mutagen identifiziert, das in unseren eigenen Zellen liegt: APOBEC, ein Protein, das normalerweise als Schutzmittel gegen Virusinfektionen fungiert. Heute hat ein Team von Schweizer und russischen Wissenschaftlern unter der Leitung von Sergey Nikolaev, Genetiker an der Universität Genf (UNIGE) in der Schweiz, entschlüsselt, wie APOBEC eine Schwäche unseres DNA-Replikationsprozesses ausnutzt, um Mutationen in unserem Genom zu induzieren.",
'question': "Welches Mutagen schützt vor Virusinfektionen?"
})
{'answer': 'APOBEC', 'end': 121, 'score': 0.9815779328346252, 'start': 115}
复杂查询示例
qa_pipeline({
"context": 'Im Juli 1944 befand sich die Rote Armee tief auf polnischem Gebiet und verfolgte die Deutschen in Richtung Warschau. In dem Wissen, dass Stalin der Idee eines unabhängigen Polens feindlich gegenüberstand, gab die polnische Exilregierung in London der unterirdischen Heimatarmee (AK) den Befehl, vor dem Eintreffen der Roten Armee zu versuchen, die Kontrolle über Warschau von den Deutschen zu übernehmen. So begann am 1. August 1944, als sich die Rote Armee der Stadt näherte, der Warschauer Aufstand. Der bewaffnete Kampf, der 48 Stunden dauern sollte, war teilweise erfolgreich, dauerte jedoch 63 Tage. Schließlich mussten die Kämpfer der Heimatarmee und die ihnen unterstützenden Zivilisten kapitulieren. Sie wurden in Kriegsgefangenenlager in Deutschland transportiert, während die gesamte Zivilbevölkerung ausgewiesen wurde. Die Zahl der polnischen Zivilisten wird auf 150.000 bis 200.000 geschätzt.',
'question': "Wer wurde nach Deutschland transportiert?"
})
{'answer': 'die Kämpfer der Heimatarmee und die ihnen unterstützenden Zivilisten',
'end': 693,
'score': 0.23357819020748138,
'start': 625}
你可以在Colab中尝试运行该模型:

📚 详细文档
模型评估指标
数据集 |
EM |
F1 |
MLQA DEV (german) |
63.82 |
77.20 |
XQUAD TEST (german) |
65.96 |
80.85 |
模型信息
属性 |
详情 |
模型类型 |
基于GBERT Large微调的问答模型 |
训练数据 |
MLQA数据集(德语) |