🚀 英語 + ドイツ語のSQuAD2.0バイリンガルデータセット
このプロジェクトでは、ドイツ語版のSQuAD 2.0(deQuAD 2.0)を作成し、SQuAD2.0と統合して、英語とドイツ語の質問応答タスクの学習データを構築しました。bert-base-multilingual-casedを使用して、バイリンガルの質問応答下流タスクをファインチューニングしています。
🚀 クイックスタート
本プロジェクトでは、英語とドイツ語の質問応答タスクのためのバイリンガルデータセットを提供し、bert-base-multilingual-cased
モデルを使用してファインチューニングを行っています。以下のセクションでは、データセットの詳細、評価結果、モデルの使用方法について説明します。
✨ 主な機能
- ドイツ語版のSQuAD 2.0(deQuAD 2.0)を作成し、SQuAD2.0と統合したバイリンガル学習データを提供。
- プロの編集者による校正とアノテーションの品質向上。
- bert-base-multilingual-casedモデルを使用したバイリンガル質問応答タスクのファインチューニング。
📦 インストール
このセクションではインストール手順に関する具体的なコマンドが提供されていないため、省略します。
💻 使用例
基本的な使用法
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="deutsche-telekom/bert-multi-english-german-squad2",
tokenizer="deutsche-telekom/bert-multi-english-german-squad2"
)
contexts = ["Die Allianz Arena ist ein Fußballstadion im Norden von München und bietet bei Bundesligaspielen 75.021 Plätze, zusammengesetzt aus 57.343 Sitzplätzen, 13.794 Stehplätzen, 1.374 Logenplätzen, 2.152 Business Seats und 966 Sponsorenplätzen. In der Allianz Arena bestreitet der FC Bayern München seit der Saison 2005/06 seine Heimspiele. Bis zum Saisonende 2017 war die Allianz Arena auch Spielstätte des TSV 1860 München.",
"Harvard is a large, highly residential research university. It operates several arts, cultural, and scientific museums, alongside the Harvard Library, which is the world's largest academic and private library system, comprising 79 individual libraries with over 18 million volumes. "]
questions = ["Wo befindet sich die Allianz Arena?",
"What is the worlds largest academic and private library system?"]
qa_pipeline(context=contexts, question=questions)
出力結果
[{'score': 0.7290093898773193,
'start': 44,
'end': 62,
'answer': 'Norden von München'},
{'score': 0.7979822754859924,
'start': 134,
'end': 149,
'answer': 'Harvard Library'}]
📚 ドキュメント
deQuAD 2.0の詳細
SQuAD2.0を自動翻訳してドイツ語版を作成しました。その後、プロの編集者に校正を依頼し、誤りを修正し、回答を二重チェックすることで、テキストを磨き、アノテーションの品質を向上させました。最終的なドイツ語のdeQuADデータセットには、13万件の学習サンプルと1万1000件のテストサンプルが含まれています。
概要
属性 |
详情 |
モデルタイプ |
bert-base-multilingual-cased |
言語 |
ドイツ語、英語 |
学習データ |
deQuAD2.0 + SQuAD2.0学習セット |
評価データ |
SQuAD2.0テストセット;deQuAD2.0テストセット |
インフラ |
8xV100 GPU |
公開日 |
2021年7月9日 |
英語版SQuAD2.0での評価結果
HasAns_exact = 85.79622132253711
HasAns_f1 = 90.92004586077663
HasAns_total = 5928
NoAns_exact = 94.76871320437343
NoAns_f1 = 94.76871320437343
NoAns_total = 5945
exact = 90.28889076054915
f1 = 92.84713483219753
total = 11873
ドイツ語版deQuAD2.0での評価結果
HasAns_exact = 63.80526406330638
HasAns_f1 = 72.47269140789888
HasAns_total = 5813
NoAns_exact = 82.0291893792861
NoAns_f1 = 82.0291893792861
NoAns_total = 5687
exact = 72.81739130434782
f1 = 77.19858740470603
total = 11500
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
Copyright (c) 2021 Fang Xu, Deutsche Telekom AG