🚀 基於DeBERTa-v2的日語問答模型
本模型通過對deberta - v2 - base - japanese進行微調,使其適用於問答(Question - Answering)任務。它使用了駕駛領域問答數據集(DDQA)進行微調,可用於SQuAD等問答任務。
🚀 快速開始
安裝依賴
請安裝transformers
、pytorch
、sentencepiece
和Juman++
。
運行代碼
執行以下代碼,即可進行問答任務:
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model=AutoModelForQuestionAnswering.from_pretrained('Mizuiro-sakura/deberta-v2-base-japanese-finetuned-QAe')
text={
'context':'私の名前はEIMIです。好きな食べ物は苺です。 趣味は皆さんと會話することです。',
'question' :'好きな食べ物は何ですか'
}
input_ids=tokenizer.encode(text['question'],text['context'])
output= model(torch.tensor([input_ids]))
prediction = tokenizer.decode(input_ids[torch.argmax(output.start_logits): torch.argmax(output.end_logits)])
print(prediction)
✨ 主要特性
- 基於deberta - v2 - base - japanese模型進行微調,適用於問答任務。
- 使用駕駛領域問答數據集(DDQA)進行訓練。
- 可用於SQuAD等問答任務。
📦 安裝指南
請安裝以下依賴:
transformers
pytorch
sentencepiece
Juman++
💻 使用示例
基礎用法
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model=AutoModelForQuestionAnswering.from_pretrained('Mizuiro-sakura/deberta-v2-base-japanese-finetuned-QAe')
text={
'context':'私の名前はEIMIです。好きな食べ物は苺です。 趣味は皆さんと會話することです。',
'question' :'好きな食べ物は何ですか'
}
input_ids=tokenizer.encode(text['question'],text['context'])
output= model(torch.tensor([input_ids]))
prediction = tokenizer.decode(input_ids[torch.argmax(output.start_logits): torch.argmax(output.end_logits)])
print(prediction)
🔧 技術細節
模型類型
該模型是基於deberta - v2 - base - japanese微調的問答模型。
訓練數據
- 駕駛領域問答數據集(DDQA):https://nlp.ist.i.kyoto - u.ac.jp/index.php?Driving%20domain%20QA%20datasets
- 訓練還使用了日本語Wikipedia(3.2GB)、cc100(85GB)和oscar(54GB)。
模型精度
指標 |
數值 |
Exact Match(嚴格匹配) |
0.8038277511961722 |
F1 |
0.8959389668095072 |
📄 許可證
本模型採用MIT許可證。
📚 詳細文檔
deberta - v2 - base - japanese 簡介
該模型是使用日本語Wikipedia(3.2GB)、cc100(85GB)和oscar(54GB)訓練的模型,由京都大學黑橋研究室發佈。
致謝
感謝京都大學黑橋研究室公開此模型。