🚀 基于DeBERTa-v2的日语问答模型
本模型通过对deberta - v2 - base - japanese进行微调,使其适用于问答(Question - Answering)任务。它使用了驾驶领域问答数据集(DDQA)进行微调,可用于SQuAD等问答任务。
🚀 快速开始
安装依赖
请安装transformers
、pytorch
、sentencepiece
和Juman++
。
运行代码
执行以下代码,即可进行问答任务:
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model=AutoModelForQuestionAnswering.from_pretrained('Mizuiro-sakura/deberta-v2-base-japanese-finetuned-QAe')
text={
'context':'私の名前はEIMIです。好きな食べ物は苺です。 趣味は皆さんと会話することです。',
'question' :'好きな食べ物は何ですか'
}
input_ids=tokenizer.encode(text['question'],text['context'])
output= model(torch.tensor([input_ids]))
prediction = tokenizer.decode(input_ids[torch.argmax(output.start_logits): torch.argmax(output.end_logits)])
print(prediction)
✨ 主要特性
- 基于deberta - v2 - base - japanese模型进行微调,适用于问答任务。
- 使用驾驶领域问答数据集(DDQA)进行训练。
- 可用于SQuAD等问答任务。
📦 安装指南
请安装以下依赖:
transformers
pytorch
sentencepiece
Juman++
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model=AutoModelForQuestionAnswering.from_pretrained('Mizuiro-sakura/deberta-v2-base-japanese-finetuned-QAe')
text={
'context':'私の名前はEIMIです。好きな食べ物は苺です。 趣味は皆さんと会話することです。',
'question' :'好きな食べ物は何ですか'
}
input_ids=tokenizer.encode(text['question'],text['context'])
output= model(torch.tensor([input_ids]))
prediction = tokenizer.decode(input_ids[torch.argmax(output.start_logits): torch.argmax(output.end_logits)])
print(prediction)
🔧 技术细节
模型类型
该模型是基于deberta - v2 - base - japanese微调的问答模型。
训练数据
- 驾驶领域问答数据集(DDQA):https://nlp.ist.i.kyoto - u.ac.jp/index.php?Driving%20domain%20QA%20datasets
- 训练还使用了日本语Wikipedia(3.2GB)、cc100(85GB)和oscar(54GB)。
模型精度
指标 |
数值 |
Exact Match(严格匹配) |
0.8038277511961722 |
F1 |
0.8959389668095072 |
📄 许可证
本模型采用MIT许可证。
📚 详细文档
deberta - v2 - base - japanese 简介
该模型是使用日本语Wikipedia(3.2GB)、cc100(85GB)和oscar(54GB)训练的模型,由京都大学黑桥研究室发布。
致谢
感谢京都大学黑桥研究室公开此模型。