🚀 越南语问答模型
本项目基于预训练语言模型,针对越南语和英语进行微调,用于抽取式问答任务。模型在多个数据集上训练,并在VLSP MRC 2021测试集上取得了优异成绩。
🚀 快速开始
你可以通过以下两种方式使用预训练模型:
- Hugging Face管道风格(不使用求和特征策略):
from transformers import pipeline
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
tokenizer=model_checkpoint)
QA_input = {
'question': "Bình là chuyên gia về gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer
model_checkpoint = "nguyenvulebinh/vi-mrc-large"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)
QA_input = {
'question': "Bình được công nhận với danh hiệu gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)
print(answer)
✨ 主要特性
- 多语言支持:支持越南语和英语的问答任务。
- 优异性能:在VLSP MRC 2021测试集上取得了TOP 1的成绩。
- 灵活使用:提供了Hugging Face管道风格和更准确的推理过程两种使用方式。
📦 安装指南
文档未提供具体安装步骤,可访问项目仓库获取详细信息:extractive-qa-mrc
📚 详细文档
模型描述
本模型旨在用于越南语的问答任务,因此验证集仅为越南语(但英语也能正常工作)。以下评估结果使用了VLSP MRC 2021测试集,该实验在排行榜上取得了TOP 1的成绩。
模型 |
精确匹配(EM) |
F1值 |
large 公开测试集 |
85.847 |
83.826 |
large 私有测试集 |
82.072 |
78.071 |
公开排行榜 |
私有排行榜 |
 |
 |
MRCQuestionAnswering 使用 XLM-RoBERTa 作为预训练语言模型。默认情况下,XLM-RoBERTa会将单词拆分为子词,但在本实现中,使用求和策略将BERT层编码后的子词表示重新组合为单词表示。
🔧 技术细节
MRCQuestionAnswering 使用 XLM-RoBERTa 作为预训练语言模型。默认情况下,XLM-RoBERTa会将单词拆分为子词,但在本实现中,使用求和策略将BERT层编码后的子词表示重新组合为单词表示。
📄 许可证
本项目采用CC BY-NC 4.0许可证。
关于
由Binh Nguyen构建
如需更多详细信息,请访问项目仓库。
