🚀 问答模型项目
本项目是一个用于问答任务的模型,支持越南语和英语,基于预训练语言模型进行微调,可有效处理抽取式问答任务。
🚀 快速开始
你可以通过以下两种方式使用预训练模型:
方式一:Hugging Face管道风格(不使用求和特征策略)
from transformers import pipeline
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
tokenizer=model_checkpoint)
QA_input = {
'question': "Bình là chuyên gia về gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)
QA_input = {
'question': "Bình được công nhận với danh hiệu gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)
print(answer)
✨ 主要特性
📚 详细文档
模型描述
该模型旨在用于越南语的问答任务,因此验证集仅为越南语(但英语也能正常工作)。以下是使用 10% 越南语数据集的评估结果:
模型 |
精确匹配(EM) |
F1值 |
基础版 |
76.43 |
84.16 |
大型版 |
77.32 |
85.46 |
MRCQuestionAnswering 使用 XLM - RoBERTa 作为预训练语言模型。默认情况下,XLM - RoBERTa 会将单词拆分为子词。但在本实现中,使用求和策略将(由 BERT 层编码后的)子词表示重新组合为单词表示。
模型信息表格
属性 |
详情 |
支持语言 |
越南语、英语 |
语言模型 |
XLM - RoBERTa |
微调模型 |
MRCQuestionAnswering |
下游任务 |
抽取式问答 |
数据集 |
Squad 2.0、mailong25、UIT - ViQuAD、MultiLingual Question Answering |
小部件示例
- 问题:"Bình là chuyên gia về gì ?"
上下文:"Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
- 问题:"Bình được công nhận với danh hiệu gì ?"
上下文:"Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
📄 许可证
本项目采用 CC - BY - NC - 4.0 许可证。
👨💻 关于作者
由 Binh Nguyen 构建
如需更多详情,请访问项目仓库。
