🚀 問答模型項目
本項目是一個用於問答任務的模型,支持越南語和英語,基於預訓練語言模型進行微調,可有效處理抽取式問答任務。
🚀 快速開始
你可以通過以下兩種方式使用預訓練模型:
方式一:Hugging Face管道風格(不使用求和特徵策略)
from transformers import pipeline
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
tokenizer=model_checkpoint)
QA_input = {
'question': "Bình là chuyên gia về gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)
QA_input = {
'question': "Bình được công nhận với danh hiệu gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)
print(answer)
✨ 主要特性
📚 詳細文檔
模型描述
該模型旨在用於越南語的問答任務,因此驗證集僅為越南語(但英語也能正常工作)。以下是使用 10% 越南語數據集的評估結果:
模型 |
精確匹配(EM) |
F1值 |
基礎版 |
76.43 |
84.16 |
大型版 |
77.32 |
85.46 |
MRCQuestionAnswering 使用 XLM - RoBERTa 作為預訓練語言模型。默認情況下,XLM - RoBERTa 會將單詞拆分為子詞。但在本實現中,使用求和策略將(由 BERT 層編碼後的)子詞表示重新組合為單詞表示。
模型信息表格
屬性 |
詳情 |
支持語言 |
越南語、英語 |
語言模型 |
XLM - RoBERTa |
微調模型 |
MRCQuestionAnswering |
下游任務 |
抽取式問答 |
數據集 |
Squad 2.0、mailong25、UIT - ViQuAD、MultiLingual Question Answering |
小部件示例
- 問題:"Bình là chuyên gia về gì ?"
上下文:"Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
- 問題:"Bình được công nhận với danh hiệu gì ?"
上下文:"Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
📄 許可證
本項目採用 CC - BY - NC - 4.0 許可證。
👨💻 關於作者
由 Binh Nguyen 構建
如需更多詳情,請訪問項目倉庫。
