🚀 越南語問答模型
本項目基於預訓練語言模型,針對越南語和英語進行微調,用於抽取式問答任務。模型在多個數據集上訓練,並在VLSP MRC 2021測試集上取得了優異成績。
🚀 快速開始
你可以通過以下兩種方式使用預訓練模型:
- Hugging Face管道風格(不使用求和特徵策略):
from transformers import pipeline
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
tokenizer=model_checkpoint)
QA_input = {
'question': "Bình là chuyên gia về gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer
model_checkpoint = "nguyenvulebinh/vi-mrc-large"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)
QA_input = {
'question': "Bình được công nhận với danh hiệu gì ?",
'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)
print(answer)
✨ 主要特性
- 多語言支持:支持越南語和英語的問答任務。
- 優異性能:在VLSP MRC 2021測試集上取得了TOP 1的成績。
- 靈活使用:提供了Hugging Face管道風格和更準確的推理過程兩種使用方式。
📦 安裝指南
文檔未提供具體安裝步驟,可訪問項目倉庫獲取詳細信息:extractive-qa-mrc
📚 詳細文檔
模型描述
本模型旨在用於越南語的問答任務,因此驗證集僅為越南語(但英語也能正常工作)。以下評估結果使用了VLSP MRC 2021測試集,該實驗在排行榜上取得了TOP 1的成績。
模型 |
精確匹配(EM) |
F1值 |
large 公開測試集 |
85.847 |
83.826 |
large 私有測試集 |
82.072 |
78.071 |
公開排行榜 |
私有排行榜 |
 |
 |
MRCQuestionAnswering 使用 XLM-RoBERTa 作為預訓練語言模型。默認情況下,XLM-RoBERTa會將單詞拆分為子詞,但在本實現中,使用求和策略將BERT層編碼後的子詞表示重新組合為單詞表示。
🔧 技術細節
MRCQuestionAnswering 使用 XLM-RoBERTa 作為預訓練語言模型。默認情況下,XLM-RoBERTa會將單詞拆分為子詞,但在本實現中,使用求和策略將BERT層編碼後的子詞表示重新組合為單詞表示。
📄 許可證
本項目採用CC BY-NC 4.0許可證。
關於
由Binh Nguyen構建
如需更多詳細信息,請訪問項目倉庫。
