vi - mrc - largeオープンソースベトナム語QAモデル、無料でデプロイして高精度な抽出型QAをサポート

ホーム

Vi Mrc Large

nguyenvulebinhによって開発

XLM - RoBERTaに基づくベトナム語抽出型質問応答モデルで、VLSP MRC 2021評価で一位を獲得しました。

質問応答システム

Transformers

複数言語対応#ベトナム語質問応答 #多言語MRC #抽出型QA

ダウンロード数 879

リリース時間 : 3/2/2022

モデル概要

ベトナム語用に特別設計された抽出型質問応答モデルで、英語の質問応答タスクもサポートし、多言語事前学習モデルを微調整して作成されました。

モデル特徴

多言語サポート

XLM - RoBERTaアーキテクチャに基づき、ネイティブでベトナム語と英語の質問応答タスクをサポートします。

高パフォーマンス

VLSP MRC 2021評価で一位を獲得し、公開テストセットのF1値は83.826に達しました。

サブワード再構成戦略

合計戦略を通じてサブワード表現を完全な単語表現に再構成し、理解の正確性を向上させます。

モデル能力

ベトナム語質問応答

英語質問応答

テキスト理解

回答抽出

使用事例

スマートカスタマーサービス

ベトナム語FAQシステム

ドキュメントに基づく自動質問応答システム

正確率85%以上

教育テクノロジー

学習支援質問応答

教材から自動的に問題の答えを抽出する

🚀 ベトナム語質問応答モデル

本プロジェクトは、事前学習言語モデルを基に、ベトナム語と英語に対して微調整を行い、抽出型質問応答タスクに使用されます。モデルは複数のデータセットで学習され、VLSP MRC 2021テストセットで優れた成績を収めています。

🚀 クイックスタート

事前学習モデルは以下の2つの方法で使用できます。

Hugging Faceパイプラインスタイル（合計特徴量戦略を使用しない）：

from transformers import pipeline
# model_checkpoint = "nguyenvulebinh/vi-mrc-large"
model_checkpoint = "nguyenvulebinh/vi-mrc-base"
nlp = pipeline('question-answering', model=model_checkpoint,
                   tokenizer=model_checkpoint)
QA_input = {
  'question': "Bình là chuyên gia về gì ?",
  'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}
res = nlp(QA_input)
print('pipeline: {}'.format(res))
#{'score': 0.5782045125961304, 'start': 45, 'end': 68, 'answer': 'xử lý ngôn ngữ tự nhiên'}

より正確な推論プロセス（合計特徴量戦略を使用する）：

from infer import tokenize_function, data_collator, extract_answer
from model.mrc_model import MRCQuestionAnswering
from transformers import AutoTokenizer

model_checkpoint = "nguyenvulebinh/vi-mrc-large"
#model_checkpoint = "nguyenvulebinh/vi-mrc-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = MRCQuestionAnswering.from_pretrained(model_checkpoint)

QA_input = {
  'question': "Bình được công nhận với danh hiệu gì ?",
  'context': "Bình Nguyễn là một người đam mê với lĩnh vực xử lý ngôn ngữ tự nhiên . Anh nhận chứng chỉ Google Developer Expert năm 2020"
}

inputs = [tokenize_function(*QA_input)]
inputs_ids = data_collator(inputs)
outputs = model(**inputs_ids)
answer = extract_answer(inputs, outputs, tokenizer)

print(answer)
# answer: Google Developer Expert. Score start: 0.9926977753639221, Score end: 0.9909810423851013

✨ 主な機能

多言語対応：ベトナム語と英語の質問応答タスクをサポートします。
優れた性能：VLSP MRC 2021テストセットで1位の成績を収めています。
使いやすさ：Hugging Faceパイプラインスタイルとより正確な推論プロセスの2つの使用方法を提供しています。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。詳細情報はプロジェクトリポジトリを参照してください：extractive-qa-mrc

📚 ドキュメント

モデルの説明

言語モデル：XLM-RoBERTa
微調整方法：MRCQuestionAnswering
サポート言語：ベトナム語、英語
下流タスク：抽出型質問応答
データセット（英語とベトナム語を組み合わせたもの）：

本モデルはベトナム語の質問応答タスクに使用することを目的としているため、検証セットはベトナム語のみです（ただし、英語でも正常に動作します）。以下の評価結果はVLSP MRC 2021テストセットを使用しており、この実験はランキングで1位の成績を収めています。

モデル	完全一致（EM）	F1値
large 公開テストセット	85.847	83.826
large 非公開テストセット	82.072	78.071

公開ランキング	非公開ランキング

MRCQuestionAnswering は XLM-RoBERTa を事前学習言語モデルとして使用しています。デフォルトでは、XLM-RoBERTaは単語をサブワードに分割しますが、本実装では、合計戦略を使用して、BERT層でエンコードされたサブワード表現を単語表現に再結合しています。

🔧 技術詳細

📄 ライセンス

本プロジェクトはCC BY - NC 4.0ライセンスの下で提供されています。