bert-base-chinese-finetuned-squadv2オープンソースモデル - 可答・不可答の質問を含む中国語の質疑応答に対応

ホーム

Bert Base Chinese Finetuned Squadv2

real-jiakaiによって開発

このモデルは中国語版SQuAD v2.0データセットでbert-base-chineseをファインチューニングしたバージョンで、中国語の質問応答タスク向けに設計されており、回答可能な問題と回答不可能な問題の両方をサポートします。

質問応答システム

Transformers

#中国語質問応答抽出 #SQuADv2適応 #回答可能性判定

ダウンロード数 33

リリース時間 : 11/19/2024

モデル概要

本モデルは中国語の質問応答タスク向けに特別に設計されており、与えられた文脈段落から回答を抽出する必要があるシナリオに特に適しています。SQuAD v2.0フォーマットに準拠しており、回答可能な問題と回答不可能な問題の両方を同時に処理できます。

モデル特徴

中国語質問応答サポート

中国語の質問応答タスク向けに最適化されており、与えられた文脈から回答を抽出することをサポートします

回答可能・不可能問題の処理

文脈から回答が見つからない問題を識別して処理することができます

BERT-baseアーキテクチャ

成熟したBERT-base中国語モデルアーキテクチャを基にしており、強力な意味理解能力を備えています

モデル能力

中国語テキスト理解

抽出型質問応答

文脈分析

問題分類

使用事例

教育

読解補助

学生が文章内容を理解し質問に答えるのを支援します

読解効率の向上

カスタマーサービス

FAQ自動回答

ナレッジベースから関連する回答を抽出して顧客の質問に答えます

人間のカスタマーサポート作業量の削減

🚀 bert-base-chinese-finetuned-squadv2

このモデルは、bert-base-chinese を Chinese SQuAD v2.0 データセットでファインチューニングしたバージョンです。これは、中国語の質問応答タスクに特化しており、与えられた文脈から回答を抽出する抽出型QAに最適化されています。

✨ 主な機能

BERT-base Chineseアーキテクチャに基づいています。
回答可能な質問と回答不可能な質問の両方をサポートします。
中国語の質問と回答のペアで学習されています。
抽出型の質問応答に最適化されています。

📦 インストール

このセクションでは、元の文書にインストール手順が記載されていないため、省略されています。

💻 使用例

基本的な使用法

from transformers import AutoModelForQuestionAnswering, AutoTokenizer
import torch

# Load model and tokenizer
model_name = "real-jiakai/bert-base-chinese-finetuned-squadv2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

def get_answer(question, context, threshold=0.0):
    # Tokenize input with maximum sequence length of 384
    inputs = tokenizer(
        question,
        context,
        return_tensors="pt",
        max_length=384,
        truncation=True
    )
    
    with torch.no_grad():
        outputs = model(**inputs)
        start_logits = outputs.start_logits[0]
        end_logits = outputs.end_logits[0]
        
        # Calculate null score (score for predicting no answer)
        null_score = start_logits[0].item() + end_logits[0].item()
        
        # Find the best non-null answer, excluding [CLS] position
        # Set logits at [CLS] position to negative infinity
        start_logits[0] = float('-inf')
        end_logits[0] = float('-inf')
        
        start_idx = torch.argmax(start_logits)
        end_idx = torch.argmax(end_logits)
        
        # Ensure end_idx is not less than start_idx
        if end_idx < start_idx:
            end_idx = start_idx
            
        answer_score = start_logits[start_idx].item() + end_logits[end_idx].item()
        
        # If null score is higher (beyond threshold), return "no answer"
        if null_score - answer_score > threshold:
            return "Question cannot be answered based on the given context."
            
        # Otherwise, return the extracted answer
        tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
        answer = tokenizer.convert_tokens_to_string(tokens[start_idx:end_idx+1])
        
        # Check if answer is empty or contains only special tokens
        if not answer.strip() or answer.strip() in ['[CLS]', '[SEP]']:
            return "Question cannot be answered based on the given context."
            
        return answer.strip()

questions = [
    "本届第十五届珠海航展的亮点和主要展示内容是什么？",
    "珠海杀人案发生地点？"
]

context = '第十五届中国国际航空航天博览会（珠海航展）于2024年11月12日至17日在珠海国际航展中心举行。本届航展吸引了来自47个国家和地区的超过890家企业参展，展示了涵盖"陆、海、空、天、电、网"全领域的高精尖展品。其中，备受瞩目的中国空军"八一"飞行表演队和"红鹰"飞行表演队，以及俄罗斯"勇士"飞行表演队同台献技，为观众呈现了精彩的飞行表演。此外，本届航展还首次开辟了无人机、无人船演示区，展示了多款前沿科技产品。'

for question in questions:
    answer = get_answer(question, context)
    print(f"问题: {question}")
    print(f"答案: {answer}")
    print("-" * 50)