t5-base-distractor-generation開源模型 - 免費生成選擇題迷惑性干擾選項

首頁

T5 Base Distractor Generation

由fares7elsadek開發

這是一個基於T5-base微調的文本生成模型，專門用於為選擇題生成具有迷惑性的干擾選項。

文本生成

Transformers

英語開源協議:MIT #選擇題干擾項生成 #教育文本生成 #T5微調

下載量 36

發布時間 : 2/16/2025

模型概述

該模型通過輸入問題、上下文和正確答案，能夠生成三個高質量的干擾選項，適用於教育領域的自動題目生成場景。

模型特點

自定義分隔符處理

使用特殊分隔符標記來區分輸入和輸出序列的不同部分，提高模型理解能力

多幹擾項生成

單次推理即可生成三個連貫且具有迷惑性的干擾選項

教育場景優化

專門針對選擇題干擾項生成任務進行微調，生成質量高

模型能力

文本生成

教育題目生成

選擇題干擾項生成

使用案例

教育科技

自動題目生成系統

用於在線學習平臺自動生成選擇題干擾項

生成的干擾項BLEU-1分數達到29.59

教師輔助工具

幫助教師快速創建高質量的選擇題

🚀 基於T5-base的干擾項生成模型

本倉庫包含一個經過微調的 T5-base 模型，用於生成選擇題的干擾項。該模型利用T5的文本到文本框架和自定義分隔符，根據給定的問題、上下文和正確答案，生成三個合理的干擾項。

🚀 快速開始

你可以使用Hugging Face的Transformers管道來使用這個模型，示例代碼如下：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "fares7elsadek/t5-base-distractor-generation"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

SEP_TOKEN = "<sep>" 

def generate_distractors(question, context, correct, max_length=64):
    input_text = f"{question} {SEP_TOKEN} {context} {SEP_TOKEN} {correct}"
    inputs = tokenizer([input_text], return_tensors="pt", truncation=True, padding=True)
    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=max_length
    )
    
    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
    distractors = [d.strip() for d in decoded.split(SEP_TOKEN)]
    return distractors

# 示例用法:
question = "What is the capital of France?"
context = "France is a country in Western Europe known for its rich history and cultural heritage."
correct = "Paris"
print(generate_distractors(question, context, correct))

✨ 主要特性

利用T5的文本到文本框架和自定義分隔符，可根據給定的問題、上下文和正確答案，生成三個合理的干擾項。
採用單輸入序列格式，包含問題、上下文和正確答案，通過自定義分隔符分隔，便於模型處理。
能夠在一次推理中生成三個干擾項，提高了生成效率。

📦 安裝指南

暫未提及安裝相關內容，可參考Hugging Face的Transformers庫的安裝方式。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "fares7elsadek/t5-base-distractor-generation"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

SEP_TOKEN = "<sep>" 

def generate_distractors(question, context, correct, max_length=64):
    input_text = f"{question} {SEP_TOKEN} {context} {SEP_TOKEN} {correct}"
    inputs = tokenizer([input_text], return_tensors="pt", truncation=True, padding=True)
    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=max_length
    )
    
    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
    distractors = [d.strip() for d in decoded.split(SEP_TOKEN)]
    return distractors

# 示例用法:
question = "What is the capital of France?"
context = "France is a country in Western Europe known for its rich history and cultural heritage."
correct = "Paris"
print(generate_distractors(question, context, correct))

📚 詳細文檔

模型概述

該模型基於 PyTorch Lightning 構建，對預訓練的 T5-base 模型進行微調，以生成干擾項。模型接受一個包含問題、上下文和正確答案的單輸入序列（通過自定義分隔符分隔），並生成一個包含三個干擾項的目標序列。這種方法在選擇題生成任務中特別有用。

數據處理

輸入構建

每個輸入樣本是一個字符串，格式如下：

question {SEP_TOKEN} context {SEP_TOKEN} correct

question：問題文本。
context：上下文段落。
correct：正確答案。
SEP_TOKEN：添加到分詞器中的特殊標記，用於分隔不同字段。

目標構建

每個目標樣本的構建方式如下：

incorrect1 {SEP_TOKEN} incorrect2 {SEP_TOKEN} incorrect3

這種格式允許模型一次性生成三個干擾項。

訓練細節

框架：PyTorch Lightning
基礎模型：T5-base
優化器：使用線性調度的Adam優化器（帶有預熱調度器）
批量大小：32
訓練輪數：5
學習率：2e-5
分詞處理：
- 輸入：最大長度為512個標記
- 目標：最大長度為64個標記
特殊標記：自定義的 SEP_TOKEN 被添加到分詞器中，用於分隔輸入和目標序列的不同部分。

評估指標

模型使用BLEU分數對每個生成的干擾項進行評估。以下是在測試集上獲得的BLEU分數：

干擾項	BLEU-1	BLEU-2	BLEU-3	BLEU-4
干擾項1	29.59	21.55	17.86	15.75
干擾項2	25.21	16.81	13.00	10.78
干擾項3	23.99	15.78	12.35	10.52
這些分數表明，與參考干擾項相比，該模型能夠生成具有較高n-gram重疊率的干擾項。