mt5-small-thai-qa-qg開源模型 - 支持從泰語文本中生成相關問題與答案

首頁

Mt5 Small Thai Qa Qg

由Pollawat開發

這是一個基於泰語文本生成問題的模型，使用NSC2018語料庫進行微調訓練，能夠從給定文本中生成相關問題及答案。

問答系統

Transformers

開源協議:MIT #泰語問答生成 #多語言T5微調 #教育內容自動化

下載量 25

發布時間 : 3/2/2022

模型概述

該模型基於谷歌mT5多語言模型，專門針對泰語文本的問題生成任務進行了優化，適用於問答系統開發和教育應用。

模型特點

泰語問題生成

專門針對泰語文本優化，能夠從泰語內容中生成自然流暢的問題

多語言基礎

基於谷歌mT5多語言模型，具備良好的多語言處理能力

端到端問答生成

能夠同時生成問題和對應的答案，形成完整的問答對

模型能力

泰語文本理解

問題生成

答案提取

問答對生成

使用案例

教育技術

自動試題生成

從教材或學習材料中自動生成測試題目

可生成準確反映文本內容的問題及答案

問答系統

知識庫問答對生成

為知識庫內容自動生成常見問答對

提高知識庫的覆蓋面和可用性

🚀 泰文文本問題生成模型

本項目是一個用於從泰文文本中生成問題的模型，它基於Google的mT5模型，並在NSC2018語料庫上進行了微調，能夠有效助力泰文文本的問答相關任務。

🚀 快速開始

環境準備

確保你已經安裝了transformers庫，若未安裝，可以使用以下命令進行安裝：

pip install transformers

代碼示例

from transformers import MT5Tokenizer, MT5ForConditionalGeneration
  
tokenizer = MT5Tokenizer.from_pretrained("Pollawat/mt5-small-thai-qa-qg")
model = MT5ForConditionalGeneration.from_pretrained("Pollawat/mt5-small-thai-qa-qg")

text = "กรุงเทพมหานคร เป็นเมืองหลวงและนครที่มีประชากรมากที่สุดของประเทศไทย เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ เป็นเมืองที่มีชื่อยาวที่สุดในโลก ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 5 ล้านคน"

input_ids = tokenizer.encode(text, return_tensors='pt')

beam_output = model.generate(
    input_ids, 
    max_length=50,
    num_beams=5,
    early_stopping=True
)

print(tokenizer.decode(beam_output[0]))
>> <pad> <extra_id_0> แม่น้ําเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งใด <ANS> ฝั่งพระนครและฝั่งธนบุรี</s>

print(tokenizer.decode(beam_output[0], skip_special_tokens=True))
>> <extra_id_0> แม่น้ําเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งใด ฝั่งพระนครและฝั่งธนบุรี

✨ 主要特性

多語言支持：基於Google的mT5模型，具備一定的多語言處理能力。
特定領域優化：針對泰文文本的問答生成任務進行了微調，在泰文問答場景中表現更優。

📦 安裝指南

使用以下命令安裝所需的依賴庫：

pip install transformers

💻 使用示例

基礎用法

from transformers import MT5Tokenizer, MT5ForConditionalGeneration
  
tokenizer = MT5Tokenizer.from_pretrained("Pollawat/mt5-small-thai-qa-qg")
model = MT5ForConditionalGeneration.from_pretrained("Pollawat/mt5-small-thai-qa-qg")

text = "กรุงเทพมหานคร เป็นเมืองหลวงและนครที่มีประชากรมากที่สุดของประเทศไทย เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ เป็นเมืองที่มีชื่อยาวที่สุดในโลก ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 5 ล้านคน"

input_ids = tokenizer.encode(text, return_tensors='pt')

beam_output = model.generate(
    input_ids, 
    max_length=50,
    num_beams=5,
    early_stopping=True
)

print(tokenizer.decode(beam_output[0]))
print(tokenizer.decode(beam_output[0], skip_special_tokens=True))

高級用法

# 可以根據實際需求調整模型生成的參數，如max_length、num_beams等，以獲得不同的生成效果
from transformers import MT5Tokenizer, MT5ForConditionalGeneration
  
tokenizer = MT5Tokenizer.from_pretrained("Pollawat/mt5-small-thai-qa-qg")
model = MT5ForConditionalGeneration.from_pretrained("Pollawat/mt5-small-thai-qa-qg")

text = "กรุงเทพมหานคร เป็นเมืองหลวงและนครที่มีประชากรมากที่สุดของประเทศไทย เป็นศูนย์กลางการปกครอง การศึกษา การคมนาคมขนส่ง การเงินการธนาคาร การพาณิชย์ การสื่อสาร และความเจริญของประเทศ เป็นเมืองที่มีชื่อยาวที่สุดในโลก ตั้งอยู่บนสามเหลี่ยมปากแม่น้ำเจ้าพระยา มีแม่น้ำเจ้าพระยาไหลผ่านและแบ่งเมืองออกเป็น 2 ฝั่ง คือ ฝั่งพระนครและฝั่งธนบุรี กรุงเทพมหานครมีพื้นที่ทั้งหมด 1,568.737 ตร.กม. มีประชากรตามทะเบียนราษฎรกว่า 5 ล้านคน"

input_ids = tokenizer.encode(text, return_tensors='pt')

# 調整參數示例
beam_output = model.generate(
    input_ids, 
    max_length=100,
    num_beams=10,
    early_stopping=True
)

print(tokenizer.decode(beam_output[0]))
print(tokenizer.decode(beam_output[0], skip_special_tokens=True))