persian_xlm_roberta_large開源問答模型 - 專為波斯語問答需求打造

首頁

Persian Xlm Roberta Large

由pedramyazdipoor開發

基於XLM-RoBERTA多語言預訓練模型，在波斯語問答數據集PQuAD上微調的問答模型

問答系統

Transformers

#波斯語問答 #多語言預訓練 #高精度QA

下載量 77

發布時間 : 9/18/2022

模型概述

該模型是針對波斯語問答任務優化的XLM-RoBERTA大型模型，在PQuAD數據集上微調，支持波斯語問答任務。

模型特點

多語言預訓練基礎

基於支持100種語言的XLM-RoBERTA大型模型

波斯語優化

在最大的波斯語問答數據集PQuAD上專門微調

高效訓練

採用梯度累積等技術在有限GPU資源下完成訓練

模型能力

波斯語問答

跨語言遷移學習

文本理解

使用案例

教育

波斯語學習輔助

幫助學習者通過問答方式理解波斯語文本

精確匹配率66.56%，F1分數87.31%

信息檢索

波斯語文檔問答系統

從波斯語文檔中提取答案

🚀 用於問答任務的波斯語XLM - RoBERTA大模型

本模型基於XLM - RoBERTA，這是一個在2.5TB經過篩選的CommonCrawl數據（涵蓋100種語言）上預訓練的多語言語言模型。該模型由Conneau等人在論文大規模無監督跨語言表徵學習中提出。

多語言的適用於多種語言問答的XLM - RoBERTa大模型在多個問答數據集上進行了微調，但不包括PQuAD，PQuAD是目前最大的波斯語問答數據集。本模型就是基於該多語言模型進一步微調得到的。

介紹PQuAD數據集的論文：arXiv:2202.06219

🚀 快速開始

本模型在PQuAD訓練集上進行了微調，可直接使用。由於訓練時間很長，為了方便有需要的人，我將這個模型發佈了出來。

✨ 主要特性

基於強大的XLM - RoBERTA多語言預訓練模型。
在PQuAD波斯語問答數據集上進行了微調，適用於波斯語問答任務。
在PQuAD測試集上的表現優於ParsBert模型。

📦 安裝指南

此部分文檔未提及具體安裝步驟，跳過。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
path = 'pedramyazdipoor/persian_xlm_roberta_large'
tokenizer = AutoTokenizer.from_pretrained(path)
model = AutoModelForQuestionAnswering.from_pretrained(path)

高級用法

def generate_indexes(start_logits, end_logits, N, min_index):
  
  output_start = start_logits
  output_end = end_logits

  start_indexes = np.arange(len(start_logits))
  start_probs = output_start
  list_start = dict(zip(start_indexes, start_probs.tolist()))
  end_indexes = np.arange(len(end_logits))
  end_probs = output_end
  list_end = dict(zip(end_indexes, end_probs.tolist()))

  sorted_start_list = sorted(list_start.items(), key=lambda x: x[1], reverse=True) #Descending sort by probability
  sorted_end_list = sorted(list_end.items(), key=lambda x: x[1], reverse=True)

  final_start_idx, final_end_idx = [[] for l in range(2)]

  start_idx, end_idx, prob = 0, 0, (start_probs.tolist()[0] + end_probs.tolist()[0])
  for a in range(0,N):
    for b in range(0,N):
      if (sorted_start_list[a][1] + sorted_end_list[b][1]) > prob :
        if (sorted_start_list[a][0] <= sorted_end_list[b][0]) and (sorted_start_list[a][0] > min_index) :
          prob = sorted_start_list[a][1] + sorted_end_list[b][1]
          start_idx = sorted_start_list[a][0]
          end_idx = sorted_end_list[b][0]
  final_start_idx.append(start_idx)    
  final_end_idx.append(end_idx)      

  return final_start_idx[0], final_end_idx[0]

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model.eval().to(device)
text = 'سلام من پدرامم 26 سالمه'
question = 'چند سالمه؟'
encoding = tokenizer(question,text,add_special_tokens = True,
                     return_token_type_ids = True,
                     return_tensors = 'pt',
                     padding = True,
                     return_offsets_mapping = True,
                     truncation = 'only_first',
                     max_length = 32)
out = model(encoding['input_ids'].to(device),encoding['attention_mask'].to(device), encoding['token_type_ids'].to(device))
#we had to change some pieces of code to make it compatible with one answer generation at a time
#If you have unanswerable questions, use out['start_logits'][0][0:] and out['end_logits'][0][0:] because <s> (the 1st token) is for this situation and must be compared with other tokens.
#you can initialize min_index in generate_indexes() to put force on tokens being chosen to be within the context(startindex must be greater than seperator token).
answer_start_index, answer_end_index = generate_indexes(out['start_logits'][0][1:], out['end_logits'][0][1:], 5, 0)
print(tokenizer.tokenize(text + question))
print(tokenizer.tokenize(text + question)[answer_start_index : (answer_end_index + 1)])
>>> ['▁سلام', '▁من', '▁پدر', 'ام', 'م', '▁26', '▁سالم', 'ه', 'چند', '▁سالم', 'ه', '؟']
>>> ['▁26']

📚 詳細文檔

訓練超參數

由於Google Colab中GPU內存的限制，我將批量大小設置為4。

batch_size = 4
n_epochs = 1
base_LM_model = "deepset/xlm-roberta-large-squad2"
max_seq_len = 256
learning_rate = 3e-5
evaluation_strategy = "epoch",
save_strategy = "epoch",
learning_rate = 3e-5,
warmup_ratio = 0.1,
gradient_accumulation_steps = 8,
weight_decay = 0.01,