persian_xlm_roberta_large开源问答模型 - 专为波斯语问答需求打造

首页

Persian Xlm Roberta Large

由 pedramyazdipoor 开发

基于XLM-RoBERTA多语言预训练模型，在波斯语问答数据集PQuAD上微调的问答模型

问答系统

Transformers

#波斯语问答 #多语言预训练 #高精度QA

下载量 77

发布时间 : 9/18/2022

模型简介

该模型是针对波斯语问答任务优化的XLM-RoBERTA大型模型，在PQuAD数据集上微调，支持波斯语问答任务。

模型特点

多语言预训练基础

基于支持100种语言的XLM-RoBERTA大型模型

波斯语优化

在最大的波斯语问答数据集PQuAD上专门微调

高效训练

采用梯度累积等技术在有限GPU资源下完成训练

模型能力

波斯语问答

跨语言迁移学习

文本理解

使用案例

教育

波斯语学习辅助

帮助学习者通过问答方式理解波斯语文本

精确匹配率66.56%，F1分数87.31%

信息检索

波斯语文档问答系统

从波斯语文档中提取答案

🚀 用于问答任务的波斯语XLM - RoBERTA大模型

本模型基于XLM - RoBERTA，这是一个在2.5TB经过筛选的CommonCrawl数据（涵盖100种语言）上预训练的多语言语言模型。该模型由Conneau等人在论文大规模无监督跨语言表征学习中提出。

多语言的适用于多种语言问答的XLM - RoBERTa大模型在多个问答数据集上进行了微调，但不包括PQuAD，PQuAD是目前最大的波斯语问答数据集。本模型就是基于该多语言模型进一步微调得到的。

介绍PQuAD数据集的论文：arXiv:2202.06219

🚀 快速开始

本模型在PQuAD训练集上进行了微调，可直接使用。由于训练时间很长，为了方便有需要的人，我将这个模型发布了出来。

✨ 主要特性

基于强大的XLM - RoBERTA多语言预训练模型。
在PQuAD波斯语问答数据集上进行了微调，适用于波斯语问答任务。
在PQuAD测试集上的表现优于ParsBert模型。

📦 安装指南

此部分文档未提及具体安装步骤，跳过。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
path = 'pedramyazdipoor/persian_xlm_roberta_large'
tokenizer = AutoTokenizer.from_pretrained(path)
model = AutoModelForQuestionAnswering.from_pretrained(path)

高级用法

def generate_indexes(start_logits, end_logits, N, min_index):
  
  output_start = start_logits
  output_end = end_logits

  start_indexes = np.arange(len(start_logits))
  start_probs = output_start
  list_start = dict(zip(start_indexes, start_probs.tolist()))
  end_indexes = np.arange(len(end_logits))
  end_probs = output_end
  list_end = dict(zip(end_indexes, end_probs.tolist()))

  sorted_start_list = sorted(list_start.items(), key=lambda x: x[1], reverse=True) #Descending sort by probability
  sorted_end_list = sorted(list_end.items(), key=lambda x: x[1], reverse=True)

  final_start_idx, final_end_idx = [[] for l in range(2)]

  start_idx, end_idx, prob = 0, 0, (start_probs.tolist()[0] + end_probs.tolist()[0])
  for a in range(0,N):
    for b in range(0,N):
      if (sorted_start_list[a][1] + sorted_end_list[b][1]) > prob :
        if (sorted_start_list[a][0] <= sorted_end_list[b][0]) and (sorted_start_list[a][0] > min_index) :
          prob = sorted_start_list[a][1] + sorted_end_list[b][1]
          start_idx = sorted_start_list[a][0]
          end_idx = sorted_end_list[b][0]
  final_start_idx.append(start_idx)    
  final_end_idx.append(end_idx)      

  return final_start_idx[0], final_end_idx[0]

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model.eval().to(device)
text = 'سلام من پدرامم 26 سالمه'
question = 'چند سالمه؟'
encoding = tokenizer(question,text,add_special_tokens = True,
                     return_token_type_ids = True,
                     return_tensors = 'pt',
                     padding = True,
                     return_offsets_mapping = True,
                     truncation = 'only_first',
                     max_length = 32)
out = model(encoding['input_ids'].to(device),encoding['attention_mask'].to(device), encoding['token_type_ids'].to(device))
#we had to change some pieces of code to make it compatible with one answer generation at a time
#If you have unanswerable questions, use out['start_logits'][0][0:] and out['end_logits'][0][0:] because <s> (the 1st token) is for this situation and must be compared with other tokens.
#you can initialize min_index in generate_indexes() to put force on tokens being chosen to be within the context(startindex must be greater than seperator token).
answer_start_index, answer_end_index = generate_indexes(out['start_logits'][0][1:], out['end_logits'][0][1:], 5, 0)
print(tokenizer.tokenize(text + question))
print(tokenizer.tokenize(text + question)[answer_start_index : (answer_end_index + 1)])
>>> ['▁سلام', '▁من', '▁پدر', 'ام', 'م', '▁26', '▁سالم', 'ه', 'چند', '▁سالم', 'ه', '؟']
>>> ['▁26']

📚 详细文档

训练超参数

由于Google Colab中GPU内存的限制，我将批量大小设置为4。

batch_size = 4
n_epochs = 1
base_LM_model = "deepset/xlm-roberta-large-squad2"
max_seq_len = 256
learning_rate = 3e-5
evaluation_strategy = "epoch",
save_strategy = "epoch",
learning_rate = 3e-5,
warmup_ratio = 0.1,
gradient_accumulation_steps = 8,
weight_decay = 0.01,