bert-base-fa-qa开源波斯语问答模型 - 免费部署助力波斯语问答任务

首页

Bert Base Fa Qa

由 SajjadAyoubi 开发

基于BERT架构的波斯语问答模型，专为波斯语问答任务设计。

问答系统 #波斯语问答 #BERT架构 #无答案检测

下载量 115

发布时间 : 3/2/2022

模型简介

该模型是一个针对波斯语问答任务优化的BERT模型，能够从给定的文本中提取问题的答案。

模型特点

波斯语支持

专门针对波斯语优化的问答模型，能够准确理解并回答波斯语问题。

高效问答

能够快速从给定文本中提取问题的答案，支持批量处理。

灵活调用

支持通过管道模式和手动调用模式使用，满足不同需求。

模型能力

文本理解

问答提取

波斯语处理

使用案例

教育

波斯语学习辅助

帮助学生从波斯语文本中快速找到问题的答案。

提高学习效率，减少查找时间。

信息检索

波斯语文档问答

从波斯语文档中提取特定问题的答案。

快速获取所需信息，提升检索效率。

🚀 如何使用该模型

本项目提供了一个基于Transformer的问答模型，可用于回答波斯语相关问题。以下将详细介绍使用该模型的具体步骤。

📦 安装指南

本项目依赖于 transformers 和 sentencepiece 库，你可以使用 pip 进行安装：

pip install transformers sentencepiece

💻 使用示例

基础用法：使用Pipelines 🚀

如果你对Transformers不太熟悉，可以使用Pipelines来简化操作。需要注意的是，Pipelines对于问题不能给出“无答案”的结果。

from transformers import pipeline

model_name = "SajjadAyoubi/bert-base-fa-qa"
qa_pipeline = pipeline("question-answering", model=model_name, tokenizer=model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

for question in questions:
    print(qa_pipeline({"context": text, "question": question}))

>>> {'score': 0.4839823544025421, 'start': 8, 'end': 18, 'answer': 'سجاد ایوبی'}
>>> {'score': 0.3747948706150055, 'start': 24, 'end': 32, 'answer': '۲۰ سالمه'}
>>> {'score': 0.5945395827293396, 'start': 38, 'end': 55, 'answer': 'پردازش زبان طبیعی'}

高级用法：手动调用模型 🔥

使用手动调用的方式，不仅可以实现“无答案”的输出，还能获得更好的性能。

PyTorch实现

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from src.utils import AnswerPredictor

model_name = "SajjadAyoubi/bert-base-fa-qa"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

# 这个类来自 src/utils.py，你可以查看更多相关信息
predictor = AnswerPredictor(model, tokenizer, device="cpu", n_best=10)
preds = predictor(questions, [text] * 3, batch_size=3)

for k, v in preds.items():
    print(v)

运行上述代码会产生如下输出：

100%|██████████| 1/1 [00:00<00:00,  3.56it/s]
{'score': 8.040637016296387, 'text': 'سجاد ایوبی'}
{'score': 9.901972770690918, 'text': '۲۰'}
{'score': 12.117212295532227, 'text': 'پردازش زبان طبیعی'}

TensorFlow 2.X实现

from transformers import AutoTokenizer, TFAutoModelForQuestionAnswering
from src.utils import TFAnswerPredictor

model_name = "SajjadAyoubi/bert-base-fa-qa"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForQuestionAnswering.from_pretrained(model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

# 这个类来自 src/utils.py，你可以查看更多相关信息
predictor = TFAnswerPredictor(model, tokenizer, n_best=10)
preds = predictor(questions, [text] * 3, batch_size=3)

for k, v in preds.items():
    print(v)

运行上述代码会产生如下输出：

100%|██████████| 1/1 [00:00<00:00,  3.56it/s]
{'score': 8.040637016296387, 'text': 'سجاد ایوبی'}
{'score': 9.901972770690918, 'text': '۲۰'}
{'score': 12.117212295532227, 'text': 'پردازش زبان طبیعی'}

你还可以通过 Google Colab上的HowToUse iPython Notebook 查看完整的演示。