bert-base-fa-qa開源波斯語問答模型 - 免費部署助力波斯語問答任務

首頁

Bert Base Fa Qa

由SajjadAyoubi開發

基於BERT架構的波斯語問答模型，專為波斯語問答任務設計。

問答系統 #波斯語問答 #BERT架構 #無答案檢測

下載量 115

發布時間 : 3/2/2022

模型概述

該模型是一個針對波斯語問答任務優化的BERT模型，能夠從給定的文本中提取問題的答案。

模型特點

波斯語支持

專門針對波斯語優化的問答模型，能夠準確理解並回答波斯語問題。

高效問答

能夠快速從給定文本中提取問題的答案，支持批量處理。

靈活調用

支持通過管道模式和手動調用模式使用，滿足不同需求。

模型能力

文本理解

問答提取

波斯語處理

使用案例

教育

波斯語學習輔助

幫助學生從波斯語文本中快速找到問題的答案。

提高學習效率，減少查找時間。

信息檢索

波斯語文檔問答

從波斯語文檔中提取特定問題的答案。

快速獲取所需信息，提升檢索效率。

🚀 如何使用該模型

本項目提供了一個基於Transformer的問答模型，可用於回答波斯語相關問題。以下將詳細介紹使用該模型的具體步驟。

📦 安裝指南

本項目依賴於 transformers 和 sentencepiece 庫，你可以使用 pip 進行安裝：

pip install transformers sentencepiece

💻 使用示例

基礎用法：使用Pipelines 🚀

如果你對Transformers不太熟悉，可以使用Pipelines來簡化操作。需要注意的是，Pipelines對於問題不能給出“無答案”的結果。

from transformers import pipeline

model_name = "SajjadAyoubi/bert-base-fa-qa"
qa_pipeline = pipeline("question-answering", model=model_name, tokenizer=model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

for question in questions:
    print(qa_pipeline({"context": text, "question": question}))

>>> {'score': 0.4839823544025421, 'start': 8, 'end': 18, 'answer': 'سجاد ایوبی'}
>>> {'score': 0.3747948706150055, 'start': 24, 'end': 32, 'answer': '۲۰ سالمه'}
>>> {'score': 0.5945395827293396, 'start': 38, 'end': 55, 'answer': 'پردازش زبان طبیعی'}

高級用法：手動調用模型 🔥

使用手動調用的方式，不僅可以實現“無答案”的輸出，還能獲得更好的性能。

PyTorch實現

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from src.utils import AnswerPredictor

model_name = "SajjadAyoubi/bert-base-fa-qa"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

# 這個類來自 src/utils.py，你可以查看更多相關信息
predictor = AnswerPredictor(model, tokenizer, device="cpu", n_best=10)
preds = predictor(questions, [text] * 3, batch_size=3)

for k, v in preds.items():
    print(v)

運行上述代碼會產生如下輸出：

100%|██████████| 1/1 [00:00<00:00,  3.56it/s]
{'score': 8.040637016296387, 'text': 'سجاد ایوبی'}
{'score': 9.901972770690918, 'text': '۲۰'}
{'score': 12.117212295532227, 'text': 'پردازش زبان طبیعی'}

TensorFlow 2.X實現

from transformers import AutoTokenizer, TFAutoModelForQuestionAnswering
from src.utils import TFAnswerPredictor

model_name = "SajjadAyoubi/bert-base-fa-qa"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForQuestionAnswering.from_pretrained(model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

# 這個類來自 src/utils.py，你可以查看更多相關信息
predictor = TFAnswerPredictor(model, tokenizer, n_best=10)
preds = predictor(questions, [text] * 3, batch_size=3)

for k, v in preds.items():
    print(v)

運行上述代碼會產生如下輸出：

100%|██████████| 1/1 [00:00<00:00,  3.56it/s]
{'score': 8.040637016296387, 'text': 'سجاد ایوبی'}
{'score': 9.901972770690918, 'text': '۲۰'}
{'score': 12.117212295532227, 'text': 'پردازش زبان طبیعی'}

你還可以通過 Google Colab上的HowToUse iPython Notebook 查看完整的演示。