開源nf - cats問答分類模型，免費部署輕鬆識別非事實性問題類別

首頁

Nf Cats

由Lurunchik開發

基於RoBERTa的問答分類模型，用於識別非事實性問題的類別

文本分類

Transformers

英語開源協議:MIT #非事實問答分類 #RoBERTa微調 #多類別識別

下載量 245

發布時間 : 7/13/2022

模型概述

該模型使用NFQA數據集訓練，能夠將非事實性問題分類為8種類型，包括事實型、辯論型、證據型等。

模型特點

多類別分類

能夠識別8種不同類型的非事實性問題

基於RoBERTa優化

使用roberta-base-squad2作為基礎模型，經過SQuAD2.0數據集微調

學術研究支持

模型基於ACM SIGIR會議論文研究開發

模型能力

文本分類

問題類型識別

自然語言處理

使用案例

問答系統

智能客服

識別用戶提問的類型以便提供更精準的回答

提高客服系統的回答準確性和用戶體驗

教育應用

幫助學生理解不同類型問題的特點和回答方式

提升學習效率和問題解決能力

學術研究

問題分類研究

用於非事實性問題分類的相關研究

支持信息檢索領域的學術發展

🚀 英文非事實類問題分類模型（NFQA）

本項目聚焦於英文非事實類問題的分類，藉助預訓練模型，能精準識別不同類型的非事實類問題，為自然語言處理相關任務提供有力支持。

🚀 快速開始

模型信息

倉庫地址：https://github.com/Lurunchik/NF-CATS

該模型基於NFQA數據集進行訓練。基礎模型採用 roberta-base-squad2，這是一個基於RoBERTa的問答模型，使用SQuAD2.0數據集進行了微調。

模型使用 NOT-A-QUESTION、FACTOID、DEBATE、EVIDENCE-BASED、INSTRUCTION、REASON、EXPERIENCE、COMPARISON 這些標籤進行分類。

📦 安裝指南

文檔未提及具體安裝步驟，若有需求可參考倉庫代碼進行安裝。

💻 使用示例

基礎用法

加載NFQA模型及其分詞器：

from transformers import AutoTokenizer
from nfqa_model import RobertaNFQAClassification 

nfqa_model = RobertaNFQAClassification.from_pretrained("Lurunchik/nf-cats")
nfqa_tokenizer = AutoTokenizer.from_pretrained("deepset/roberta-base-squad2")

使用輔助函數進行預測：

def get_nfqa_category_prediction(text):
    output = nfqa_model(**nfqa_tokenizer(text, return_tensors="pt"))
    index = output.logits.argmax()
    return nfqa_model.config.id2label[int(index)]

get_nfqa_category_prediction('how to assign category?')
# 結果
#'INSTRUCTION'

📚 詳細文檔

模型演示

你可以通過 hugginface space 對模型進行測試。

📄 許可證

本項目採用MIT許可證。

📖 引用說明

如果你在工作中使用了 NFQA-cats 模型，請引用這篇論文

@misc{bolotova2022nfcats,
        author = {Bolotova, Valeriia and Blinov, Vladislav and Scholer, Falk and Croft, W. Bruce and Sanderson, Mark},
        title = {A Non-Factoid Question-Answering Taxonomy},
        year = {2022},
        isbn = {9781450387323},
        publisher = {Association for Computing Machinery},
        address = {New York, NY, USA},
        url = {https://doi.org/10.1145/3477495.3531926},
        doi = {10.1145/3477495.3531926},
        booktitle = {Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval},
        pages = {1196–1207},
        numpages = {12},
        keywords = {question taxonomy, non-factoid question-answering, editorial study, dataset analysis},
        location = {Madrid, Spain},
        series = {SIGIR '22}
}

祝你使用愉快！🤗