开源nf - cats问答分类模型，免费部署轻松识别非事实性问题类别

首页

Nf Cats

由 Lurunchik 开发

基于RoBERTa的问答分类模型，用于识别非事实性问题的类别

文本分类

Transformers

英语开源协议:MIT #非事实问答分类 #RoBERTa微调 #多类别识别

下载量 245

发布时间 : 7/13/2022

模型简介

该模型使用NFQA数据集训练，能够将非事实性问题分类为8种类型，包括事实型、辩论型、证据型等。

模型特点

多类别分类

能够识别8种不同类型的非事实性问题

基于RoBERTa优化

使用roberta-base-squad2作为基础模型，经过SQuAD2.0数据集微调

学术研究支持

模型基于ACM SIGIR会议论文研究开发

模型能力

文本分类

问题类型识别

自然语言处理

使用案例

问答系统

智能客服

识别用户提问的类型以便提供更精准的回答

提高客服系统的回答准确性和用户体验

教育应用

帮助学生理解不同类型问题的特点和回答方式

提升学习效率和问题解决能力

学术研究

问题分类研究

用于非事实性问题分类的相关研究

支持信息检索领域的学术发展

🚀 英文非事实类问题分类模型（NFQA）

本项目聚焦于英文非事实类问题的分类，借助预训练模型，能精准识别不同类型的非事实类问题，为自然语言处理相关任务提供有力支持。

🚀 快速开始

模型信息

仓库地址：https://github.com/Lurunchik/NF-CATS

该模型基于NFQA数据集进行训练。基础模型采用 roberta-base-squad2，这是一个基于RoBERTa的问答模型，使用SQuAD2.0数据集进行了微调。

模型使用 NOT-A-QUESTION、FACTOID、DEBATE、EVIDENCE-BASED、INSTRUCTION、REASON、EXPERIENCE、COMPARISON 这些标签进行分类。

📦 安装指南

文档未提及具体安装步骤，若有需求可参考仓库代码进行安装。

💻 使用示例

基础用法

加载NFQA模型及其分词器：

from transformers import AutoTokenizer
from nfqa_model import RobertaNFQAClassification 

nfqa_model = RobertaNFQAClassification.from_pretrained("Lurunchik/nf-cats")
nfqa_tokenizer = AutoTokenizer.from_pretrained("deepset/roberta-base-squad2")

使用辅助函数进行预测：

def get_nfqa_category_prediction(text):
    output = nfqa_model(**nfqa_tokenizer(text, return_tensors="pt"))
    index = output.logits.argmax()
    return nfqa_model.config.id2label[int(index)]

get_nfqa_category_prediction('how to assign category?')
# 结果
#'INSTRUCTION'

📚 详细文档

模型演示

你可以通过 hugginface space 对模型进行测试。

📄 许可证

本项目采用MIT许可证。

📖 引用说明

如果你在工作中使用了 NFQA-cats 模型，请引用这篇论文

@misc{bolotova2022nfcats,
        author = {Bolotova, Valeriia and Blinov, Vladislav and Scholer, Falk and Croft, W. Bruce and Sanderson, Mark},
        title = {A Non-Factoid Question-Answering Taxonomy},
        year = {2022},
        isbn = {9781450387323},
        publisher = {Association for Computing Machinery},
        address = {New York, NY, USA},
        url = {https://doi.org/10.1145/3477495.3531926},
        doi = {10.1145/3477495.3531926},
        booktitle = {Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval},
        pages = {1196–1207},
        numpages = {12},
        keywords = {question taxonomy, non-factoid question-answering, editorial study, dataset analysis},
        location = {Madrid, Spain},
        series = {SIGIR '22}
}

祝你使用愉快！🤗