🚀 西班牙语长文档问答微调模型 - 基于SQAC数据集的西班牙长former模型 📖❓
本项目是基于 longformer-base-4096-spanish 模型,在 SQAC 数据集上进行微调,以用于西班牙语问答(Q&A)下游任务。该模型能够有效处理长文档问答,为西班牙语的问答场景提供了强大的支持。
📋 模型信息
属性 |
详情 |
模型类型 |
longformer-base-4096-spanish 是一个类BERT模型,它基于RoBERTa检查点(这里是 BERTIN),并在长文档(来自BETO的 all_wikis )上进行掩码语言模型(MLM)预训练。该模型支持长度达 4,096 的序列! |
训练数据 |
SQAC 数据集,包含6,247个上下文和18,817个问题及其答案,每个片段有1到5个答案。 |
📚 数据集详情
此数据集包含6,247个上下文和18,817个问题及其答案,每个片段有1到5个答案。上下文来源如下:
该数据集可用于构建抽取式问答系统。
📈 评估指标
待补充。
💻 使用示例
基础用法
from transformers import pipeline
qa_pipe = pipeline("question-answering", model='mrm8488/longformer-base-4096-spanish-finetuned-squad')
context = '''
Hace aproximadamente un año, Hugging Face, una startup de procesamiento de lenguaje natural con sede en Brooklyn, Nueva York, lanzó BigScience, un proyecto internacional con más de 900 investigadores que está diseñado para comprender mejor y mejorar la calidad de los grandes modelos de lenguaje natural. Los modelos de lenguaje grande (LLM), algoritmos que pueden reconocer, predecir y generar lenguaje sobre la base de conjuntos de datos basados en texto, han captado la atención de empresarios y entusiastas de la tecnología por igual. Pero el costoso hardware requerido para desarrollar LLM los ha mantenido en gran medida fuera del alcance de los investigadores sin los recursos de compañías como OpenAI y DeepMind detrás de ellos.
Inspirándose en organizaciones como la Organización Europea para la Investigación Nuclear (también conocida como CERN) y el Gran Colisionador de Hadrones, el objetivo de BigScience es crear LLM y grandes conjuntos de datos de texto que eventualmente serán de código abierto para la IA más amplia. comunidad. Los modelos serán entrenados en la supercomputadora Jean Zay ubicada cerca de París, Francia, que se encuentra entre las máquinas más poderosas del mundo.
'''
question = "¿Cuál es el objetivo de BigScience?"
qa_pipe({'context':context, 'question': question})
高级用法
from transformers import pipeline
qa_pipe = pipeline("question-answering", model='mrm8488/longformer-base-4096-spanish-finetuned-squad')
custom_context = "这里可以替换为你自己的长文档内容。"
custom_question = "这里可以替换为你自己的问题。"
qa_pipe({'context': custom_context, 'question': custom_question})
⚠️ 重要提示
评估指标部分目前待补充,请持续关注后续更新。
💡 使用建议
可以根据实际需求修改上下文和问题,以适应不同的问答场景。
本项目由 Manuel Romero/@mrm8488 创建,并得到了 Narrativa 的支持。
于西班牙用心打造 ♥