🚀 西班牙語長文檔問答微調模型 - 基於SQAC數據集的西班牙長former模型 📖❓
本項目是基於 longformer-base-4096-spanish 模型,在 SQAC 數據集上進行微調,以用於西班牙語問答(Q&A)下游任務。該模型能夠有效處理長文檔問答,為西班牙語的問答場景提供了強大的支持。
📋 模型信息
屬性 |
詳情 |
模型類型 |
longformer-base-4096-spanish 是一個類BERT模型,它基於RoBERTa檢查點(這裡是 BERTIN),並在長文檔(來自BETO的 all_wikis )上進行掩碼語言模型(MLM)預訓練。該模型支持長度達 4,096 的序列! |
訓練數據 |
SQAC 數據集,包含6,247個上下文和18,817個問題及其答案,每個片段有1到5個答案。 |
📚 數據集詳情
此數據集包含6,247個上下文和18,817個問題及其答案,每個片段有1到5個答案。上下文來源如下:
該數據集可用於構建抽取式問答系統。
📈 評估指標
待補充。
💻 使用示例
基礎用法
from transformers import pipeline
qa_pipe = pipeline("question-answering", model='mrm8488/longformer-base-4096-spanish-finetuned-squad')
context = '''
Hace aproximadamente un año, Hugging Face, una startup de procesamiento de lenguaje natural con sede en Brooklyn, Nueva York, lanzó BigScience, un proyecto internacional con más de 900 investigadores que está diseñado para comprender mejor y mejorar la calidad de los grandes modelos de lenguaje natural. Los modelos de lenguaje grande (LLM), algoritmos que pueden reconocer, predecir y generar lenguaje sobre la base de conjuntos de datos basados en texto, han captado la atención de empresarios y entusiastas de la tecnología por igual. Pero el costoso hardware requerido para desarrollar LLM los ha mantenido en gran medida fuera del alcance de los investigadores sin los recursos de compañías como OpenAI y DeepMind detrás de ellos.
Inspirándose en organizaciones como la Organización Europea para la Investigación Nuclear (también conocida como CERN) y el Gran Colisionador de Hadrones, el objetivo de BigScience es crear LLM y grandes conjuntos de datos de texto que eventualmente serán de código abierto para la IA más amplia. comunidad. Los modelos serán entrenados en la supercomputadora Jean Zay ubicada cerca de París, Francia, que se encuentra entre las máquinas más poderosas del mundo.
'''
question = "¿Cuál es el objetivo de BigScience?"
qa_pipe({'context':context, 'question': question})
高級用法
from transformers import pipeline
qa_pipe = pipeline("question-answering", model='mrm8488/longformer-base-4096-spanish-finetuned-squad')
custom_context = "這裡可以替換為你自己的長文檔內容。"
custom_question = "這裡可以替換為你自己的問題。"
qa_pipe({'context': custom_context, 'question': custom_question})
⚠️ 重要提示
評估指標部分目前待補充,請持續關注後續更新。
💡 使用建議
可以根據實際需求修改上下文和問題,以適應不同的問答場景。
本項目由 Manuel Romero/@mrm8488 創建,並得到了 Narrativa 的支持。
於西班牙用心打造 ♥