🚀 BETO(西班牙版BERT)+ 西班牙版SQuAD2.0 + 以 'bert-base-multilingual-cased' 为教师模型的蒸馏
本模型是在 SQuAD-es-v2.0 上进行微调,并针对问答任务对 BETO 进行蒸馏后的版本。
蒸馏操作让该模型相较于 bert-base-spanish-wwm-cased-finetuned-spa-squad2-es 更小、更快、成本更低且更轻量。
此模型在相同的数据集上进行微调,但在过程中采用了上述的蒸馏操作(并且多进行了一个训练轮次)。
蒸馏过程中的教师模型为 bert-base-multilingual-cased
,这与 distilbert-base-multilingual-cased
(即 DistilmBERT)所使用的教师模型相同(平均速度是 mBERT-base 的两倍)。
🚀 快速开始
本模型可用于问答任务,下面将为你介绍使用方法。
✨ 主要特性
- 轻量高效:通过蒸馏操作,模型变得更小、更快、成本更低且更轻量。
- 微调优化:在 SQuAD-es-v2.0 数据集上进行微调,更适合西班牙文的问答任务。
📦 安装指南
模型训练使用以下命令在 Tesla P100 GPU 和 25GB 内存的环境中进行:
!export SQUAD_DIR=/path/to/squad-v2_spanish \
&& python transformers/examples/distillation/run_squad_w_distillation.py \
--model_type bert \
--model_name_or_path dccuchile/bert-base-spanish-wwm-cased \
--teacher_type bert \
--teacher_name_or_path bert-base-multilingual-cased \
--do_train \
--do_eval \
--do_lower_case \
--train_file $SQUAD_DIR/train-v2.json \
--predict_file $SQUAD_DIR/dev-v2.json \
--per_gpu_train_batch_size 12 \
--learning_rate 3e-5 \
--num_train_epochs 5.0 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir /content/model_output \
--save_steps 5000 \
--threads 4 \
--version_2_with_negative
💻 使用示例
基础用法
使用 pipelines 快速调用模型:
from transformers import *
nlp = pipeline(
'question-answering',
model='mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
tokenizer=(
'mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es',
{"use_fast": False}
)
)
nlp(
{
'question': '¿Para qué lenguaje está trabajando?',
'context': 'Manuel Romero está colaborando activamente con huggingface/transformers ' +
'para traer el poder de las últimas técnicas de procesamiento de lenguaje natural al idioma español'
}
)
你可以在 Colab 中尝试使用此模型和 pipelines
:

1. 设置上下文并提出问题:

2. 运行预测:

想了解更多关于 Huggingface pipelines
的信息?请查看这个 Colab:

📚 详细文档
下游任务(问答)详情 - 数据集
SQuAD-es-v2.0
数据集 |
问答数量 |
SQuAD2.0 训练集 |
130 K |
SQuAD2.0-es-v2.0 |
111 K |
SQuAD2.0 验证集 |
12 K |
SQuAD-es-v2.0-small 验证集 |
69 K |
模型训练
模型在 Tesla P100 GPU 和 25GB 内存的环境中使用上述命令进行训练。
结果
待补充
📄 许可证
本项目采用 Apache-2.0 许可证。
由 Manuel Romero/@mrm8488 创建
于西班牙用心打造 ❤️