🚀 XLM - RoBERTa (基础版) 语言检测模型(现代与中世纪语言)
本模型是基于 monasterium.net 数据集对 xlm - roberta - base 进行微调后的版本,可用于检测现代和中世纪的多种语言,为语言识别任务提供了强大的支持。
🚀 快速开始
安装依赖
!pip install transformers --quiet
导入库并定义管道
import torch
from transformers import pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")
使用管道进行语言检测
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")
✨ 主要特性
- 多语言支持:支持 41 种现代和中世纪语言的检测,涵盖了欧洲、亚洲等多种语言体系。
- 高精度:在测试集上的平均准确率达到 99.59%,与平均宏/加权 F1 分数相匹配。
- 微调优化:基于 Monasterium 和 Wikipedia 数据集进行微调,提升了模型在特定任务上的性能。
📦 安装指南
使用以下命令安装所需的 transformers
库:
!pip install transformers --quiet
💻 使用示例
基础用法
!pip install transformers --quiet
import torch
from transformers import pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")
📚 详细文档
支持的语言
现代语言
保加利亚语(bg)、克罗地亚语(hr)、捷克语(cs)、丹麦语(da)、荷兰语(nl)、英语(en)、爱沙尼亚语(et)、芬兰语(fi)、法语(fr)、德语(de)、希腊语(el)、匈牙利语(hu)、爱尔兰语(ga)、意大利语(it)、拉脱维亚语(lv)、立陶宛语(lt)、马耳他语(mt)、波兰语(pl)、葡萄牙语(pt)、罗马尼亚语(ro)、斯洛伐克语(sk)、斯洛文尼亚语(sl)、西班牙语(es)、瑞典语(sv)、俄语(ru)、土耳其语(tr)、巴斯克语(eu)、加泰罗尼亚语(ca)、阿尔巴尼亚语(sq)、塞尔维亚语(se)、乌克兰语(uk)、挪威语(no)、阿拉伯语(ar)、中文(zh)、希伯来语(he)
中世纪语言
中古高地德语(mhd)、拉丁语(la)、中古低地德语(gml)、古法语(fro)、古教会斯拉夫语(chu)、早期新高地德语(fnhd)、古希腊和中世纪希腊语(grc)
训练和评估数据
模型使用 Monasterium 和 Wikipedia 数据集进行微调,这些数据集包含 41 种语言的文本序列。训练集包含 80k 个样本,验证集和测试集各包含 16k 个样本。
训练过程
微调通过 Trainer API
和 WeightedLossTrainer
完成。
训练超参数
- 学习率(learning_rate):2e - 05
- 训练批次大小(train_batch_size):20
- 评估批次大小(eval_batch_size):20
- 随机种子(seed):42
- 优化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 训练轮数(num_epochs):3
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
训练损失(Training Loss) |
验证损失(Validation Loss) |
F1 分数 |
0.000300 |
0.048985 |
0.991585 |
0.000100 |
0.033340 |
0.994663 |
0.000000 |
0.032938 |
0.995979 |
🔧 技术细节
本模型基于 XLM - RoBERTa 变压器模型,在其顶部添加了一个分类头。如需了解更多信息,请参考 [XLM - RoBERTa(基础大小模型)](https://huggingface.co/xlm - roberta - base) 卡片或论文 Unsupervised Cross - lingual Representation Learning at Scale by Conneau et al.。
📄 许可证
本模型采用 MIT 许可证。
引用
使用此模型时,请引用以下论文:
@misc{ercdidip2022,
title={langdetect (Revision 0215f72)},
author={Kovács, Tamás, Atzenhofer - Baumgartner, Florian, Aoun, Sandy, Nicolaou, Anguelos, Luger, Daniel, Decker, Franziska, Lamminger, Florian and Vogeler, Georg},
year = { 2022 },
url = { https://huggingface.co/ERCDiDip/40_langdetect_v01 },
doi = { 10.57967/hf/0135 },
publisher = { Hugging Face }
}
本模型是由欧洲研究委员会资助的 From Digital to Distant Diplomatics (DiDip) ERC 项目 的一部分。