🚀 XLM - RoBERTa (基礎版) 語言檢測模型(現代與中世紀語言)
本模型是基於 monasterium.net 數據集對 xlm - roberta - base 進行微調後的版本,可用於檢測現代和中世紀的多種語言,為語言識別任務提供了強大的支持。
🚀 快速開始
安裝依賴
!pip install transformers --quiet
導入庫並定義管道
import torch
from transformers import pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")
使用管道進行語言檢測
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")
✨ 主要特性
- 多語言支持:支持 41 種現代和中世紀語言的檢測,涵蓋了歐洲、亞洲等多種語言體系。
- 高精度:在測試集上的平均準確率達到 99.59%,與平均宏/加權 F1 分數相匹配。
- 微調優化:基於 Monasterium 和 Wikipedia 數據集進行微調,提升了模型在特定任務上的性能。
📦 安裝指南
使用以下命令安裝所需的 transformers
庫:
!pip install transformers --quiet
💻 使用示例
基礎用法
!pip install transformers --quiet
import torch
from transformers import pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")
📚 詳細文檔
支持的語言
現代語言
保加利亞語(bg)、克羅地亞語(hr)、捷克語(cs)、丹麥語(da)、荷蘭語(nl)、英語(en)、愛沙尼亞語(et)、芬蘭語(fi)、法語(fr)、德語(de)、希臘語(el)、匈牙利語(hu)、愛爾蘭語(ga)、意大利語(it)、拉脫維亞語(lv)、立陶宛語(lt)、馬耳他語(mt)、波蘭語(pl)、葡萄牙語(pt)、羅馬尼亞語(ro)、斯洛伐克語(sk)、斯洛文尼亞語(sl)、西班牙語(es)、瑞典語(sv)、俄語(ru)、土耳其語(tr)、巴斯克語(eu)、加泰羅尼亞語(ca)、阿爾巴尼亞語(sq)、塞爾維亞語(se)、烏克蘭語(uk)、挪威語(no)、阿拉伯語(ar)、中文(zh)、希伯來語(he)
中世紀語言
中古高地德語(mhd)、拉丁語(la)、中古低地德語(gml)、古法語(fro)、古教會斯拉夫語(chu)、早期新高地德語(fnhd)、古希臘和中世紀希臘語(grc)
訓練和評估數據
模型使用 Monasterium 和 Wikipedia 數據集進行微調,這些數據集包含 41 種語言的文本序列。訓練集包含 80k 個樣本,驗證集和測試集各包含 16k 個樣本。
訓練過程
微調通過 Trainer API
和 WeightedLossTrainer
完成。
訓練超參數
- 學習率(learning_rate):2e - 05
- 訓練批次大小(train_batch_size):20
- 評估批次大小(eval_batch_size):20
- 隨機種子(seed):42
- 優化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):3
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失(Training Loss) |
驗證損失(Validation Loss) |
F1 分數 |
0.000300 |
0.048985 |
0.991585 |
0.000100 |
0.033340 |
0.994663 |
0.000000 |
0.032938 |
0.995979 |
🔧 技術細節
本模型基於 XLM - RoBERTa 變壓器模型,在其頂部添加了一個分類頭。如需瞭解更多信息,請參考 [XLM - RoBERTa(基礎大小模型)](https://huggingface.co/xlm - roberta - base) 卡片或論文 Unsupervised Cross - lingual Representation Learning at Scale by Conneau et al.。
📄 許可證
本模型採用 MIT 許可證。
引用
使用此模型時,請引用以下論文:
@misc{ercdidip2022,
title={langdetect (Revision 0215f72)},
author={Kovács, Tamás, Atzenhofer - Baumgartner, Florian, Aoun, Sandy, Nicolaou, Anguelos, Luger, Daniel, Decker, Franziska, Lamminger, Florian and Vogeler, Georg},
year = { 2022 },
url = { https://huggingface.co/ERCDiDip/40_langdetect_v01 },
doi = { 10.57967/hf/0135 },
publisher = { Hugging Face }
}
本模型是由歐洲研究委員會資助的 From Digital to Distant Diplomatics (DiDip) ERC 項目 的一部分。