🚀 ONNX版本的papluca/xlm-roberta-base-language-detection
本模型是將 papluca/xlm-roberta-base-language-detection 轉換為ONNX格式的模型,使用 🤗 Optimum 庫完成轉換。它可用於語言檢測任務,支持多種常見語言,為語言相關的序列分類工作提供了便利。
🚀 快速開始
本模型可直接作為語言檢測器使用,即用於序列分類任務。使用前需確保安裝了 🤗 Optimum 庫。
✨ 主要特性
- 多語言支持:支持20種語言,包括阿拉伯語(ar)、保加利亞語(bg)、德語(de)、現代希臘語(el)、英語(en)、西班牙語(es)、法語(fr)、印地語(hi)、意大利語(it)、日語(ja)、荷蘭語(nl)、波蘭語(pl)、葡萄牙語(pt)、俄語(ru)、斯瓦希里語(sw)、泰語(th)、土耳其語(tr)、烏爾都語(ur)、越南語(vi)和中文(zh)。
- 模型結構:是在 xlm-roberta-base 基礎上,在 Language Identification 數據集上微調得到的XLM - RoBERTa變壓器模型,並在頂部添加了分類頭(即池化輸出上的線性層)。
📦 安裝指南
加載模型需要安裝 🤗 Optimum 庫。
💻 使用示例
基礎用法
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
task="text-classification",
model=model,
tokenizer=tokenizer,
top_k=None,
)
classifier_output = ner("It's not toxic comment")
print(classifier_output)
高級用法
可結合 Language scanner 進行使用。
📚 詳細文檔
如需更多信息,請參考 xlm-roberta-base 模型卡片或Conneau等人的論文 Unsupervised Cross-lingual Representation Learning at Scale。
🔧 技術細節
本模型是在 xlm-roberta-base 模型基礎上,在 Language Identification 數據集上進行微調得到的。它是一個XLM - RoBERTa變壓器模型,頂部添加了分類頭(即池化輸出上的線性層)。
📄 許可證
本模型使用MIT許可證。
社區
加入我們的Slack社區,給我們反饋、與維護者和其他用戶建立聯繫、提問或參與有關大語言模型安全的討論!

信息表格
屬性 |
詳情 |
模型類型 |
ONNX版本的XLM - RoBERTa變壓器模型,頂部帶有分類頭 |
訓練數據 |
Language Identification數據集 |
支持語言 |
阿拉伯語(ar)、保加利亞語(bg)、德語(de)、現代希臘語(el)、英語(en)、西班牙語(es)、法語(fr)、印地語(hi)、意大利語(it)、日語(ja)、荷蘭語(nl)、波蘭語(pl)、葡萄牙語(pt)、俄語(ru)、斯瓦希里語(sw)、泰語(th)、土耳其語(tr)、烏爾都語(ur)、越南語(vi)和中文(zh) |
許可證 |
MIT |