🚀 ONNX版本的papluca/xlm-roberta-base-language-detection
本模型是將 papluca/xlm-roberta-base-language-detection 轉換為ONNX格式的模型,轉換過程使用了 🤗 Optimum 庫。
🚀 快速開始
本模型可直接作為語言檢測器使用,即用於序列分類任務。目前,它支持以下20種語言:
阿拉伯語 (ar)、保加利亞語 (bg)、德語 (de)、現代希臘語 (el)、英語 (en)、西班牙語 (es)、法語 (fr)、印地語 (hi)、意大利語 (it)、日語 (ja)、荷蘭語 (nl)、波蘭語 (pl)、葡萄牙語 (pt)、俄語 (ru)、斯瓦希里語 (sw)、泰語 (th)、土耳其語 (tr)、烏爾都語 (ur)、越南語 (vi) 和中文 (zh)
✨ 主要特性
📦 安裝指南
加載模型需要安裝 🤗 Optimum 庫。
💻 使用示例
基礎用法
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
task="text-classification",
model=model,
tokenizer=tokenizer,
top_k=None,
)
classifier_output = ner("It's not toxic comment")
print(classifier_output)
高級用法
可將該模型用於 Language scanner。
📚 詳細文檔
如需更多信息,請參考 xlm-roberta-base 模型卡片或Conneau等人的論文 Unsupervised Cross - lingual Representation Learning at Scale。
📄 許可證
本模型採用MIT許可證。
🔗 社區
加入我們的Slack社區,給我們反饋,與維護者和其他用戶建立聯繫,提問或參與有關大語言模型安全的討論!

信息表格
屬性 |
詳情 |
模型類型 |
基於XLM - RoBERTa的文本分類模型 |
訓練數據 |
Language Identification數據集 |
支持語言 |
阿拉伯語 (ar)、保加利亞語 (bg)、德語 (de)、現代希臘語 (el)、英語 (en)、西班牙語 (es)、法語 (fr)、印地語 (hi)、意大利語 (it)、日語 (ja)、荷蘭語 (nl)、波蘭語 (pl)、葡萄牙語 (pt)、俄語 (ru)、斯瓦希里語 (sw)、泰語 (th)、土耳其語 (tr)、烏爾都語 (ur)、越南語 (vi) 和中文 (zh) |
許可證 |
MIT |
評估指標 |
準確率、F1值 |
基礎模型 |
papluca/xlm-roberta-base-language-detection |
任務類型 |
文本分類 |