🚀 ONNX版本的papluca/xlm-roberta-base-language-detection
本模型是将 papluca/xlm-roberta-base-language-detection 转换为ONNX格式的模型,转换过程使用了 🤗 Optimum 库。
🚀 快速开始
本模型可直接作为语言检测器使用,即用于序列分类任务。目前,它支持以下20种语言:
阿拉伯语 (ar)、保加利亚语 (bg)、德语 (de)、现代希腊语 (el)、英语 (en)、西班牙语 (es)、法语 (fr)、印地语 (hi)、意大利语 (it)、日语 (ja)、荷兰语 (nl)、波兰语 (pl)、葡萄牙语 (pt)、俄语 (ru)、斯瓦希里语 (sw)、泰语 (th)、土耳其语 (tr)、乌尔都语 (ur)、越南语 (vi) 和中文 (zh)
✨ 主要特性
📦 安装指南
加载模型需要安装 🤗 Optimum 库。
💻 使用示例
基础用法
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
task="text-classification",
model=model,
tokenizer=tokenizer,
top_k=None,
)
classifier_output = ner("It's not toxic comment")
print(classifier_output)
高级用法
可将该模型用于 Language scanner。
📚 详细文档
如需更多信息,请参考 xlm-roberta-base 模型卡片或Conneau等人的论文 Unsupervised Cross - lingual Representation Learning at Scale。
📄 许可证
本模型采用MIT许可证。
🔗 社区
加入我们的Slack社区,给我们反馈,与维护者和其他用户建立联系,提问或参与有关大语言模型安全的讨论!

信息表格
属性 |
详情 |
模型类型 |
基于XLM - RoBERTa的文本分类模型 |
训练数据 |
Language Identification数据集 |
支持语言 |
阿拉伯语 (ar)、保加利亚语 (bg)、德语 (de)、现代希腊语 (el)、英语 (en)、西班牙语 (es)、法语 (fr)、印地语 (hi)、意大利语 (it)、日语 (ja)、荷兰语 (nl)、波兰语 (pl)、葡萄牙语 (pt)、俄语 (ru)、斯瓦希里语 (sw)、泰语 (th)、土耳其语 (tr)、乌尔都语 (ur)、越南语 (vi) 和中文 (zh) |
许可证 |
MIT |
评估指标 |
准确率、F1值 |
基础模型 |
papluca/xlm-roberta-base-language-detection |
任务类型 |
文本分类 |