🚀 ONNX版本的papluca/xlm-roberta-base-language-detection
本模型是将 papluca/xlm-roberta-base-language-detection 转换为ONNX格式的模型,使用 🤗 Optimum 库完成转换。它可用于语言检测任务,支持多种常见语言,为语言相关的序列分类工作提供了便利。
🚀 快速开始
本模型可直接作为语言检测器使用,即用于序列分类任务。使用前需确保安装了 🤗 Optimum 库。
✨ 主要特性
- 多语言支持:支持20种语言,包括阿拉伯语(ar)、保加利亚语(bg)、德语(de)、现代希腊语(el)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、意大利语(it)、日语(ja)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、斯瓦希里语(sw)、泰语(th)、土耳其语(tr)、乌尔都语(ur)、越南语(vi)和中文(zh)。
- 模型结构:是在 xlm-roberta-base 基础上,在 Language Identification 数据集上微调得到的XLM - RoBERTa变压器模型,并在顶部添加了分类头(即池化输出上的线性层)。
📦 安装指南
加载模型需要安装 🤗 Optimum 库。
💻 使用示例
基础用法
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
task="text-classification",
model=model,
tokenizer=tokenizer,
top_k=None,
)
classifier_output = ner("It's not toxic comment")
print(classifier_output)
高级用法
可结合 Language scanner 进行使用。
📚 详细文档
如需更多信息,请参考 xlm-roberta-base 模型卡片或Conneau等人的论文 Unsupervised Cross-lingual Representation Learning at Scale。
🔧 技术细节
本模型是在 xlm-roberta-base 模型基础上,在 Language Identification 数据集上进行微调得到的。它是一个XLM - RoBERTa变压器模型,顶部添加了分类头(即池化输出上的线性层)。
📄 许可证
本模型使用MIT许可证。
社区
加入我们的Slack社区,给我们反馈、与维护者和其他用户建立联系、提问或参与有关大语言模型安全的讨论!

信息表格
属性 |
详情 |
模型类型 |
ONNX版本的XLM - RoBERTa变压器模型,顶部带有分类头 |
训练数据 |
Language Identification数据集 |
支持语言 |
阿拉伯语(ar)、保加利亚语(bg)、德语(de)、现代希腊语(el)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、意大利语(it)、日语(ja)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、斯瓦希里语(sw)、泰语(th)、土耳其语(tr)、乌尔都语(ur)、越南语(vi)和中文(zh) |
许可证 |
MIT |