xlm - roberta - base - language - detection - tfjs开源模型

首页

Xlm Roberta Base Language Detection Tfjs

由 dnouv 开发

这是一个基于XLM-RoBERTa的多语言检测模型，支持20种语言的识别。

文本分类支持多种语言开源协议:MIT #多语言检测 #ONNX优化 #文本分类

下载量 14

发布时间 : 4/7/2025

模型简介

该模型是基于xlm-roberta-base在语言识别数据集上微调的版本，用于文本分类任务，能够识别20种不同语言。

模型特点

多语言支持

支持20种不同语言的检测

ONNX格式

转换为ONNX格式，优化推理性能

高准确率

基于XLM-RoBERTa的强大语言理解能力

模型能力

语言检测

文本分类

使用案例

内容审核

多语言内容分类

自动识别用户生成内容的语言

提高内容分类效率

本地化服务

语言识别

识别用户输入的语言以提供相应服务

改善用户体验

🚀 ONNX版本的papluca/xlm-roberta-base-language-detection

本模型是将 papluca/xlm-roberta-base-language-detection 转换为ONNX格式的模型，使用 🤗 Optimum 库完成转换。它可用于语言检测任务，支持多种常见语言，为语言相关的序列分类工作提供了便利。

🚀 快速开始

本模型可直接作为语言检测器使用，即用于序列分类任务。使用前需确保安装了 🤗 Optimum 库。

✨ 主要特性

多语言支持：支持20种语言，包括阿拉伯语（ar）、保加利亚语（bg）、德语（de）、现代希腊语（el）、英语（en）、西班牙语（es）、法语（fr）、印地语（hi）、意大利语（it）、日语（ja）、荷兰语（nl）、波兰语（pl）、葡萄牙语（pt）、俄语（ru）、斯瓦希里语（sw）、泰语（th）、土耳其语（tr）、乌尔都语（ur）、越南语（vi）和中文（zh）。
模型结构：是在 xlm-roberta-base 基础上，在 Language Identification 数据集上微调得到的XLM - RoBERTa变压器模型，并在顶部添加了分类头（即池化输出上的线性层）。

📦 安装指南

加载模型需要安装 🤗 Optimum 库。

💻 使用示例

基础用法

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
    task="text-classification",
    model=model,
    tokenizer=tokenizer,
    top_k=None,
)

classifier_output = ner("It's not toxic comment")
print(classifier_output)

高级用法

可结合 Language scanner 进行使用。

📚 详细文档

如需更多信息，请参考 xlm-roberta-base 模型卡片或Conneau等人的论文 Unsupervised Cross-lingual Representation Learning at Scale。

🔧 技术细节

本模型是在 xlm-roberta-base 模型基础上，在 Language Identification 数据集上进行微调得到的。它是一个XLM - RoBERTa变压器模型，顶部添加了分类头（即池化输出上的线性层）。

📄 许可证

本模型使用MIT许可证。

社区

加入我们的Slack社区，给我们反馈、与维护者和其他用户建立联系、提问或参与有关大语言模型安全的讨论！

信息表格

属性	详情
模型类型	ONNX版本的XLM - RoBERTa变压器模型，顶部带有分类头
训练数据	Language Identification数据集
支持语言	阿拉伯语（ar）、保加利亚语（bg）、德语（de）、现代希腊语（el）、英语（en）、西班牙语（es）、法语（fr）、印地语（hi）、意大利语（it）、日语（ja）、荷兰语（nl）、波兰语（pl）、葡萄牙语（pt）、俄语（ru）、斯瓦希里语（sw）、泰语（th）、土耳其语（tr）、乌尔都语（ur）、越南语（vi）和中文（zh）
许可证	MIT