xlm - roberta - base - language - detection - tfjs開源模型

首頁

Xlm Roberta Base Language Detection Tfjs

由dnouv開發

這是一個基於XLM-RoBERTa的多語言檢測模型，支持20種語言的識別。

文本分類支持多種語言開源協議:MIT #多語言檢測 #ONNX優化 #文本分類

下載量 14

發布時間 : 4/7/2025

模型概述

該模型是基於xlm-roberta-base在語言識別數據集上微調的版本，用於文本分類任務，能夠識別20種不同語言。

模型特點

多語言支持

支持20種不同語言的檢測

ONNX格式

轉換為ONNX格式，優化推理性能

高準確率

基於XLM-RoBERTa的強大語言理解能力

模型能力

語言檢測

文本分類

使用案例

內容審核

多語言內容分類

自動識別用戶生成內容的語言

提高內容分類效率

本地化服務

語言識別

識別用戶輸入的語言以提供相應服務

改善用戶體驗

🚀 ONNX版本的papluca/xlm-roberta-base-language-detection

本模型是將 papluca/xlm-roberta-base-language-detection 轉換為ONNX格式的模型，使用 🤗 Optimum 庫完成轉換。它可用於語言檢測任務，支持多種常見語言，為語言相關的序列分類工作提供了便利。

🚀 快速開始

本模型可直接作為語言檢測器使用，即用於序列分類任務。使用前需確保安裝了 🤗 Optimum 庫。

✨ 主要特性

多語言支持：支持20種語言，包括阿拉伯語（ar）、保加利亞語（bg）、德語（de）、現代希臘語（el）、英語（en）、西班牙語（es）、法語（fr）、印地語（hi）、意大利語（it）、日語（ja）、荷蘭語（nl）、波蘭語（pl）、葡萄牙語（pt）、俄語（ru）、斯瓦希里語（sw）、泰語（th）、土耳其語（tr）、烏爾都語（ur）、越南語（vi）和中文（zh）。
模型結構：是在 xlm-roberta-base 基礎上，在 Language Identification 數據集上微調得到的XLM - RoBERTa變壓器模型，並在頂部添加了分類頭（即池化輸出上的線性層）。

📦 安裝指南

加載模型需要安裝 🤗 Optimum 庫。

💻 使用示例

基礎用法

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
    task="text-classification",
    model=model,
    tokenizer=tokenizer,
    top_k=None,
)

classifier_output = ner("It's not toxic comment")
print(classifier_output)

高級用法

可結合 Language scanner 進行使用。

📚 詳細文檔

如需更多信息，請參考 xlm-roberta-base 模型卡片或Conneau等人的論文 Unsupervised Cross-lingual Representation Learning at Scale。

🔧 技術細節

本模型是在 xlm-roberta-base 模型基礎上，在 Language Identification 數據集上進行微調得到的。它是一個XLM - RoBERTa變壓器模型，頂部添加了分類頭（即池化輸出上的線性層）。

📄 許可證

本模型使用MIT許可證。

社區

加入我們的Slack社區，給我們反饋、與維護者和其他用戶建立聯繫、提問或參與有關大語言模型安全的討論！

信息表格

屬性	詳情
模型類型	ONNX版本的XLM - RoBERTa變壓器模型，頂部帶有分類頭
訓練數據	Language Identification數據集
支持語言	阿拉伯語（ar）、保加利亞語（bg）、德語（de）、現代希臘語（el）、英語（en）、西班牙語（es）、法語（fr）、印地語（hi）、意大利語（it）、日語（ja）、荷蘭語（nl）、波蘭語（pl）、葡萄牙語（pt）、俄語（ru）、斯瓦希里語（sw）、泰語（th）、土耳其語（tr）、烏爾都語（ur）、越南語（vi）和中文（zh）
許可證	MIT