xlm - roberta - base - language - detection - onnx開源模型 - 免費部署支持20種語言檢測分類

首頁

Xlm Roberta Base Language Detection Onnx

由protectai開發

這是papluca/xlm-roberta-base-language-detection模型的ONNX格式轉換版本，用於多語言文本分類任務，支持20種語言的檢測。

文本分類

Transformers

支持多種語言開源協議:MIT #多語言檢測 #文本分類 #ONNX優化

下載量 6,535

發布時間 : 11/14/2023

模型概述

基於xlm-roberta-base微調的語言檢測模型，能夠識別20種不同語言的文本內容。

模型特點

多語言支持

支持20種不同語言的檢測，覆蓋全球主要語種。

ONNX格式

轉換為ONNX格式，優化推理性能，便於部署。

高準確率

基於XLM-RoBERTa-base微調，在語言識別任務上表現優異。

模型能力

語言檢測

文本分類

使用案例

內容審核

多語言內容分類

自動識別用戶提交內容的語言類型，便於後續處理。

準確識別20種語言的文本內容

國際化應用

語言路由

根據用戶輸入自動切換到對應語言的界面或服務。

提升多語言用戶體驗

🚀 ONNX版本的papluca/xlm-roberta-base-language-detection

本模型是將 papluca/xlm-roberta-base-language-detection 轉換為ONNX格式的模型，轉換過程使用了 🤗 Optimum 庫。

🚀 快速開始

本模型可直接作為語言檢測器使用，即用於序列分類任務。目前，它支持以下20種語言：

阿拉伯語 (ar)、保加利亞語 (bg)、德語 (de)、現代希臘語 (el)、英語 (en)、西班牙語 (es)、法語 (fr)、印地語 (hi)、意大利語 (it)、日語 (ja)、荷蘭語 (nl)、波蘭語 (pl)、葡萄牙語 (pt)、俄語 (ru)、斯瓦希里語 (sw)、泰語 (th)、土耳其語 (tr)、烏爾都語 (ur)、越南語 (vi) 和中文 (zh)

✨ 主要特性

本模型是 xlm-roberta-base 在 Language Identification 數據集上的微調版本。
它是一個XLM - RoBERTa變壓器模型，頂部帶有一個分類頭（即在池化輸出之上有一個線性層）。

📦 安裝指南

加載模型需要安裝 🤗 Optimum 庫。

💻 使用示例

基礎用法

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
    task="text-classification",
    model=model,
    tokenizer=tokenizer,
    top_k=None,
)

classifier_output = ner("It's not toxic comment")
print(classifier_output)

高級用法

可將該模型用於 Language scanner。

📚 詳細文檔

如需更多信息，請參考 xlm-roberta-base 模型卡片或Conneau等人的論文 Unsupervised Cross - lingual Representation Learning at Scale。

📄 許可證

本模型採用MIT許可證。

🔗 社區

加入我們的Slack社區，給我們反饋，與維護者和其他用戶建立聯繫，提問或參與有關大語言模型安全的討論！

信息表格

屬性	詳情
模型類型	基於XLM - RoBERTa的文本分類模型
訓練數據	Language Identification數據集
支持語言	阿拉伯語 (ar)、保加利亞語 (bg)、德語 (de)、現代希臘語 (el)、英語 (en)、西班牙語 (es)、法語 (fr)、印地語 (hi)、意大利語 (it)、日語 (ja)、荷蘭語 (nl)、波蘭語 (pl)、葡萄牙語 (pt)、俄語 (ru)、斯瓦希里語 (sw)、泰語 (th)、土耳其語 (tr)、烏爾都語 (ur)、越南語 (vi) 和中文 (zh)
許可證	MIT
評估指標	準確率、F1值
基礎模型	papluca/xlm-roberta-base-language-detection
任務類型	文本分類