xlm - roberta - base - language - detection - tfjsオープンソースモデル

ホーム

Xlm Roberta Base Language Detection Tfjs

dnouvによって開発

これはXLM-RoBERTaベースの多言語検出モデルで、20言語の識別をサポートしています。

テキスト分類複数言語対応オープンソースライセンス:MIT #多言語検出 #ONNX最適化 #テキスト分類

ダウンロード数 14

リリース時間 : 4/7/2025

モデル概要

このモデルはxlm-roberta-baseを言語識別データセットでファインチューニングしたバージョンで、テキスト分類タスクに使用され、20の異なる言語を識別できます。

モデル特徴

多言語サポート

20の異なる言語の検出をサポート

ONNXフォーマット

ONNXフォーマットに変換し、推論性能を最適化

高精度

XLM-RoBERTaの強力な言語理解能力に基づく

モデル能力

言語検出

テキスト分類

使用事例

コンテンツモデレーション

多言語コンテンツ分類

ユーザー生成コンテンツの言語を自動識別

コンテンツ分類効率の向上

ローカライゼーションサービス

言語識別

ユーザー入力の言語を識別して適切なサービスを提供

ユーザー体験の改善

🚀 papluca/xlm - roberta - base - language - detectionのONNXバージョン

このモデルは、🤗 Optimumライブラリを使用して、[papluca/xlm - roberta - base - language - detection](https://huggingface.co/papluca/xlm - roberta - base - language - detection)をONNX形式に変換したものです。このモデルは言語検出に役立ち、多言語のシーケンス分類タスクに使用できます。

🚀 クイックスタート

このモデルは、[Language Identification](https://huggingface.co/datasets/papluca/language - identification#additional - information)データセットで[xlm - roberta - base](https://huggingface.co/xlm - roberta - base)をファインチューニングしたバージョンです。これは、分類ヘッド（プールされた出力の上に線形層）を備えたXLM - RoBERTaトランスフォーマーモデルです。詳細については、[xlm - roberta - base](https://huggingface.co/xlm - roberta - base)のモデルカードまたはConneauらによる論文Unsupervised Cross - lingual Representation Learning at Scaleを参照してください。

✨ 主な機能

20種類の言語をサポートしており、直接言語検出器として使用できます。
シーケンス分類タスクに適用可能です。

📦 インストール

モデルをロードするには、🤗 Optimumライブラリをインストールする必要があります。

💻 使用例

基本的な使用法

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline


tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
    task="text-classification",
    model=model,
    tokenizer=tokenizer,
    top_k=None,
)

classifier_output = ner("It's not toxic comment")
print(classifier_output)

高度な使用法

Language scanner

📚 ドキュメント

想定される用途と制限

このモデルは、言語検出器として直接使用でき、シーケンス分類タスクに適しています。現在、以下の20種類の言語をサポートしています。

arabic (ar), bulgarian (bg), german (de), modern greek (el), english (en), spanish (es), french (fr), hindi (hi), italian (it), japanese (ja), dutch (nl), polish (pl), portuguese (pt), russian (ru), swahili (sw), thai (th), turkish (tr), urdu (ur), vietnamese (vi), and chinese (zh)

🔧 技術詳細

このモデルは、分類ヘッド（プールされた出力の上に線形層）を備えたXLM - RoBERTaトランスフォーマーモデルです。詳細については、[xlm - roberta - base](https://huggingface.co/xlm - roberta - base)のモデルカードまたはConneauらによる論文Unsupervised Cross - lingual Representation Learning at Scaleを参照してください。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

🌐 コミュニティ

フィードバックを提供したり、メンテナーや他のユーザーと交流したり、質問したり、LLMセキュリティに関する議論に参加したりするために、私たちのSlackに参加しましょう！

属性	详情
サポート言語	arabic (ar), bulgarian (bg), german (de), modern greek (el), english (en), spanish (es), french (fr), hindi (hi), italian (it), japanese (ja), dutch (nl), polish (pl), portuguese (pt), russian (ru), swahili (sw), thai (th), turkish (tr), urdu (ur), vietnamese (vi), and chinese (zh)
ベースモデル	papluca/xlm - roberta - base - language - detection
パイプラインタグ	text - classification
評価指標	accuracy, f1