xlm-roberta-base-finetuned-panx-allオープンソースモデル - 無料で多言語の固有表現抽出を実現する

ホーム

Xlm Roberta Base Finetuned Panx All

okite97によって開発

xlm-roberta-baseモデルをPANXデータセットでファインチューニングした多言語固有表現認識モデル

大規模言語モデル

Transformers

オープンソースライセンス:MIT #多言語NLP #高いF1スコア #テキスト分類

ダウンロード数 15

リリース時間 : 7/9/2022

モデル概要

このモデルは、XLM - RoBERTa基礎モデルをPANX多言語固有表現認識データセットでファインチューニングしたバージョンで、多言語テキストの固有表現認識タスクに適しています。

モデル特徴

多言語サポート

XLM - RoBERTaアーキテクチャに基づき、複数の言語の固有表現認識をサポートします。

高性能

評価セットで0.8538のF1スコアを達成し、優れた性能を発揮します。

転移学習

大規模な多言語コーパスで事前学習した後にファインチューニングすることで、強力な汎化能力を持ちます。

モデル能力

多言語テキスト処理

固有表現認識

系列ラベリング

使用事例

自然言語処理

多言語ドキュメントの固有表現抽出

多言語ドキュメントから人名、地名、組織名などの固有表現を識別して抽出します。

PANXデータセットで85.38%のF1スコアを達成します。

異言語情報抽出

異なる言語のテキストの固有表現認識をサポートし、異言語情報の統合を容易にします。

ハイパーパラメータ	値
learning_rate	5e-05
train_batch_size	16
eval_batch_size	16
seed	42
optimizer	Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type	linear
num_epochs	3

学習損失	エポック	ステップ	検証損失	F1
0.2967	1.0	1109	0.2050	0.8180
0.1571	2.0	2218	0.1880	0.8415
0.0983	3.0	3327	0.1883	0.8538

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Xlm Roberta Base Finetuned Panx All

モデル概要

モデル特徴

モデル能力

使用事例

🚀 xlm-roberta-base-finetuned-panx-all

🚀 クイックスタート

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス