xlm-roberta-base-turkish-nerオープンソースモデル - トルコ語の人名、組織名、地名を無料で識別する

ホーム

Xlm Roberta Base Turkish Ner

akdeniz27によって開発

xlm-roberta-baseをファインチューニングしたトルコ語固有表現認識モデルで、トルコ語テキスト内の人名、組織名、地名を識別します。

シーケンスラベリング

Transformers

その他オープンソースライセンス:MIT #トルコ語NER #多言語RoBERTa #高精度エンティティ認識

ダウンロード数 113

リリース時間 : 3/2/2022

モデル概要

このモデルは多言語RoBERTaモデルをファインチューニングしたトルコ語固有表現認識モデルで、トルコ語テキスト内の人名(PER)、組織名(ORG)、地名(LOC)を正確に識別できます。

モデル特徴

多言語ベースモデル

xlm-roberta-baseをベースにファインチューニングされており、強力な多言語理解能力を継承しています

高精度

テストセットで99.19%の精度と94.92%のF1スコアを達成

エンティティグループ化サポート

aggregation_strategyパラメータによりエンティティグループ化機能をサポート

モデル能力

トルコ語テキストのエンティティ認識

人名認識(PER)

組織名認識(ORG)

地名認識(LOC)

使用事例

テキスト分析

歴史テキスト分析

歴史的人物や場所を含むトルコ語テキストの分析

例では'ムスタファ・ケマル・アタテュルク'を人名、'サムスン'を地名として正しく識別

情報抽出

ニュース記事処理

トルコ語ニュースから主要なエンティティ情報を抽出

🚀 トルコ語固有表現認識 (NER) モデル

このモデルは、有名なトルコ語NERデータセットのレビュー版 (https://github.com/stefan-it/turkish-bert/files/4558187/nerdata.txt) を使用して、「xlm - roberta - base」（RoBERTaの多言語版）をファインチューニングしたバージョンです。

🚀 クイックスタート

このトルコ語固有表現認識モデルは、特定のデータセットを用いて「xlm - roberta - base」をファインチューニングして生成されました。以下に、使用方法やファインチューニングのパラメータ、参考となるテスト結果を示します。

✨ 主な機能

トルコ語の固有表現を認識することができます。
「xlm - roberta - base」をベースにした多言語対応のモデルです。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールし、モデルをロードする必要があります。具体的なコードは「💻 使用例」で説明します。

💻 使用例

基本的な使用法

# モデルとトークナイザーのロード
model = AutoModelForTokenClassification.from_pretrained("akdeniz27/xlm-roberta-base-turkish-ner")
tokenizer = AutoTokenizer.from_pretrained("akdeniz27/xlm-roberta-base-turkish-ner")
# NERパイプラインの設定
ner = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
# 固有表現認識の実行
ner("<your text here>")

高度な使用法

entity groupingに関しては、「https://huggingface.co/transformers/_modules/transformers/pipelines/token_classification.html」を参照して、aggregation_strategyパラメータを設定してください。

🔧 技術詳細

ファインチューニングパラメータ

task = "ner"
model_checkpoint = "xlm-roberta-base"
batch_size = 8 
label_list = ['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC']
max_length = 512 
learning_rate = 2e-5 
num_train_epochs = 2 
weight_decay = 0.01