rured2-ner-microsoft-mdeberta-v3-baseオープンソースモデル - 高精度でロシア語の命名エンティティ認識を行います！

ホーム

Rured2 Ner Microsoft Mdeberta V3 Base

denis-gordeevによって開発

microsoft/mdeberta - v3 - baseを微調整したロシア語の命名エンティティ認識モデルで、単一トークンの多ラベル出力をサポートします。

シーケンスラベリング

Transformers

その他オープンソースライセンス:MIT #ロシア語の多ラベルNER #エンティティ認識の微調整 #商業代替分析

ダウンロード数 132

リリース時間 : 11/15/2023

モデル概要

このモデルはロシア語テキストに対する多ラベル命名エンティティ認識（NER）モデルで、RURED2データセットを基に微調整され、テキスト内のさまざまなエンティティタイプを識別できます。

モデル特徴

多ラベル出力

単一トークンの多ラベル出力をサポートし、1つの単語が複数のエンティティタイプに属することを同時に識別できます。

ロシア語最適化

ロシア語テキストに特化して最適化された命名エンティティ認識モデルです。

mdeberta - v3 - baseベース

強力な多言語DeBERTaモデルを基に微調整され、優れたコンテキスト理解能力を持っています。

モデル能力

ロシア語テキスト分析

命名エンティティ認識

多ラベル分類

使用事例

ニュース分析

ニュースエンティティ抽出

ロシア語ニュースから人名、地名、組織名などのエンティティを抽出します。

例では、ブランド名（Perspective、Ketroy、Mexx）と会社名（赤塔の泉）が正常に識別されました。

ビジネスインテリジェンス

ブランドモニタリング

ロシア語メディアで言及されたブランドと会社を追跡します。

代替ブランドと国内製品の情報を識別できます。

法律と安全

犯罪報告分析

警察の報告書から関係者と場所の情報を抽出します。

例では、犯罪現場（新シベリア）と容疑者の身元（トムスク在住者）が識別されました。

🚀 denis-gordeev/rured2-ner-microsoft-mdeberta-v3-base

このモデルは、ロシア語の固有表現抽出（NER）に特化したモデルです。microsoft/mdeberta-v3-base をベースに、特定のデータセットでファインチューニングされています。評価セットで良好な結果を達成しており、様々な固有表現の抽出に有効です。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

基本的な使用法

# このコードは、モデルを使用して固有表現抽出を行う基本的な例です。
import torch
from torch import nn
from transformers import (AutoTokenizer, AutoModelForTokenClassification, 
                          TrainingArguments, Trainer)

model_name = "denis-gordeev/rured2-ner-microsoft-mdeberta-v3-base"
model = AutoModelForTokenClassification.from_pretrained(
    model_name).to('cuda')

tokenizer = AutoTokenizer.from_pretrained(model_name)

def predict(text:str, glue_tokens=False, output_together=True, glue_words=True):
    sigmoid = nn.Sigmoid()
    tokenized = tokenizer(text)
    input_ids = torch.tensor(
            [tokenized["input_ids"]], dtype=torch.long
        ).to("cuda")
    token_type_ids = torch.tensor(
            [tokenized["token_type_ids"]], dtype=torch.long
        ).to("cuda")
    attention_mask = torch.tensor(
            [tokenized["attention_mask"]], dtype=torch.long
        ).to("cuda")
    preds = model(**{"input_ids": input_ids, "token_type_ids": token_type_ids, "attention_mask": attention_mask})
    logits = sigmoid(preds.logits)

    output_tokens = []
    output_preds = []
    id_to_label = {int(k): v for k, v in model.config.id2label.items()}
    for i, token in enumerate(input_ids[0]):
        if token > 3:
            class_ids = (logits[0][i] > 0.5).nonzero()
            if class_ids.shape[0] >= 1:
                class_names = [id_to_label[int(cl)] for cl in class_ids]
            else:
                class_names = [id_to_label[int(logits[0][i].argmax())]]
            converted_token = tokenizer.convert_ids_to_tokens([token])[0]
            new_word_bool = converted_token.startswith("▁")
            converted_token = converted_token.replace("▁", "")
            if glue_words and not(new_word_bool) and output_tokens:
                output_tokens[-1] += converted_token
            else:
                output_tokens.append(converted_token)
                output_preds.append(class_names)
        else:
            class_names = []
    if output_together:
        return [[output_tokens[t_i], output_preds[t_i]] for t_i in range(len(output_tokens))]
    return output_tokens, output_preds

✨ 主な機能

このモデルは、microsoft/mdeberta-v3-base をベースにファインチューニングされています。
評価セットで以下のような結果を達成しています。
- Loss: 0.0096
- F1 Micro: 0.5837
- O F1 Micro: 0.6370
- 他にも様々な固有表現に関する評価指標で良好な結果を示しています。

📚 ドキュメント

モデルの詳細

このモデルは、microsoft/mdeberta-v3-base のファインチューニングバージョンです。特定のデータセットで訓練され、評価セットで以下の結果を達成しています。

評価指標	数値
Loss	0.0096
F1 Micro	0.5837
O F1 Micro	0.6370
O Recall Micro	0.9242
O Precision Micro	0.4860
B-person F1 Micro	0.9639
他多数...	...
F1 Macro	0.3969
Recall Macro	0.5603
Precision Macro	0.3447