distilroberta-base-ner-wikiannオープンソースの命名実体認識モデル

ホーム

Distilroberta Base Ner Wikiann

philschmidによって開発

DistilRoBERTa-baseモデルをwikiannデータセットでファインチューニングした固有表現抽出モデルで、テキスト中の固有表現を識別します。

シーケンスラベリング

Transformers

オープンソースライセンス:Apache-2.0 #固有表現抽出 #多言語対応 #高精度NER

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはDistilRoBERTa-baseの軽量版で、wikiannデータセットでファインチューニングされ、固有表現抽出タスク専用に設計されています。

モデル特徴

効率的で軽量

DistilRoBERTaベースの軽量アーキテクチャで、性能を維持しながら計算リソース要件を削減。

高精度識別

wikiannテストセットで83.78%のF1スコアを達成し、優れた性能を発揮。

多言語サポート

wikiann多言語データセットで訓練されており、複数言語の固有表現抽出をサポート。

モデル能力

固有表現抽出

テキストトークン分類

多言語テキスト処理

使用事例

情報抽出

ニュース記事の固有表現抽出

ニュース記事から人名、地名、組織名などの固有表現情報を抽出。

約92%の精度

ソーシャルメディアテキスト分析

ソーシャルメディアテキストの固有表現分析によるユーザープロファイリング。

知識グラフ構築

知識グラフ用エンティティ抽出

非構造化テキストから知識グラフ構築用のエンティティを抽出。

🚀 distilroberta-base-ner-wikiann

このモデルは、wikiannデータセットでdistilroberta-baseをファインチューニングしたバージョンです。

評価時のF1スコア: 83,78 テスト時のF1スコア: 83,76

🚀 クイックスタート

このモデルの使用方法を以下に示します。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("philschmid/distilroberta-base-ner-wikiann")
model = AutoModelForTokenClassification.from_pretrained("philschmid/distilroberta-base-ner-wikiann")

nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "My name is Philipp and live in Germany"

nlp(example)